[ Zavřít ] 


 

RSS Kanál

 

Vyhledávání Seznamu ovlivní významové vektory KE STAŽENÍ

Seznam implementoval největší změnu do vyhledávání za posledních deset let. Jde o hledání pomocí významových vektorů. Díky vektorové reprezentaci slov by tak měl najít i odpověď i na těch webech, na nichž konkrétní slova z vyhledávacího dotazu chybí. Co všechno významové vektory ovlivní?

 

Vyhledávání Seznamu ovlivní významové vektory (Zdroj: Seznam.cz)

Jak Seznam vyhledával doposud?

Základ toho, jak funguje strojové zpracovávání vyhledávacích dotazů přibližuje Tomáš Mikolov, výzkumník strojového učení a autor knihoven word2vec a fastText pro strojové zpracování jazyka:

„počítač vidí slova tak, že si nejdříve spočítá slovník a každé slovo se převede na číslo, což je pozice v tom slovníku. Tím pádem je věta zakódovaná jako sekvence čísel a každé slovo je vlastně unikátní. Stačí udělat jeden překlep a počítač slovo vidí jako naprosto jiné slovo...

Pokud jsou slova podobná, tak to tento slovníkový přístup nedokáže zohlednit a systém si zpětně musí dohledat, že třeba „český“ a „česká“ jsou si podobná slova a že by se tam měly sdílet parametry.“

A právě takto základní slovník dosud rozšiřoval i Seznam pomocí lemmatizace a latentního sémantického indexování. Konkrétně to přibližuje Martina Pomikálková, šéfka týmů zpracování dotazu a vektorového hledání:

„dotaz od uživatele jsme opravili, analyzovali a přidali k němu další slova, která by mohla pomoci najít to, co uživatel hledal. Takovými slovy mohly být skloňované tvary zadaných slov, synonyma, rozvinuté zkratky apod. Tato slova jsme pak hledali v zaindexovaných webových stránkách, nalezené stránky řadili a předkládali uživatelům.

Vždy tedy zatím bylo potřeba na webové stránce (nebo ve zpětných odkazech) najít nějaký textový ekvivalent toho, co uživatel napsal do dotazu.“

Vyhledávání Seznamu se takto dostalo do úzkých, kdy na něj uživatelé zkoušeli mluvit přirozeným jazykem - nebo když použili příliš mnoho slov v dotazu. Vyhledávač se pak marně snažil vyhledat odpověď, která by obsahovala všechna slova dotazu - a to i ta, která se vyskytují jen v přirozeném jazyce, nikoliv však v odpovědích na ně. 

Pomikálková uvádí příklady takových dotazů:

  1. jméno klavíristka jirečková – Záměr uživatele je zřejmý, chtěl znát křestní jméno klavíristky (asi do křížovky), jenže na stránkách, kde se o Noemi Jirečkové píše, přirozeně chybí slovo ‚jméno‘.
  2. Jak se nazýval dokument z roku 1212, který mj. zaručoval českým panovníkům dědičný královský titul? – Taková otázka se možná hodí do písemky nebo AZ-kvízu, ale nalezení wikipedické stránky Zlatá bula sicilská brání to, že na ní nenajdeme nic jako ‚nazýval‘, ‚mj.‘ ani ‚zaručoval‘.

Ani předlouhé otázky by už Seznam neměl odbývat lakonickým Bohužel jsem nic nenašel.

Úspěšné zpracování dotazu pomocí významových vektorů (Zdroj: Seznam.cz)

V čem spočívá implementace významových vektorů?

Implementaci významových vektorů trochu popisuje Pomikálková kapku nespecificky:

„Ke stávajícím výsledkům jsme přidali vyhledávání pomocí významových vektorů. Z dotazů i webových stránek vyrábíme sadu vektorů, které reprezentují, co daný kus textu znamená. Vektory počítáme embeddingovým modelem, který je naučený přiřazovat podobné vektory textům, které se obvykle vyskytují v podobných kontextech. K vektorům dotazu pak hledáme nejpodobnější vektory stránek v mnohorozměrném vektorovém prostoru.“

To ovšem neodpovídá na zásadní otázku:

Co je významový vektor?

Významový vektor se liší od diskrétního slovníkového slova s přesně vymezenou pozicí v rámci slovníku. Jde o spojitý vektor, jehož orientace je schopna vyjádřit, že slova dobrý, skvělý a vynikající mají stejnou významovou orientaci. Že patří téhož významového vektoru.

A vektorová reprezentace slov nestaví jen na jednoduchých vektorech, jako je ten uvedený v příkladu. Je schopna navektorovat i celý kus textu dotazu a stejně tak do těchto vektorů dosadit z naindexovaných výsledků. Těch tak masivně přibude a opět se ukáže důležitost rankingu - algoritmu, který upřednostňuje odpovědi relevantní dotazu. 

I při použití přirozeného jazyka při zadávání vyhledávacího dotazu Seznam už nezaváhá (Zdroj: Seznam.cz)

Co významové vektory udělají s vyhledáváním a řazením výsledků?

Díky vektorové reprezentaci dotazu bude vyhledávání Seznamu schopno poskytnout celou řadu výsledků i tam, kde dříve jen konstatoval Bohužel jsem nic nenašel. To dokládají i slova PomikálkovéNavenek se změna projeví tím, že teď pro téměř každý dotaz vydáme SERP plný výsledků. I pro hodně těžké a nesmyslné dotazy... V první řadě řešíme, aby uživatel i na těžké dotazy našel, co hledal. Až později budeme chtít omezit to, co nehledal.

Významové vektory ovšem neovlivní jen množství odpovědí na dotaz, ale i jejich řazení. Podobnost významových vektorů je současně důležitým signálem pro řazení výsledků. Vedle nalezení nových stránek tak dojde i ke změnám pozic těch stávajících, upřesňuje Pomikálková.

Aby nebylo srandy dost, ani tým Vyhledávání Seznamu netuší, s čím vším významové vektory zamíchají: Po této změně je i pro nás vyhledávání zase o krok větším blackboxem. Bude teď ještě těžší přijít na to, proč se která webová stránka ve vyhledávání objevila nebo neobjevila. Všechna měření před nasazením však slibují takové zlepšení přirozeného hledání, že nám to stojí za to.

Zdroje

  • Blog Seznam.cz: Vyhledávání pomocí významových vektorů
  • Lupa.cz

 

 

Tento program naleznete ke stažení v našem katalogu www.instaluj.cz

 

 

 

 

 

Získejte PDF Eraser zdarma

Jednoduchých PDF editorů, které nevyžadují přihlášení k online účtu pro vykonání sebemenší maličkosti, už je málo. O to víc potěší, že až do 7. prosince 2022 můžete získat zdarma PDF Eraser, která přesně...

Firefox 106 s editorem PDF a snadným přechodem mezi instancemi

V Mozille se rozhodli usnadnit práci s PDFkami v prohlížeči a nabízejí základní možnosti editace přímo ve čtečce. Příznivcům anonymního módu servírují samostatný spouštěč připnutelný k hlavnímu panelu Windows. A uživatelům...

Avast dešifruje ransomware Hades

Avast uvolnil nástroj pro dešifrování dat zašifrovaných ransomwarem Hades  Nástroj  Avast Decryptor Mafiaware666 zachrání data uživatelům, kteří se stali obětmi variant Háda MafiaWare666, JCrypt, RIP Lmao a BrutusptCrypt, a to sice cracknutím...

Ostrava se může těšit na kvantový počítač LUMI-Q

Národní superpočítačové centrum v Ostravě bude hostit kvantový počítač projektu konsorcia LUMI-Q. LUMI-Q bude výkonnějším následovníkem dosavadního nejvýkonnějšího superpočítače Evropy LUMI, který se...


 
© 2005-2022 PS Media s.r.o. - digital world
 

reklama