[ Zavřít ] 


 

RSS Kanál

 

Vyhledávání Seznamu ovlivní významové vektory KE STAŽENÍ

Seznam implementoval největší změnu do vyhledávání za posledních deset let. Jde o hledání pomocí významových vektorů. Díky vektorové reprezentaci slov by tak měl najít i odpověď i na těch webech, na nichž konkrétní slova z vyhledávacího dotazu chybí. Co všechno významové vektory ovlivní?

 

Vyhledávání Seznamu ovlivní významové vektory (Zdroj: Seznam.cz)

Jak Seznam vyhledával doposud?

Základ toho, jak funguje strojové zpracovávání vyhledávacích dotazů přibližuje Tomáš Mikolov, výzkumník strojového učení a autor knihoven word2vec a fastText pro strojové zpracování jazyka:

„počítač vidí slova tak, že si nejdříve spočítá slovník a každé slovo se převede na číslo, což je pozice v tom slovníku. Tím pádem je věta zakódovaná jako sekvence čísel a každé slovo je vlastně unikátní. Stačí udělat jeden překlep a počítač slovo vidí jako naprosto jiné slovo...

Pokud jsou slova podobná, tak to tento slovníkový přístup nedokáže zohlednit a systém si zpětně musí dohledat, že třeba „český“ a „česká“ jsou si podobná slova a že by se tam měly sdílet parametry.“

A právě takto základní slovník dosud rozšiřoval i Seznam pomocí lemmatizace a latentního sémantického indexování. Konkrétně to přibližuje Martina Pomikálková, šéfka týmů zpracování dotazu a vektorového hledání:

„dotaz od uživatele jsme opravili, analyzovali a přidali k němu další slova, která by mohla pomoci najít to, co uživatel hledal. Takovými slovy mohly být skloňované tvary zadaných slov, synonyma, rozvinuté zkratky apod. Tato slova jsme pak hledali v zaindexovaných webových stránkách, nalezené stránky řadili a předkládali uživatelům.

Vždy tedy zatím bylo potřeba na webové stránce (nebo ve zpětných odkazech) najít nějaký textový ekvivalent toho, co uživatel napsal do dotazu.“

Vyhledávání Seznamu se takto dostalo do úzkých, kdy na něj uživatelé zkoušeli mluvit přirozeným jazykem - nebo když použili příliš mnoho slov v dotazu. Vyhledávač se pak marně snažil vyhledat odpověď, která by obsahovala všechna slova dotazu - a to i ta, která se vyskytují jen v přirozeném jazyce, nikoliv však v odpovědích na ně. 

Pomikálková uvádí příklady takových dotazů:

  1. jméno klavíristka jirečková – Záměr uživatele je zřejmý, chtěl znát křestní jméno klavíristky (asi do křížovky), jenže na stránkách, kde se o Noemi Jirečkové píše, přirozeně chybí slovo ‚jméno‘.
  2. Jak se nazýval dokument z roku 1212, který mj. zaručoval českým panovníkům dědičný královský titul? – Taková otázka se možná hodí do písemky nebo AZ-kvízu, ale nalezení wikipedické stránky Zlatá bula sicilská brání to, že na ní nenajdeme nic jako ‚nazýval‘, ‚mj.‘ ani ‚zaručoval‘.

Ani předlouhé otázky by už Seznam neměl odbývat lakonickým Bohužel jsem nic nenašel.

Úspěšné zpracování dotazu pomocí významových vektorů (Zdroj: Seznam.cz)

V čem spočívá implementace významových vektorů?

Implementaci významových vektorů trochu popisuje Pomikálková kapku nespecificky:

„Ke stávajícím výsledkům jsme přidali vyhledávání pomocí významových vektorů. Z dotazů i webových stránek vyrábíme sadu vektorů, které reprezentují, co daný kus textu znamená. Vektory počítáme embeddingovým modelem, který je naučený přiřazovat podobné vektory textům, které se obvykle vyskytují v podobných kontextech. K vektorům dotazu pak hledáme nejpodobnější vektory stránek v mnohorozměrném vektorovém prostoru.“

To ovšem neodpovídá na zásadní otázku:

Co je významový vektor?

Významový vektor se liší od diskrétního slovníkového slova s přesně vymezenou pozicí v rámci slovníku. Jde o spojitý vektor, jehož orientace je schopna vyjádřit, že slova dobrý, skvělý a vynikající mají stejnou významovou orientaci. Že patří téhož významového vektoru.

A vektorová reprezentace slov nestaví jen na jednoduchých vektorech, jako je ten uvedený v příkladu. Je schopna navektorovat i celý kus textu dotazu a stejně tak do těchto vektorů dosadit z naindexovaných výsledků. Těch tak masivně přibude a opět se ukáže důležitost rankingu - algoritmu, který upřednostňuje odpovědi relevantní dotazu. 

I při použití přirozeného jazyka při zadávání vyhledávacího dotazu Seznam už nezaváhá (Zdroj: Seznam.cz)

Co významové vektory udělají s vyhledáváním a řazením výsledků?

Díky vektorové reprezentaci dotazu bude vyhledávání Seznamu schopno poskytnout celou řadu výsledků i tam, kde dříve jen konstatoval Bohužel jsem nic nenašel. To dokládají i slova PomikálkovéNavenek se změna projeví tím, že teď pro téměř každý dotaz vydáme SERP plný výsledků. I pro hodně těžké a nesmyslné dotazy... V první řadě řešíme, aby uživatel i na těžké dotazy našel, co hledal. Až později budeme chtít omezit to, co nehledal.

Významové vektory ovšem neovlivní jen množství odpovědí na dotaz, ale i jejich řazení. Podobnost významových vektorů je současně důležitým signálem pro řazení výsledků. Vedle nalezení nových stránek tak dojde i ke změnám pozic těch stávajících, upřesňuje Pomikálková.

Aby nebylo srandy dost, ani tým Vyhledávání Seznamu netuší, s čím vším významové vektory zamíchají: Po této změně je i pro nás vyhledávání zase o krok větším blackboxem. Bude teď ještě těžší přijít na to, proč se která webová stránka ve vyhledávání objevila nebo neobjevila. Všechna měření před nasazením však slibují takové zlepšení přirozeného hledání, že nám to stojí za to.

Zdroje

  • Blog Seznam.cz: Vyhledávání pomocí významových vektorů
  • Lupa.cz

 

 

Tento program naleznete ke stažení v našem katalogu www.instaluj.cz

 

 

 

 

 

Náklaďáky řídí umělá inteligence | Solvertech

Za volantem náklaďáku ještě stále musí sedět živý chlap (nebo dáma), stále víc jím ale točí umělá inteligence. V podmínkách ropného šoku a trvalé dopravní kalamity přestává na...

ÚOOÚ šetří kvůli úniku dat Shoptet

Úřad pro ochranu osobních údajů (ÚOOÚ) vyzývá klienty Shoptetu, aby prověřili, zda nedošlo k narušení zabezpečení osobních údajů. Podezřelými jsou v tomto případě analytické aplikace firmy MonkeyData, které měly...

Microsoft Edge chce zavírat panely dvojklikem

Vývojáře Microsoft Edge zkouší nové ulehčení práce s prohlížečem. Spočívá v prostém dvojkliku na oušku panelu pro jeho zavření. Funkcionalitka je zatím v testování - a to tak raném, že není ani...

Ulož.to vymazali z App Storu

Apple aktuálně stáhl aplikaci Ulož.to z App Storu. Učinil tak z důvodů nahlášení firmou, která deklaruje, že se zabývá dodržování autorských práv na internetu. Stejná situace se odehrála v března, kdy stejný stěžovatel nahlásil...


 
© 2005-2022 PS Media s.r.o. - digital world
 

reklama