HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (7) adatbányászat (10) adatelemzés (6) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (15) alternatív (6) alternatív keresőfelület (26) beszédtechnológia (13) big data (53) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) Google (30) google (57) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (31) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (77) kereséselmélet (8) keresés jövője (55) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (12) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (7) különleges keresők (7) kutatás (7) lda (10) LDA (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (15) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (30) nyelvtechnológia (73) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (60) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (6) szövegbányászat (20) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) Twitter (18) twitter (15) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Honnan tudja a Google, hogy mit keresünk?

2021.04.26. 15:44 Szerző: Hódi Péter Címkék: keresés internetes keresés algoritmus keresés problémái elgépelés keresőmotor lekérdezés Google

google_kereses_kereses.png


Közel húsz évvel a Google kereső első helyesírás-ellenőrző rendszerének bevezetése után továbbra is hatalmas kihívás a Cég számára a keresőfelületen begépelt kifejezések (gyakran teljes mondatok) értelmezése.

Problémák a kereséseknél

Mielőtt a Google kereső elkezdhetné keresni a releváns találatokat, először tudnia kell, hogy valójában milyen információ után kutat a felhasználó. Ehhez meg kell állapítani a keresési kifejezések helyesen írott formáját. Ez azonban nem kis feladat, hiszen ezt számos körülmény nehezíti, így többek között az alábbiak:

  • a keresések 10%-a hibásan gépelve kerül a keresőablakba
  • gyakran több kifejezés együttesével keres a felhasználó
  • szinte naponta jelennek meg újabbnál újabb kifejezések
  • időről-időre módosulnak a helyesírási szabályok.

Helyesírási hibák

Helyesírási hibáink általában két fő kategóriába sorolhatók: konceptuális és elgépelési hibák. Konceptuális (fogalmi) hibákat akkor követünk el, ha nem vagyunk biztosak abban, hogyan kell az adott kifejezést helyesen leírni, így megpróbáljuk a legjobb "tippünket" használni a keresés során. Az elgépelési hiba pedig természetesen a a számítógépes klaviatúra (billentyűzet) hibás használatából ered. Ilyenkor a "félregépelt" keresési kifejezéssel indítjuk meg a lekérdezést. Az okostelefonok térhódításával egyre gyakoribbá váltak az utóbbi hibák, köszönhetően annak, hogy a számítógépes billentyűzettel összehasonlítva jóval nehézkesebb a gépelés a kisebb "digitális billentyűkkel". A Google többek között ezért is tapasztalt több mint 10 000 különböző téves lekérdezést a YouTube-ra történő kereséseknél. Ezek közül néhány példa: „ytoube”, „7outub”, „yoitubd” és „tourube”.

billentyuzet.jpg

Jobb modellekkel a sikeres keresésért

Annak ellenére, hogy mennyire gyakoriak a helyesírási hibák a keresés során, sok hibás lekérdezés csak egyszer fordul elő, ezek pedig komoly kihívást jelentenek. Függetlenül attól, hogy milyen helyesírási hibát követett el a felhasználó, a Google keresője rendszerint megtalálja a módját, hogy azt megértse.
Korábban ezeknek a soha nem látott elírások megoldásakor a Google a billentyűzetkiosztást vette figyelembe. Például, ha a felhasználó megpróbálta beírni az „u” betűt, de hibát követett el, akkor nagyobb valószínűséggel írta be az „z” betűt, mint a „v”-t, hiszen az "u" és a "z" szomszédos billentyűk a klaviatúrán. A Google korábbi modellje azt az általános koncepciót alkalmazta, hogy a keresési kifejezésen betűnként haladva számos verziót is vizsgált, tekintetbe véve a lehetséges elgépeléseket. mindezt addig folytatva, amíg be nem azonosította a legvalószínűbb (helyettesítő) kifejezést. Bár ez a megközelítés az elgépelési hibák kiküszöbölését célozta, mégis hatékonyan kezelte a konceptuális hibákat is.

Megoldás az elgépelés problémájára vállalati keresés esetén

Az olyan keresőrendszerek, mint például a Precognox által kifejlesztett TAS Vállalati kereső, rendelkeznek loganalízáló modullal, amelyekkel nyomonkövethetőek az elvégzett lekérdezések, így többek között a találat nélküli keresések. Amennyiben ezek között találunk nyilvánvalóan elgépelt kifejezéseket, akkor ezeket összeköthetjük a helyesen leírt formájukkal, így ha a felhasználó ismét a helytelenül gépelt formátummal keresne, akkor is képes a keresőmotor megjeleníteni a helyes lekérdezésnek megfelelő találatokat.

 elgepeles_hozzaadasa_a_tas_thesaurus_managerben.jpg

Elgépelés felvétele a TAS Thesaurus Managerben

 

A gépi mélytanulás terén elért haladásnak köszönhetően ma már hatékonyabb módszert alkalmaz a Google az indított keresések megértésére. A tavalyi év végén került bejelentésre az az új algoritmus, amely mély neurális hálót használ, jobban modellez és ritkán előforduló, illetve egyedi helyesírási hibákból (is) tanul. Ez az előrelépés lehetővé tette a Vállalat számára, hogy több mint 680 millió paramétert tartalmazó modellt legyenek képesek lefuttatni két milliszekundum alatt, így nyújtva zavartalan keresési élményt a felhasználóknak.

És honnan tudják a Google rendszerei, hogy mit keres valaki, még akkor is, ha korábban soha nem látott elírással találkozik a rendszer?

A fenti kérdés megválaszolásakor jön képbe maga a lekérdezés mögött meghúzódó kontextus. A Google természetes nyelvmegértési (NLU - Natural Language Understanding) modelljei összefüggéseiben vizsgálják meg az adott keresést, így például a lekérdezésben szereplő szavak és betűk egymáshoz való viszonyát. Rendszereik azzal kezdenek, hogy először megfejtik vagy megpróbálják megérteni a teljes lekérdezést. Ez alapján generálják a legjobb helyettesítő opciókat a lekérdezésben elgépelt szavakra.

A lekérdezés javítási opciói

A Google Kereső használatakor a rendszer már a keresési kifejezés begépelésekor is ajánlásokkal segít, azonban a felhasználók számos esetben nem élnek ezzel a lehetőséggel. Ilyenkor nagyobb a hibázási lehetőség és szükségessé válhat a lekérdezés javítása, módosítása.
A lekérdezések lehetséges javítási formái különböző módokon jelennek meg a Google Keresőben. Amikor eléggé biztos az algoritmus abban, hogy mit keres a felhasználó, és szinte nyilvánvaló, hogy elgépelés történt, akkor udvariasan megkérdezi: "Erre gondolt?", és egyúttal megmutatja azt az alternatívát, amelyet szerinte keresni szerettünk volna. Amikor teljesen biztos a rendszer abban, hogy helyesen azonosította az elírási hibát, automatikusan megjeleníti a találatokat annak alapján, amit az összeállított lekérdezés kontextusba helyezése után az algoritmus helyesnek ítélt meg. Ebben az esetben a lekérdezés korrigálásáról azonban mindig tájékoztatja a felhasználót, és módot kínál arra, hogy visszatérjen az eredetileg begépelt (összeállított) kereséshez és azt futtassa.

Tehát a Google a fent leírt módszerek segítségével “tudja”, hogy valójában mit keres a felhasználó. Természetesen a tanúsított felhasználói viselkedés és a futtatott keresések alapján a Google folyamatosan fejleszti keresőrendszerét a felhasználói élmény és a hatékonyság érdekében. Éppen ennek a folyamatosan fejlődésnek köszönhetően érezzük egyre gyakrabban azt, hogy a Google valójában tudja, mit is keresünk.

 

Amennyiben többet szeretne a témáról megtudni, kérjük olvassa el a Pandu Nayak tollából származó cikket, amely a Google Blog oldalán jelent meg, és amely jelen blogbejegyzésünk alapjául szolgált.

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr7516495068

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása