HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Kereső tanfolyam - 5. Magyar keresők

2010.11.29. 08:00 Szerző: Vajda Gábor (Gabor_V) Címkék: kereső tanfolyam internetes keresők magyar keresők

2010 elején szinte egy időben két új magyar webkereső is megjelent (a Szörcs és a Bluu) a valamivel korábban indult Miner, Johu, és RichPOI után. Van, amelyik saját robotot működtet a weboldalak begyűjtésére, mások a nagy külföldi keresőgépek indexeit kérdezik le. A beépített magyar nyelvi eszközök (pl. szótövezés) mellett speciális kiegészítő funkciókkal, a találatok relevánsabb sorbarendezésével és újfajta megjelenítésével próbálnak minél több felhasználót - és ezzel együtt persze hirdetőt - magukhoz csábítani. Bár teljesítményben, kiterjedésben nem versenyeznek a Google, Yahoo, Bing hármassal és a hosszabb távú fennmaradásuk is bizonytalan, de a magyarországi sajátosságokhoz való optimalizálásuk és újszerű megoldásaik miatt érdemes kipróbálni és esetleg alternatív eszközként használni vagy a laikusabb felhasználóknak ajánlani őket. Érdemes elolvasni az Origo összehasonlító tesztjét is.
 

  • Miner: A Bártházi András (a webakademia.hu bloggere) által vezetett projekt egy automatikus hírportál és egyben egy vertikális kereső, mely 2006-ban blogkeresőként indult, de ma már a magyar webkettes világ más szegmensei: videómegosztó helyek, fórumok, Twitter/Csirip is kereshetők vele, sőt újabban már a teljes magyar web is . A felület tavaly újult meg, de bizonyos funkciók még fejlesztés alatt vannak. A blogkereső kategóriák szerint is szűkíthető, ami különösen hasznos, ha például recepteket vagy könyveket keresünk (egész más találatok jönnek így pl. a paradicsom kérdésre). Míg a webes keresőkkel az emberek inkább tényeket/adatokat próbálnak megtalálni, a blogkeresők a vélemények és az aktuális trendek/témák megtalálására és áttekintésére jók. A Miner 2010 áprilisában több mint 311 ezer blog mintegy 20 millió bejegyzésében keresett. A keresőt a puszta növekedés helyett szemantikus irányban fejlesztik: a rendszer megpróbálja értelmezni a beírt keresőkérdéseket, és felismerni, hogy a beírt szó pl. név vagy cím, vagy hogy milyen fogalomkörhöz tartozik, én ezt az információt felhasználni a források lekérdezéséhez, illetve a legjobb találatok összeválogatásához.

 

  • Johu: A kereső egyik fejlesztője Jóföldi Endre, aki emellett a Kereső Világ blog szerzője és az ő cége készítette többek közt a National Institutes of Health Library számára a First Step nevű metakeresőt. A Johu, ahogy a neve is utal rá, a Yahoo! keresőjének indexére épül, de a nyelvi elemzőbe beépítették a témában élenjáró MorphoLogic eszközeit (pl. a magyar szótövező algoritmust). Érdemes összehasonlítani az adók tippek kérdésre érkező találati listákat a Bing, a Google és a Johu esetében. A kereső másik jellemzője a legjobb kb. 100 találatból klaszterezett "tartalomjegyzék" a bal oldali hasábban, amely grafikus nézetre is átváltható, és segít az áttekintésben, a kérdés pontosításában, vagy további keresőszavak megtalálásában (pl. mobil televíziózás) A találati listákban előnézetet is kérhetünk a kis nagyító ikonokra kattintva.

 

  • Bluu: Valószínűleg a legfejlettebb hazai webkereső, komoly szövegértelmező képességekkel és sokféle speciális funkcióval. A szövegelemző modul a rendhagyó eseteket, a szinonimákat és asszociációkat (kapcsolódó fogalmakat), továbbá egy határig az elgépeléseket is kezeli. Képes a természetes nyelven beírt kérdések értelmezésére is, valamint vannak benne bizonyos előre definiált "mondatszerkezetek" a leggyakoribb kérdéstípusokra: pl. Szeged Miskolc vonat, servus magyarul, android mobil hírek, legalább 8 gigás pendrive 10 ezer forintig, képek Szabó Magdáról. (A lehetőségek áttekintéséhez érdemes a háttérképet kikapcsolni a Témaválasztás menüpont alatt.) A Google által bevezetett PageRank értékelést kiegészítették egy CSS elemzésen alapuló minősítéssel is: így nagyobb súlyt kapnak azok a találatok, ahol a keresett szavak az oldal elején, a görgetési határ fölött, kiemelt pozíciókban (pl. címekben) fordulnak elő. A Bluu csak az első 50 találatot értékeli a rangsoroláskor.


Összeállította: Drótos László, Magyar Elektronikus Könyvtár

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ne bízz a monopóliumban!

2010.11.22. 18:19 Szerző: siklosib Címkék: google keresés problémái

Az internet felsőbbrendűségében gyanútlanul megbízó átlag felhasználó számára szinte észrevehetetlen Google trükköt leplez le egy frissen megjelent tanulmány. Legtöbbször a gyorsaság és a rutin miatt arra hagyatkozunk, hogy beírunk valamit a Google keresőjébe és az első találatok között megtaláljuk a legjobb eredményeket. Ez nem is egy valótlan elvárás, hiszen a Google algoritmusai elvileg ezt hivatottak biztosítani. Van azonban néhány kivétel...

Saját első találatok
Ha olyan témára keresünk, ami a Google vagy partnerei oldalain megtalálhatóak, azok biztosan az első találatok között lesznek, függetlenül attól, hogy milyen minőségű eredményekről van szó. A tanulmány egyik példája az egészségügyi terület, melyen a Google Health lesz az első találatok gazdája. Abban az esetben, ha pontosan olyan formában kerestük, ahogy ott megjelenik a kifejezés... És éppen ezzel "bukott le" az a bizonyos rangsorolás. Egy oldal ugyanis ha releváns, akkor a kereső kifejezés apró változatai esetén is releváns kell hogy maradjon - legalábbis egy következetes algoritmus alapján. Ezeknél a Google érdekeltségű top találatoknál viszont egy apró változtatás után (pl egy vessző kerül a kereső kifejezés után) teljesen eltűnnek a találatok az eredménylistából, nemhogy az első helyről.


Persze, minden szentnek maga felé hajlik a keze... Ezzel nem is lenne probléma, már-már természetesnek, szinte jogosnak éljük meg, hogy minden így működik.

Mik azonban a jelenség veszélyei?
Előfordulhat egy keresés során, hogy van arra vonatkozó Google oldal, valamilyen földrajzi hely is kapcsolódik hozzá, esetleg kép és videó találat - a találati lista első 5-6 eredménye máris le van foglalva, márpedig ritka az a felhasználó, aki ne ezek közül választana. Így esélye sincs a valóban releváns oldalaknak, hogy a felhasználók odataláljanak. Ennek következményeként nem kell hosszan részletezni, hogy mennyire érdemes nekik a Google-val versenybe szállni, mennyire érdemes értékes tartalmakat közzé tenni, stb... A Google tehát egyre növekvő hatalmát kiterjesztheti arra, hogy szó szerint irányítsa a felhasználókat, hiszen "biztos az első találat a legjobb".
Ami pedig a jelenség etikai oldalát illeti, a tanulmány bőséggel idéz olyan kijelentéseket a Google részéről, melyek ennek a hozzáállásnak éppen az ellenkezőjét állítják, miszerint nem avatkoznak bele kézzel a találatok sorrendjének alakításába. Márpedig a kísérletek alapján más magyarázat nincsen...

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Összehasonlított karácsony: termékkeresők tesztje

2010.11.19. 12:20 Szerző: Vajda Gábor (Gabor_V) Címkék: vertikális kereső termékkereső árösszehasonlítók kereső teszt

Ilyenkor, november vége, december eleje felé menthetetlenül megindul a karácsonyi bevásárlási láz, hiszen valamit venni "kell" szeretteinknek, barátainknak és jobb mielőbb, lehetőleg fizetés napja környékén már letudni költséges kiadásainkat, tájékozódni viszont már előbb el kell kezdeni.

Ez volt az apropója annak, hogy picit jobban körmére nézzünk a magyar árösszehasonlító, termékkereső oldalaknak, hogy ironikus módon ugyanezt a műveletet végrehajtva rajtuk megmondhassuk, melyik oldal teljesít a legjobban, ill. szolgálja ki a vásárlói igényeket.

Az árösszehasonlító pont az amit a neve is sugall. Adott termékfajtát vagy típust keresve találja meg nekünk különböző forgalmazóktól a számunkra legmegfelelőbb ajánlatot, a preferenciákat pedig a felhasználó állíthatja be tetszés szerint. Az összehasonlító oldal bevételét így az adott ajánlatra vagy a mellé helyezett hirdetésre való kattintásból szerzi.

Öt magyar oldalt vettünk tüzetesebb vizsgálat alá, nevezetesen a Depo, az Olcsóbbat, az ÁrGép, a Kirakat és Az Árukereső keresőket egy Samsung LE32C530 LCD TV-vel és egy Nokia C7-es mobiltelefonnal.


Az öt oldal közül a Depo.hu okozta a legnagyobb fejtörést. Rögtön úgy, hogy meglehetősen lassan töltődött a teszt idején. Ez önmagában nagyban rontotta esélyeit, de az is zavaró volt, hogy részletesebb információkért rögtön a forgalmazó honlapjára irányított. A termék nevén és árán kívül gyakorlatilag nem tudtam meg többet csak az termékkeresőt nézve a telefonnál, a tévénél már bővebb információk is voltak. Ennek ellenére is zavaró, hogy közvetlenül nem szolgáltat adatokat, sokkal hasznosabb lenne feltüntetni mellette az információkat, hogy ne válassza el kattintás őket. Pozitívum viszont, hogy külön feltüntette a szállítási költségeket. A filterezője is jól működik, de egyszerre csak egy kategórián belül tudtam keresni.


A Kirakat.hu-n már-már zavarbaejtően részletes kereső fogadott, amikor az adott Samsung TV-t kerestem, a filterfelületen pedig rendkívül pontosan be tudtam lőni a kívánalmaimat. Az oldal gyorsan töltött, és bőséges információkkal látott el a termékkel kapcsolatban, amit mondjuk csak sokadszorra vettem észre, ugyanis ezek az árösszehasonlítások alatt, gördítés után váltak láthatóvá, hasonlóan mint a vélemények, ill. a hasonló termékek listája. A megoldás meglehetősen pozitív, hogy egyszerre láthatunk mindent, de érdemes lenne talán felhívni a figylmet arra, hogy lejjebb is találunk egyéb információkat. A telefonnál egy találatot hozott, de az a legolcsóbb is volt ami kategóriájában elérhető.


Az Olcsóbbat.hu nagyon hasonlított a Depo.hu kezelőfelületére (külön füleken az árak összehasonlítása a termékleírás, az értékelés a hasonló termékek felsorolása), ami alapvetően jó megoldás. Itt ellenben tartalommal is fel volt töltve, valamint különösen tetszett az Árgrafikon opció is, ahol a termék eddigi "karrierjét" vehetjük szemügyre akát hónapokra visszamenőleg is. Az oldal erényeihez tartozik szintén, hogy külön kis ikonnal jelzi a terméklistában a vásárlói megelégedettséget (ahol van). A felkínált termékek száma pedig rendkívül hosszú, a filterező pedig kiválóan és gyorsan működik. Mindenképpen ajánlott kereső.


Az ÁrGép.hu is rendkívül részletes információkkal látja el a felhasználót: sikerült egy viszonylag kicsi oldalra bepréselnie minden információt. Így egy kissé zsúfolttá válik, ugyan de minden egy helyen marad, mindent megtudunk a termékről két szempillantás alatt. A részletek itt is külön linken szerepelnek, ezúttal azonban inkább pozitívumnak tűnik. Jobb oldalt található a "Kategória top 10", amiből hasonló szerepelt az előzőben is, így rangsorolva viszont hasznosabb információkat ad. Az árdiagram sem marad ki. Filterező funkciói nem olyan erősek mint pl. az előzőnél, inkább konkrét termék keresésénél villantja meg így erényeit. A cikk írójának ez a személyes kedvence kompaktsága miatt.


Az Árukereső.hu-ra minden pozitívum elmondható, ami az előzőekre összesen. Nagyon hasonló részletes kereső mint a Kirakat.hu-n, minden egy helyen van. Jó, hogy markánsan ki vannak emelve a rendezés szempontjai, melyek lehetnek népszerűségi szempontok alapján, vagy ár szerinti növekvő, ill. csökkenő. Olvashatunk a termékkel, vagy kategóriájával kapcsolatos híreket is, melyek hasznosak lehetnek a szakavatatlanok számára. A legnagyobb előnyt a többihez képest azonban véleményem szerint a kapcsolódó termékek listája jelenti. Itt mindent felsorol, amire csak szükségünk lehet az áru használatához. A filterezője szinte ugyanolyan mint az Olcsóbbat.hu-n, villámgyors és részletes. Erősen javallott keres a karácsonyi bevásárlókörökhöz.

 

  Depo Kirakat Olcsóbbat ÁrGép Árukereső
Ajánlatok száma: Nokia C7 5 14 5 12 14
Ajánlatok száma: Samsung LE32C530 3 13 22 99 32
Legolcsóbb a mobilra 98.850 Ft 93.649 Ft 93.849 Ft 95.990 Ft 93.900Ft
Legolcsóbb a TV-re 99.350 Ft 98.900 Ft 98.790 Ft 98.700 Ft 98.700 Ft
Előnyök szállítási ár feltüntetve részletes nagy találatszám, részletes infók kompaktság részletesség
Hátrányok lassú, átláthatatlan kevés találat  nincs árrendezés filterezés hiánya sokat kell görgetni

Mobiltelefonok száma az adatbázisban

1483 420  482 4992 537
TV-k száma az adatbázisban 807 580 780 550 985

 

A tesztben leírt keresők nem véletlenül ebben a sorrendben kerültek bemutatásra, látogatottságuk is ebben a rendben növekszik. Összességében elmondható, hogy ilyenkor, karácsonykor megugrik a termékkeresők használata, és már most, november végén nagyobb látogatottsággal bírnak mint tavaly, közvetlenül karácsony előtt. Ez azonban a Depo.hu-ra nem igaz, az utóbbi másfél évben nagyon elszakadt vetélytársaitól, azóta lassan, de folyamatosan csökkenő forgalmat élvez. Az Árukereső és az ÁrGép nagyjából együtt növekszik, tőlük egy kissé lemarad az Olcsóbbat.hu.

Ezen szolgáltatások láthatóan Magyarországon is egyre népszerűbbek, mely újabb jele annak is, hogy a vásárlók az Internet segítségével (is) tudatosabban választanak terméket.

(Új kollégánk, Vajda Gábor írása)

(UPDATE: Egy fontos funkció elkerülte a figyelmem, mellyel a Depo és az Árukereső is bír. Keresési javaslattal ugyanis csak ez a két oldal bír: begépelésre találati listát adnak, amely nagyon fontos lehet abban az esetben, ha egy keresett termék nevében nem vagyunk biztosak. Plusz pont mindkettőnek, bár az Árukereső ezen funkciója bizonytalanul viselkedett a teszt idején.)

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

5 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kereső tanfolyam - 4. Gyakran használt fogalmak, technikák

2010.11.09. 10:59 Szerző: Vajda Gábor (Gabor_V) Címkék: kereső tanfolyam keresés fogalmak keresés technikák keresés kifejezések internetes keresők

A keresőgépekkel kapcsolatos leggyakoribb szakkifejezések (pl. search engine, crawler, page rank, deep web) a tananyag előző részeiben találhatók. Az alábbiakban néhány olyan angol nyelvű fogalom és rövidítés magyarázata olvasható, amelyek a kereséshez kapcsolódnak és a keresőfelületeken illetve a szakirodalomban szintén elő szoktak fordulni:

(A szerk. megjegyzése: a példaként mellékelt képek nagyobb méretben megtekinthetők a jobb egérgombbal való rákattintással, a megjelenő fülön a "Kép megjelenítése" opció kiválasztásával!)

  • query/search expression (kérdés/keresőkifejezés): Egy vagy több szót/karaktercsoportot tartalmazó utasítás a keresőrendszer számára, amely tartalmazhat még - a szavak közötti kapcsolatot jelző - műveleti jeleket is, továbbá lehetnek benne helyettesítő karakterek és a rendszer által biztosított különféle szűrőfeltételek.
  • Boolean operators (Boole-operátorok/logikai műveletek): Egy 19. sz. angol matematikusról elnevezetett műveleti jelek, melyekkel a találati halmazok közötti kapcsolatokat határozhatjuk meg: ezeket az AND/ÉS/+, OR/VAGY, XOR, NOT/AND NOT/NEM/- szavak ill. jelek jelölhetik. Az XOR (kizáró VAGY) műveletet nem sok keresőrendszer ismeri. Az OR művelet alacsonyabb prioritású, így ha szinonima-csoportok közt akarunk AND vagy NOT műveletet végezni, akkor előbbieket zárójelbe kell tenni, hogy megfelelő sorrendben történjen a kifejezés kiértékelése: a (panda OR koala) AND (mackó OR maci OR medve) kifejezés találati halmaza más és jóval kisebb lesz, mint a panda OR koala AND mackó OR maci OR medve. A NOT művelet pedig sorrendfüggő: a panda NOT mackó egész más találatokat ad, mint a mackó NOT panda. Egyes rendszerek megkívánják, hogy nagybetűvel írjuk az operátorokat (így különböztetve meg őket a stopword-öktől), illetve azt is, hogy amennyiben matematikai jeleket használunk, akkor a + illetve - jelek után ne írjunk szóközt. (Megjegyzendő még, hogy a Google esetében a szóköz nélküli + jel a keresett szó pontos egyezését írja elő: a "magyar +korkép" és a "magyar +kórkép" kifejezések így egész más találatokat adnak, mint a "magyar korkép".)
  • proximity operators (közelségi operátorok): A keresőkifejezésben levő szavak megengedett távolságát határozhatjuk meg velük. Általában a WITH/W és a NEAR/N operátorokat használják - előbbi rendszerint az azonos bekezdésben, utóbbi az azonos mondatban való előfordulást írja elő. Az operátor elé vagy után (zárójelben vagy közvetlenül) tett számmal konkrét maximális távolságot is előírhatunk. Nem minden keresőrendszer ismeri ezeket, és az is változó, hogy ezek az operátorok a szavak sorrendjét is előírják vagy sem. Ha egymás melletti és adott sorrendben levő szavakból álló kifejezést keresünk, akkor idézőjelek közé kell írni őket (phrase searching), ahogy a fenti Google-példában is.
  • prefix/suffix (előtag/utótag): A keresett szavak vagy adatok elé (rendszerint : vagy = jellel) vagy után (rendszerint / jellel) írt mezőnév vagy egyéb betűcsoport, amellyel adott mezőre korlátozhatjuk a keresést, vagy egyéb szűrési feltételt írhatunk elő. Pl. az archive.org-nál: title:révai AND mediatype:Texts AND collection:toronto
  • fuzzy matching (hibatűrő keresés/illeszkedés): Olyan algoritmus, amely gépelési illetve felismerési hibák ellenére is megtalálja az egyező szavakat a keresőkérdésben és az adatbázisban. Más értelemben pedig a hasonló szóalakokat (pl. többes szám, ragozott forma, szinonima) is megtaláló keresési módot hívják így. Gyakran a ~ jelet használják operátorként erre a célra, és esetleg egy utána írt számmal az illeszkedés pontosságát is előírhatja a felhasználó. Nem minden keresőnyelvben van fuzzy utasítás, illetve van, ahol a keresőrendszer alapállapotban így működik (pl. a Google) és csak " vagy + jellel lehet csak pontos illeszkedést előírni. Pl. az archive.org-nál a title:család~ AND mediatype:texts keresőkifejezés megtalálja a családi, csalás, salad, salud, call'd stb. szavakat tartalmazó könyvcímeket is.
  • truncation, wildcards (csonkolás, helyettesítő/joker karakterek): A beírt keresőszó elejének vagy végének (u.n. balról ill. jobbról való csonkolás), illetve a szó belsejében egy vagy több karakter helyettesítésére szolgáló jelek (pl. *, ?, %, $). Rendszerint a * tetszőleges számú karaktert helyettesít, a ? pedig egyet (ez utóbbi néhol ismételhető is), pl. creator:sz?c??n*
  • stopwords (tiltott szavak): Olyan szavak vagy egyéb karakterek, amelyeket a keresőrendszer nem vesz figyelembe a keresőkifejezés kiértékelésekor (vagy csak akkor, ha külön kényszerítjük rá a + vagy " jellel). Rendszerint a névelők és kötőszavak (továbbá esetleg egyéb rövid, 1-3 betűs szavak), valamint az írásjelek és speciális jelek tartoznak ide, amelyek túl kevés információt hordoznak vagy túl gyakoriak, így a tárolásuk vagy a visszakeresésük fölöslegesen terhelné a rendszert.
  • natural language processing (NLP) (természetes nyelv feldolgozás): Az emberi nyelvek gépi feldolgozásával, értelmezésével foglalkozó szakterület. Ennek eredményeként egyes keresőrendszerek képesek kielemezni a hétköznapi nyelven beírt mondatokat, és a kulcsszavakat kiemelve és keresőkérdéssé alakítva releváns találatokat adni. Ilyen például az Ask.com: Who were the presidents in the USA in the 1960s?
  • query expansion (QE) (keresés kiegészítés/kiterjesztés): Az eredeti keresőkérdés kibővítése, továbbfejlesztése akár a felhasználó, akár a keresőrendszer részéről, hogy pontosabb vagy több találatot eredményezzen a keresés. Egyes keresőrendszerek kérésre vagy automatikusan átsúlyozzák az eredeti kérdésben szereplő kulcsszavakat, ragozott/képzett/összetett formában is lekeresik őket, illetve azok szinonimáit vagy kapcsolódó fogalmait.
  • selection-based search (kijelölésen alapuló keresés): Olyan alkalmazás-kiegészítés, amely lehetővé teszi, hogy a felhasználó az egérrel kijelölt szót vagy kifejezést egy-két kattintással lekeresse különböző keresőgépek és más források (pl. Wikipédia, Google Maps, IMDB, Encarta, Amazon) adatbázisaiban. Így ha a munkája - pl. egy Word dokumentum olvasása vagy egy weblap böngészése - során szüksége van egy szó definíciójára, egy földrajzi hely térképére, valamilyen adatra egy filmmel vagy könyvvel kapcsolatban stb., akkor nem szükséges egy új ablakot nyitnia, elvándorolni valamelyik keresőoldalra, oda beírni vagy bemásolni a keresett szavakat, majd a találati lista átnézése után visszatérnie az eredeti dokumentumhoz.  Ehelyett a program automatikusan felkínálja (egy szemantikus adatbázis alapján) a szerinte az adott esetben leghasznosabb információforrásokat, majd lefuttatja a keresést, az eredményeket rendszerezi, és egy lebegő ablakban megmutatja a szó eredeti szövegkörnyezete mellett, így a felhasználónak nem kell emiatt hosszasan félbeszakítania az olvasást. Ilyen szolgáltatás például az Internet Explorer 8-as verziójába épített Accelerator.
  • federated search (közös/kiterjesztett/összevont keresés): Több webes (esetleg mélywebes) forrásban való egyidejű keresés, melynek során a keresőszoftver a keresőkifejezést átalakítja a lekérdezendő információforrások saját nyelvére, továbbítja azt a keresőrendszerekhez, összefésüli a kapott találatokat, majd megjeleníti őket egységes és áttekinthető formában, és esetleg még arra is lehetőséget ad, hogy a felhasználó tovább rendezze, válogassa a találati listát. Ilyen közös keresési lehetőséget nyújt például a WorldWideScience.
  • faceted search (irányított/facettás/több kategóriás keresés): Ez a fajta keresési mechanizmus a szabad szavas keresés és a tematikus böngészés előnyeit egyesíti. A felhasználó az általa beírt keresőkérdésre érkező találatokat többféle kategóriarendszer szerint nézheti, szűrheti és sorrendezheti. Minden ilyen facet a találatok valamely közös tulajdonságán alapul (pl. egy termékre való keresésnél ilyen közös jellemzők: típus, ár, gyártó, forgalmazó).
  • clustering (klaszterezés/csoportosítás): A találati halmaz kisebb csoportokba való automatikus szétválogatása hasonló tartalom vagy valamilyen egyéb szempont (pl. a találatok forrása vagy típusa) alapján. A klaszterező keresők különösen a többértelmű szavak szétválasztásához vagy egy átfogóbb fogalom szűkítéséhez hasznosak, mert felajánlják azokat a részhalmazokat, amelyekkel a felhasználó a kívánt irányba tudja pontosítani a találati listát. Pl. egész más irányban kell továbbmenni a smart windows keresőkérdés után, ha az alkalmazkodó fényáteresztő-képességű ablakok érdekelnek, mint ha az okostelefonokon futó Windows rendszerek.
  • search engine results page (SERP) (találati lista/keresési eredmények): Egy keresőgép által egy adott kérdésre visszaadott weboldal lista, mely rendszerint az egyes weblapok címét, a rájuk mutató linket és egy-egy rövid kivonatot tartalmaz a keresőszavak előfordulási helyét mutatva. Ezenkívül további információk is lehetnek a listában, pl. a találatok (hits) száma, a dokumentumok típusa, mérete, begyűjtési vagy módosítási dátuma, valamint képek/képernyőfotók, fizetett reklámok/linkek, és javasolt egyéb keresőkifejezések. Egyes keresőgépek egy átmeneti gyorstárolóba (cache) teszik a gyakoribb kérdésekre adott találati listákat és ismételt keresésnél onnan küldik el, így azok nem mindig a legfrissebb eredményeket tükrözik.
  • relevance (relevancia/fontosság): A keresőgépek különféle, néha egészen kifinomult algoritmusok alapján igyekeznek rangsorolni a találatokat és meghatározni, hogy egy adott kérdésre melyik találat mennyire releváns, majd a legjobbakat előre helyezik a rangsorban. A gép által megállapított relevancia persze a legritkább esetben egyezik a felhasználó preferenciájával, mert őt például befolyásolják az előzetes ismeretei, vagy olyan további - esetleg teljesen szubjektív - szempontok, amelyeket nem írt bele a keresőkérdésbe (pl. egy napi hírre keresve csak a számára szimpatikus politikai irányzatú média érdekli).
  • vertical search (vertikális/mélységi keresés): A horizontális, minden irányú keresőgépek és keresési megoldások helyett téma, típus, műfaj, domain vagy egyéb szempont szerint szűkített keresés. Vannak kifejezetten vertikális keresők, amelyek valamire specializáltak (pl. utazási információk, termékek, tudományos publikációk) és vannak általános keresőgépek, amelyek lehetőséget adnak rá, hogy a felhasználó vertikálisan keressen tovább (pl. a Google-nél hírekben, blogokban, fórumokban, könyvekben stb. tudunk továbbkeresni, illetve korlátozhatjuk a témánkat képekre, videókra, termékekre stb.).
  • web directory (webkatalógus/linkgyűjtemény/tematikus katalógus): Teljesen vagy legalább részben emberi közreműködéssel szerkesztett és kategóriák szerint rendezett nyilvántartások az interneten található website-ok válogatott részéről. A site neve és címe mellett témakörök, kulcsszavak/címkék és esetleg rövid leírások is lehetnek bennük. Egyes katalógusokat szerkesztők válogatnak, másoknál bárki bejelenthet webhelyeket egy vagy több kategóriába (de rendszerint ilyenkor is van valamilyen előzetes vagy utólagos kontrol), és van ahol fizetni is kell a bekerülésért vagy a bentmaradásért. Az általános, szinte minden témára kiterjedő rendszerek (pl. a Yahoo! Directory, az Open Directory Project, vagy a könyvtárosok által szerkesztett Ifomnine) mellett vannak vertikális katalógusok is, amelyek valamilyen szempontra fókuszálnak (pl. az egyben vertikális keresőt is működtető Business.com).  A web directory-k egy része saját belső keresővel is rendelkezik, így nemcsak böngészéssel lehet megtalálni a számunkra érdekes webhelyeket, viszont mivel a katalógusok humán erőforrással szerkesztett adatbázisai jóval kisebbek a robotokkal működő keresőgépekéinél, ezért sokkal kevesebb, bár értékesebb találatot kapunk. A webkatalógusokban való jelenlét megnöveli az adott website page rank értékét, így sokan megpróbálnak visszaélni a lehetőséggel. Emiatt több webkatalógusból ki vannak tiltva a keresőrobotok vagy nofollow opció van beállítva a robots.txt-ben, hogy ezek a linkek ne növeljék a site-ok fontosságát.
  • social search (közösség-alapú keresés): Az automatikus keresőrendszerek helyettesítése vagy kiegészítése az internethasználók ismereteivel, ítéleteivel. Többféle formája lehet: az egyszerű könyvjelző-megosztástól a webhelyek címkézésén és minősítésén át a találati listák sorrendjének megváltoztatásáig. Egyre több keresőrendszer beépíti a közösségi oldalakról, ismeretségi hálókról, linkmegosztó helyekről, blogokról és mikroblogokról származó információkat is a webhelyek fontosságának megállapításába, csökkentve ezzel - elvileg - az automatikus módszerek hátrányait, pl. a spam és a SEO hatását. A 2009-ben bevezetett Google Social Search a Gmail levelezőpartnereink, a Twitter, FriendFeed, Picassa oldalainkon levő kontaktjaink, az általunk figyelt RSS csatornák stb. alapján állítja össze az ismerőseinkből és az ismerőseink ismerőseiből azt a kört, amelyet figyelembe vesz ezután, és ha a kereséseink során talál általuk megosztott tartalmat, akkor azt a találati oldal alján megjeleníti. 
  • search engine optimization (SEO) (keresőoptimalizálás/keresőmarketing): Olyan módszereknek, technikáknak az összefoglaló neve, amelyekkel befolyásolni lehet egy weboldal fontosságát és ezzel pozícióját a keresőrendszerek találati listájában. Ide tartoznak például a következők: a robottal való bejárhatóság biztosítása, az oldal tartalmában levő kulcsszavak és a fejlécében levő metaadatok megfelelő megválasztása, az oldalra hivatkozó linkek számának növelése, lehetőleg olyan helyekről, amelyek fontosak a keresőgépek számára, valamint elkerülése az olyan megoldásoknak és trükköknek, amelyeket büntetnek a keresőgépek. 2010 áprilisában a Google bejelentette, hogy ezentúl a letöltési sebességet is figyelembe veszi a page rank kiszámításánál, így kis mértékben már az oldal összmérete és a szerver hálózati kapcsolata is befolyásolja - több mint 200-féle egyéb szempont mellett - azt, hogy hányadik helyre kerül a találati listában.


Összeállította: Drótos László, Magyar Elektronikus Könyvtár

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

IH2010 Kereső kerekasztal: A keresés mint hungarikum

2010.11.04. 14:00 Szerző: Kereso75 Címkék: internet hungary magyar kereső

"Kis pénz - kis foci, nagy pénz - nagy foci" - tarja a mondás, ez a konklúziója most már évek óta a keresés témakörben folytatott vitáknak. Rövid úton belátható, hogy nekünk, magyar fejlesztőknek, innovátoroknak nem azon kell gondolkodnunk, hogyan is dönthetnénk meg a Google egyeduralmát, hanem hogyan tudnánk a magyar sajátosságoknak megfelelő, célzott keresési módszereket bevezetni, amin a hazai médiafelület tulajdonosok is jobban tudnak érvényesülni - más szóval a kérdés az, hogy hogyan lehetne színvonalas magyar focit létrehozni, amire kiváncsiak is az emberek és esetleg még be is fizetnek rá.

A kerekasztal beszélgetésben Vándor Eszter, Varga Péter, Hernádi Gábor, Dunder Krisztián és jómagam vettünk részt. A legfontosabb ötleteket, javaslatokat az alábbiakban foglalnám össze.

A vertikális keresők igenis egyre nagyobb teret (kell, hogy) kap(ja)nak (ld. pl. a korábbi bejegyzést a Blekko keresőről), javarészt olyan területeken, mint az utazás, álláskeresés vagy az ingatlanügyletek - lényegesen kevesebb spammel lehet találkozni, ilyen módon, célravezetőbb használatuk.

Egy másik fontos gondolat, hogy a komolyabb forgalmú oldalaknak is egyre inkább médiafelületként kell tekinteniük a keresőkre. A hirdetők ugyanis egyre inkább csak PPC alapon hajlandók hirdetni, amint ezt egy másik, délelőtti beszélgetésen Vaszily Miklós, az Origó vezérigazgatója is megjegyezte. PPC hirdetésben pedig a keresésPozitív példaként hoztam fel az ok.hu jobb oldali sávjában megjelenő ajánlásokat, ahol is több különböző szolgáltatás kapcsolódik egybe, cikk-, videó-, és egyéb ajánlatokkal.

Varga Péter érdekes felvetése volt a Google lokális keresésével kapcsolatban, amit gyengének lát, hogy egy iwiw-alapú helyi kereső létrehozására látna esélyt. Szerinte versenyképes tudna lenni a helyi illetőségű keresésekben.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása