Lehetsz okosabb, mint a Google? Hírkeresés okosabban

2010.10.01. 15:05 Szerző: Kereso75 Címkék: keresés problémái polymeta hírkeresés

Ma a legtöbb keresés esetében olyan mennyiségű találat van, hogy szinte lehetetlen észrevenni, ha egy kereső rosszul kezeli a magyar nyelvi ragozott alakokat. Más a helyzet a hírkeresésnél.

A hírkeresés olyan témakör, amikor a hír frissessége sok minden mást megelőzhet a relevancia szempontok közül. Ilyenkor fény derülhet turpisságokra. Ha ugyanis nem dátum szerint sorrendezünk, akkor bizony 20 napos szakállas hírek is az első oldalra kerülhetnek.

Keressünk például az "eu soros elnökség" kifejezésre a Google hírkeresőjében dátum sorrendben (vagy akár az elmúlt 24 órában). A cikk írásának pillanatában az első 10 találatból 4 esetében mondhatjuk el, hogy témájában érinti a keresett témánkat. Van szó a Román Postáról, magyar köztársasági elnök zágrábi látogatásáról, kínai nemzeti napról az expón, a magyar biogáz egyesületről, vagy éppen a Csemadokról. Lehetne ezt jobban is csinálni? Igen, ha a "soros"-ból nem csinálna sor-t, illetve az "elnökség"-ből pl elnöke-t...

És, hogy ne csak bort igyunk és vizet prédikáljunk, be is mutatnám, hogyan lehetne jobban. Ha ugyanezt a példát a PolyMeta-n próbáljuk meg, ami egyébként szintén a Google hírkeresőjét használja, akkor más, sokkal relevánsabb találatokat kapunk.

(A PolyMeta a WebLib keresője, melynek ügyvezetője vagyok)

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kereső tanfolyam - 2. Keresők működése

2010.09.27. 14:00 Szerző: siklosib Címkék: kereséselmélet kereső tanfolyam

A webes keresőgépek (search engines) három munkafázisból állnak össze: 1. begyűjtés, 2. indexelés, 3. keresés. Ezek a folyamatok nagy teljesítményű elosztott számítógépes rendszereken futnak, folyamatosan és párhuzamosan. A Google például becslések szerint már több mint 1 millió szervert üzemeltet és azt is kiszámolták, hogy egy keresés megválaszolása kb. 1 kJ energiát igényel, ami nagyjából annyi, amennyit az emberi szervezet 10 másodperc alatt éget el.

1. Begyűjtés

A dokumentumok begyűjtését crawler (más néven: spider vagy bot, magyarul: robot vagy pók) programok végzik. Ezek egy összeválogatott URL címlistából indulnak el, ezután ezeket az oldalakat bejárva begyűjtik az azokban található további URL címeket (linkeket), majd ezeket is végigjárják és így tovább... Az így összegyűjtött URL címeket a crawler control modul, az ezekről letöltött fájlokat pedig a page repository veszi át. Előbbi irányítja a crawlert, hogy mely címeket látogassa meg a továbbiakban (mert például újak, vagy mert a legutóbbi begyűjtés óta változott a tartalmuk), utóbbi pedig az indexelő és esetleg a kereső modul számára szolgáltatja az eltárolt dokumentumokat.

A crawler engedelmeskedik a Robots Exclusion szabályzatnak, vagyis a robots.txt fájlban megadott engedélyek vagy tiltások alapján dönti el, hogy egy adott szerveren mely weblapokat gyűjt be, illetve melyekről követi tovább a linkeket. A webmesterek mellett a keresőgép üzemeltetője is szabályozhatja a crawler működését: beállíthatja például, hogy egy site-on belül milyen mélységig (link-szintig) menjen le a robot, milyen formátumú dokumentumokat gyűjtsön be és milyen mérethatárig, milyen gyakran térjen vissza egy oldalra (ez lehet egy fix időhatár: pl. havonta; vagy kikalkulálható a korábbi látogatások során észlelt változások mennyiségéből: a gyakran és jelentősen változó oldalakra érdemes sűrűbben visszalátogatni).

A web hatalmas mérete és bonyolultsága miatt minden keresőgép csak egy részét (gyakran csak egy kis töredékét) tudja begyűjteni az elérhető fájloknak, és nagy különbségek vannak az egyes keresők között a kiterjedésben (a web melyik és mekkora részét járja be a crawler?) és frissességben (milyen gyakran és milyen szisztéma szerint látogatja újra az oldalakat a robot?), ami jelentősen befolyásolja a használhatóságukat. A nagy keresők által nem látott terület a deep web (vagyis a "mélyweb" vagy "rejtett/láthatatlan web"), amelynek mérete egyes becslések szerint több százszorosa a surface (vagyis a népszerű keresőgépekkel "látható") webnek. A deep web tartalmához a crawler több okból nem fér hozzá: vagy tiltja a robots.txt, vagy az oldalak dinamikusan generálódnak egy adatbázisból a felhasználó kérésére (pl. egy könyvtári OPAC esetében), vagy csak regisztrált felhasználók tudnak belépni az adott területre, vagy olyan speciális formátumban van (pl. Flash vagy videó) a tartalom, amit a robot nem tud értelmezni, vagy egyszerűen elszigetelt a site (nem mutat rá külső link).

2. Indexelés

A begyűjtött "nyersanyagból" a keresőgép többféle indexet készít és ezeket adatbázisokban tárolja. A link index (szerkezeti index) például azt rögzíti egy gráf formájában, hogy mely weblapról mely további oldalakra mutatnak linkek. Mivel a hasonló tartalmú/jellegű oldalak gyakran hivatkoznak egymásra, ezt az információt a keresőrendszer felhasználja a találatok listájában, amikor további hasonló weblapokat ajánl a felhasználónak.

Fontos az is, hogy egy oldalra hány link mutat és mely oldalakról hivatkoznak rá, továbbá hogy ezekre az oldalakra hányan és honnan linkelnek és így tovább... Mivel minden link egy "szavazat" az adott weblap fontossága/népszerűsége mellett, ezért a linkek számából és forrásából számított PageRank érték jól használható a találati listák relevancia szerinti rendezésénél.

A text index (szöveg index) pedig a begyűjtött oldalakon található szavakból és egyéb karaktercsoportokból (pl. számok, speciális jelek, tag-ek) készül, de esetleg kihagynak belőle bizonyos szavakat (stopwords), pl. a névelőket. Ez egy ún. invertált index, amelyben minden szóhoz hozzákapcsolják minden olyan oldal azonosítóját (doc_id), ahol az adott szó előfordul, továbbá egy mutatót, amely a szó pontos helyét jelöli az oldalon belül és esetleg egyéb információkat is (pl. hogy a szó milyen tag-ek között található, vagy valamilyen link ill. kép közelében fordul-e elő?).

Az indexek felépítése a legnehezebb műszaki feladat, maga a keresés már egyszerűbb és kevesebb erőforrást igényel. Az indexelés sebessége azért is fontos, mert ettől függ, hogy milyen gyorsan válik megtalálhatóvá a begyűjtött friss tartalom. Ezért a real-time search az utóbbi években - a közösségi oldalak, a blogok és mikroblogok (pl. Twitter) elterjedése miatt - egyre fontosabb, új kutatási területté vált.

3. Keresés

A felhasználó által beírt keresőszavakat a keresőprogram a text index adatbázisából gyűjti ki, rangsorolja őket valamilyen (meglehetősen komplex) algoritmus szerint, majd kikeresi az előfordulási helyükhöz tartozó metaadatokat (a dokumentum címe, URL-je, formátuma, mérete, a begyűjtés dátuma, stb.), továbbá többnyire összeállít egy szövegkörnyezetet (a keresett szavakat előfordulási helyéről), majd megjeleníti őket valamilyen formában (jellemzően egy lapozható listaként). Az, hogy egy keresőgép milyen algoritmus szerint rendez, nagyban meghatározza a hasznosságát és népszerűségét (ezért általában üzleti titokként kezelik, egyben a spamdexing ellen is védekezve).

A PageRank mellett számít az is, hogy mennyire ritka egy keresett szó, hányszor fordul elő egy oldalon, milyen hosszú szövegben szerepel és milyen helyen (pl. címben, linkben, egyéb kiemelt pozícióban). Fontos emellett a keresőnyelv fejlettsége ill. az összetett keresőűrlap opciói: csonkolás/maszkolás/ékezetkezelés/pontatlanul írt (fuzzy) szavak javítása/automatikus kiegészítés, logikai műveletek, közelségi/helyzeti operátorok, prefixek (pl. title:, site:, link:) szűrők (pl. domain, formátum, nyelv, dátum, jogok), természetes nyelvű keresés, gépelési hibák javítása, szinonimák és ragozott alakok, hasonló oldalak keresése.

Továbbá a találatok megjelenítésének sebessége és módja is lényeges szempont: egyszerű listás vagy kéthasábos, szövegkörnyezet, címkefelhő, gyorsnézet, klaszterezés, grafikus, statisztikai adatok, relevancia érték, stb.; valamint a kiegészítő szolgáltatások: pl. formátumkonvertálás, automatikus fordítás, cache (tárolt változat); és persze az is, hogy mennyi és milyen reklámot tesz a kereső a találatok mellé vagy közé (az első néhány tétel ma már rendszerint "szponzorált" link).

Összeállította: Drótos László Magyar Elektronikus Könyvtár

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

5 komment • Kövess Facebookon • Iratkozz fel értesítőre

Keresés természetes nyelven

2010.09.21. 11:14 Szerző: siklosib Címkék: keresés jövője alternatív keresőfelület keresés problémái szemantikus keresés kereséselmélet

„the ultimate personalized search engine: the librarian” (Sergey Brin)

Amikor információt keresünk az interneten, interakcióba lépünk számítógépünk segítségével egy keresőmotorral. Az interakció kvázi-nyelvi, hiszen szöveges bevitellel keresünk szöveges információt (ez gyakran így van a nem-szöveges információ esetében is, hiszen ilyenkor a rendszer a tagek között keres). A keresést tanulnunk kell és gyakran körülményes, viszont rendelkezünk egy csodálatos képességgel; tudunk kérdezni. De mi is a különbség a kérdések és a keresés között? Hogyan tehetjük természetesebbé a keresés élményét? Erre adhat választ a pragmatika.

Mi is az a pragmatika?

A pragmatika a nyelvészet egy ága, amely a nyelvet használatának folyamatában vizsgálja. Kérdései (pl. mitől működik egy társalgás, mit jelent deklarálni valamit, mit jelent hazudni) sokak számára triviálisnak tűnhetnek, de hát a gravitáció is adott volt mindig, mégis Newton volt, aki meglátta a jelentőségét. Ennél persze sokkal több haszna is van a pragmatikának, a retorika művelőit érdekli, mitől lehet meggyőzőbb érvelésük, pszichológusok és pszichiáterek gyakran a társalgás szabályainak betartását (vagy be nem tartását) figyelik diagnosztikai elbeszélgetéseik során, a jogtudományok művelőit is érdekli egyrészt a meggyőző érvelés alakítása, másrészt minden egyes jogszabály egy speciális státuszú, ún. beszédaktus (nyelvi formában véghezvitt cselekvés).

Az ún. hétköznapi nyelv filozófiája az ötvenes évekig szinte egyeduralkodó logikai megközelítéssel szemben, Wittgenstein nyomdokain haladva a hétköznapi nyelvhasználat felé fordult. J.L. Austin a beszédaktusok természetét körüljáró Tetten ért szavak c. könyvében rámutatott arra, hogy bizonyos nyelvi megnyilatkozások értelmezhetők cselekvésként, ezek a fent már említett beszédaktusok, pl egy deklaráció („mától férj és feleség vagytok”) vagy egy hajó keresztelés („mostantól a neved Fóka”). H. P. Grice a modern pragmatika atyja, ezt gondolta tovább, hiszen minden megnyilatkozás értelmezhető cselekvésként is. Ha csupán társalgunk valakivel, nem csak mondatokat formálunk, valami más is történik, ami nem feltétlenül tartozik a nyelvhez, de mindenképpen hatással van rá. Ezeket vizsgálva Grice ún társalgási maximákat talált.

Társalgási maximák

Röviden tekintsük át ezeket a maximákat:

Mennyiség
- legyen a kívánt mértékben informatív
- ne legyen túl informatív (ez idővesztés)
Minőség
- ne mondj olyat, amiről azt hiszed, hogy hamis
- ne mondj olyat, amire nézve nincs megfelelő evidenciád
Viszony/Kapcsolat (relevancia)
- légy releváns (a relevancia maximája)
Mód/Modor (Érthetőség)
- kerüld a homályos kifejezést
- kerüld a kétértelműséget
- légy tömör
- légy rendezett

Ezek a maximák nem előírások, nincsenek kőbe vésve, sokkal inkább iránymutatók, melyek elősegítik az eredményes társalgást. Egy társalgás során általában információt cserél két, vagy több ember. Ha tudni szeretnénk valamit, vagy megkérdeznek tőlünk valamit, általában tudatlanul is követjük ezeket a maximákat. Ez természetes számunkra, hiszen minden (egészséges) ember rendelkezik nyelvi képességgel (azaz az anyanyelv elsajátításának és használatának képességével) és szocializációnk során a fenti elvek is belénk ívódnak. Vegyünk fel még egy szempontot a relevancia kapcsán, ha információt szeretnénk szerezni, megpróbáljuk az ésszerű kereteken belül a legmegbízhatóbb forrást elérni és az, hogy milyen forrást sikerült találnunk hatással van arra, hogy mennyire fogadjuk el a kapott választ.

Keresés és relevancia

Keresni kulcsszavakkal szoktunk, nem kérdéseket teszünk fel. Habár így a tömörség és rendezettség módját maximálisan követjük, nem biztos, hogy releváns kérdést teszünk fel. Ha a piros zoknik ára vagy Mátyás király születési helye érdekel minket, kulcsszavak alapján nem lehetünk elég relevánsak. Zokniból (akárcsak csokiból) többféle van, ahogyan pirosból is, Mátyás király pedig nem csak egy volt (habár mindenki az elsőre asszociál a szókapcsolat hallatán). Mi okoz itt gondot? Hiszen sok esetben a keresés simán megadja a releváns találatokat. Ha például új 15 colos monitort szeretnék venni és érdekelnek az árak, a „15'' monitor ár” keresés eredményei kielégítőek. A keresés nem társalgás, de nem is nyelvi tevékenység. Habár a honlapok nyelvi információval vannak tele, ez a kereső motorok számára irreleváns. Őket az érdekli, hogy a keresett kifejezések előfordulnak-e egy adott oldalon vagy nem. A találatokat nem mi rendezzük megbízhatóságuk szerint (erről nincs is elég tudásunk), hanem a kereső algoritmusa (pl aszerint hogy hány más oldal hivatkozik rá). Így tulajdonképpen a kereső bízik abban, hogy a „tömegek” kiválasztják a releváns oldalakat és hivatkoznak azokra.

Ha valamit tényleg tudnod kell; fordulj a könyvtároshoz

Beszélgetéseink hatékonyságához nem árt követni a Grice-i maximákat, de szükségünk van nyelven kívüli tudásra is, azaz hogy kit kérdezzünk. Az hogy kinek a válaszát fogadjuk el több dologtól is függ, például mennyire ismerjük az illetőt, milyen a válaszadó társadalmi helyzete, iskolai végzettsége stb. Ezek a faktorok nem százszázalékosak, vannak rendkívül művelt mozdonyvezetők, akik szeretik a történelmet és vannak többdiplomás kóklerek is, találunk szegény közgazdászokat és dúsgazdag iskolakerülőket, de nagy általánosságban azért útbaigazítanak ezek minket. Brin pont ezért ajánlja a könyvtárost, mint személyre szabott keresőmotort. A könyvtárosok feladata az információ rendszerezése és kereshetővé tétele és egyszerű természetes nyelvi interfésszel érintkezhetünk velük (beszélhetünk velük) és tényleg releváns információhoz jutunk segítségükkel (lektorált folyóiratok, könyvek, enciklopédiák).

Mi ennek a tanulsága?

A keresés legkézenfekvőbb analógiája a kérdezés. De nem szabad elfelejtenünk, hogy a két dolog, hasonlóságaik ellenére különbözik. Az emberek számára a keresőmotor fekete doboz, nem látnak bele és ezért egy naiv elméletet dolgoznak ki, ami magyarázatul szolgálhat nekik annak működéséről (a naiv teóriák nem tudatosak, egyfajta természetes viselkedés hogy minden dologról kialakítunk egy ilyen elméletet, erről többet Donald Norman The Design of Everyday Things című könyvében tudhat meg az érdeklődő olvasó). Mivel nyelvi adatokat (vagy nyelvileg is kódolt adatokat) keres a felhasználó egy nyelvi interfész segítségével, kézenfekvő hogy a kérdések terén felhalmozott tudására alapozza naiv elméletét a kereső működéséről. A hagyományos keresők azonban összeütköznek a megszokott maximákkal mivel 1) túl sok adatot tartalmaz a találati lista 2) nem egyértelmű a találatok értelmezése, hiszen ahogy fent már tárgyaltuk maga a keresés sem felel meg az egyértelműség maximájának. A relevancia fogalma más a két területen, erre nézve szükség lenne a nyelvi adatok (mind a keresés, mind a potenciális találatok terén) mélyebb megértésére, ami még gyerekcipőben jár, s ezért ennek elemzésétől most eltekintünk.

Az említett hiányosságokon azonban segíthetünk, és segítenünk is kell, hiszen egyre több és egyre változatosabb hátterű ember kapcsolódik a világhálóhoz és szabad információ hozzáféréshez való joguk gyakorlását biztosítanunk kell, nem mellesleg ezzel új piaci lehetőségek is megnyílhatnak. Ezek egy része inkább a dizájn és információ tervezés (information architecture) területéről jönnek. Megfelelően tervezett, átlátható, automatikus kiegészítéssel és filterekkel ellátott keresők segíthetnek egyértelműsíteni a keresett kifejezést, azonban ezek tervezése rendkívüli körültekintést igényel. (Az érdeklődő olvasó figyelmébe ajánlom Peter Morville és Jeffery Callender Search Patterns könyvét)

Egy másik lehetséges megoldás a Mozilla Labs Ubiquity projektjében alkalmazott technika, ami megpróbálja a bevitelt értelmezni annak szemantikai szerkezete szerint. A Ubiquity tulajdonképpen egy természetes nyelvi parancssori interfész a Firefox böngészőhöz. A felhasználó segítségével nem csupán a honlapok között tud szörfölni, hanem össze tud kapcsolni különféle internetes szoláltatásokat. Pl. a „translate this to French” és „send it to John” parancsok végrehajtása után a kijelölt oldal francia fordítását beszúrja a rendszer egy John-nak címzett levélbe. Ehhez a Ubiquity egyszerű, természetes nyelvi parancsokat használ melyeket egy elmés ötlettel könnyen lokalizálhatunk is hiszen a szintaktikai elemzője abból indul ki hogy csak bizonyos típusú parancsok kerülnek bevitelre az ember-gép interakció során (utasítások felszólító módban) és bizonyos szerkezetek nem (például a tagadás). Ezek a nyelvi szerkezetek az elvek és paraméterek nyelvészeti kutatási program szerint mély szerkezetükben minden nyelvben azonosak (ezt nevezik elveknek), a felszíni eltérések csupán bizonyos megjósolható különbségekből adódnak (paraméterek). A lokalizáció során nem kell minden egyes parancsot újra írni, csupán be kell állítani a paramétereket, azaz a „email this to John” és a „ezt küld el Janinak” közötti eltéréseket kell leírnunk (szórend, esetjelölés, stb). A parancsok tkp igék, egy igének pedig vannak argumentumai, az hogy milyen argumentumai lehetnek egy igének pedig meghatározza annak szemantikai keretét. Ez a keret lehetővé teszi, hogy az ige begépelése után ajánlásokat tehessen a rendszer a felhasználónak a lehetséges argumentumokra nézve. Ez egyrészt időmegtakarítást jelent, másrészt lehetővé teszi, hogy a felhasználó más lehetséges argumentumokra is gondolhasson, de növeli a pontosságot is. Ha több nyelven állnak rendelkezésünkre ezek a szemantikai keretek, lehetőségünk nyílik arra hogy felhasználjuk az argumentum-előre (ilyen pl a japán nyelv, de magyarul is helyezhetjük előre az argumentumokat pl „ezt Janinak küld el”) típusú nyelveket a rendszer tökéletesítésére. Az argumentumok bevitele során a lehetséges igékre is ajánlásokat tehetünk. (A Ubiquity mögött meghúzódó elvekről bővebben Michael Erlewine “Ubiquity: Designing a Multilingual Natural Language Interface.” és Aza Raskin The Linguistics Command Line cikkeit ajánlom).

Egy, a Ubiquity interfészéhez hasonló rendszerrel a keresést közelíthetjük a természetes nyelvi interakcióhoz. Ma csak szimpla kulcsszavakat írunk be, leggyakrabban főneveket és hozzáértjük, hogy keress. Amikor arra vagyunk kíváncsiak hol született Mátyás király, nem egy kérdést teszünk fel, hanem egy parancsot adunk a keresőnek; „Keresd meg hol született Mátyás király” és a rendszer ezt egyáltalán nem így értelmezi (habár ezzel nincs semmi baj). Azt viszont hogy pontosan mire kíváncsi a felhasználó, valószínűleg pont az eredeti kérdés mondaná meg. A kérdőszavak (és esetleg a kérdéshez kapcsolódó igék) kijelölik a lehetséges argumentumokat, és ahogy fent már láttuk az argumentumok is kijelölhetik az igét, ez pedig egyértelműsíti a kérdést és maga a kérdés átfordítható kulcsszavakká a kereső számára.

Varjú Zoltán a Számítógépes nyelvészet című blog szerzője

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A Bing a Facebooknak tejel? Keresőpiaci trendforduló jöhet...

2010.09.16. 16:32 Szerző: Kereso75 Címkék: trendek facebook keresés jövője bing

Már egy ideje lemondtam róla, hogy a Kereső Világ hírblogként üzemeljen, hiszen a hírek megírását nem bírtam idővel. A mai, origo által megírt hír - miszerint a Bing megvenné a Facebooktól a lájkolások adatait- viszont véleményem szerint olyan jelentőségű lehet, ami mellett nem mehetek el szó nélkül.

Miért? A Google PageRank, és persze a Bing egyik hiányossága, hogy lassabban reagál az új tartalmakra. Bár legtöbbször megbízható eredményeket hoz, az oldalak közötti kapcsolatok (linkek) kiépülése lassú folyamat. Azt tudhatjuk például, hogy az Origo vagy az Index egy fontos forrás, hiszen sokan linkelnek rá, de azt nem feltétlenül lehet tudni, hogy egy frissen megírt írás lényeges-e igazából, mennyire van hírértéke, valódi információtartalma. Éppen ezért jól kiegészíthetik a keresők indexadatait a tartalommegosztókból - beleértve természetesen a twittert is, amit már mindkét kereső használ - származó adatok, amelyek pontosan a friss oldalak esetében adhatnak plusz információt.

Ezért fektetett be már korábban is a Microsoft a Facebook-ba, és ezért gondolom azt, hogy minden követ meg fog mozgatni azért, hogy ezeket a lájkolási adatokat, ha csak lehet, csak ő kapja meg. Mindenesetre a FB remek alkupozícióban van. Szerintem a következő néhány évre megoldódnának a növekedési gondjai egy ilyen megegyezéssel. Mondhatnám úgyis, a mellékelt képre hivatkozva: a Bing most a Facebooknak tejel!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kereső tanfolyam - 1. Keresőtörténelem

2010.09.13. 14:00 Szerző: siklosib Címkék: internetes keresés keresők története kereséselmélet kereső tanfolyam

Olyan sorozat megjelentetésébe kezdünk, amelynek eredetije egy informatikus könyvtárosok számára készült jegyzet. Mivel ma már nemcsak az információkereséssel hivatásszerűen foglalkozók számára fontos a keresőrendszerek ismerete, ezért úgy gondoljuk, hogy hasznos szélesebb körben is közzétenni ezt a tananyagot. Az egyes részek a keresők történetével, működésével, fajtáival és használatával foglalkoznak. Az összeállítást Drótos László, a Magyar Elektronikus Könyvtár egyik alapítója készítette.

1. Keresőtörténelem

Az első kereső: Archie

Az internet elterjedése előtti hálózatokon (pl. Minitel, Nedix, X.25, EARN/Bitnet) is voltak már kereshető szolgáltatások és ezek egy része (pl. Dialog, DataStar, STN, OPAC-ok), később az interneten is elérhetővé vált (előbb telnet, majd webes kapcsolat formájában), de ezek kívül esnek a jelen áttekintésen. Az első valóban internetes keresőszolgáltatás az Archie volt, melyet egy Alan Emtage nevű montreali diák és két társa hozott létre 1990-ben. Ez a program a nyilvános FTP archívumok (fájl- és szoftvergyűjtemények) directory-listáit gyűjtötte be és tette kereshetővé - a Unix grep parancsát felhasználva - a fájl- és alkönyvtár-neveket (az állományok tartalmában nem lehetett keresni vele!). A szolgáltatást saját klienssel, vagy valamelyik Archie-szerverhez való telnet kapcsolódással, vagy e-mailben küldött parancsokkal, vagy később már web-felületen át is lehetett használni.

A Gopher és keresői

Az 1991-ben a University of Minnesota-n kitalált gopher szolgáltatáshoz (mely hierarchikus menükön keresztül vezette el a felhasználót szöveg- vagy képfájlokhoz, ill. adatbázisokhoz) kétféle kereső is született: A Jughead (1993) egy adott gopher-szerver tartalmát tette kereshetővé, míg a Veronica (1992) az ismert szerverek mindegyikét - néhány év múlva már több ezret - végigkereste. Ezekkel is csak a menüpontok nevében lehetett keresni, a szöveg-fájlok tartalmában nem.

Wide Area Information Servers

A Thinking Machines által, a 80-as évek végén kifejlesztett, és 1991-ben szabad szoftverré tett WAIS (Wide Area Information Servers) az eredetileg online könyvtári katalógusok lekérdezésére kitalált Z39.50 nevű protokollt használta arra, hogy teljes szövegű forrásokat (pl. receptgyűjtemények, dalszövegek, könyvismertetők, bírósági határozatok, telefonkönyvek) lehessen kliens-szerver módon lekérdezni. Fénykorában, a kilencvenes évek közepén félezernél is több WAIS szerver működött a világon.

A World Wide Web kereshetővé tétele

Az első próbálkozások 1993 nyarán indultak. Az egyik skóciai egyetemen kifejlesztett JumpStation volt az első olyan rendszer, amely a mai keresőgépekhez hasonlóan egy robottal begyűjtötte, majd leindexelte és egy web-felületen át kereshetővé tette a WWW-szerverek tartalmát. Az indexelés 1993 decemberében indult és egy év múlva már mintegy 275 ezer tételt tartalmazott, melyeket kb. 1500 szerverről gyűjtött össze. Csak a dokumentumok címét és fejlécét gyűjtötte be (a host korlátozott erőforrásai miatt), így csak ezekben lehetett keresni. A keresési algoritmus lineáris volt (tehát lassú) és a találati listában nem volt relevancia szerinti rendezés.

Teljes szövegű keresés

Az első nyilvánosan elérhető, teljes szövegű webkereső a University of Washington hallgatója: Brian Pinkerton által indított WebCrawler volt, amely 1994 áprilisában jelent meg az interneten és akkoriban 4000 szerver anyagát tartalmazta az adatbázisa. Olyan népszerű lett, hogy csúcsidőben (amikor az USA-ban nappal volt) nem is lehetett elérni. Többszöri tulajdonosváltás után jelenleg metakeresőként működik, amely a nagy keresőket kérdezi le, vagyis már nem a saját adatbázisát használja.

Lycos

Szintén 1994-ben kezdték el a Carnegie Mellon University informatikusai fejleszteni a Lycos nevű keresőt, ami az első valóban jól használható és nagy méretű webkereső volt, és sikeres üzleti vállalkozássá is vált később. Amikor 1994 nyarán megjelent, az adatbázisa 54 ezer dokumentumra terjedt ki, 1995 januárjában ez a szám 1.5 millióra nőtt, 1996 novemberében pedig a Lycos - a világ akkori legnagyobb keresőjeként - már 60 millió tételes adatbázissal büszkélkedett. Az elsők között biztosított relevancia szerint rendezést, közelségi operátorokat ill. prefixeket a keresett szavak távolságának ill. helyének pontosításához.

Megindul a verseny

A Lycos példáját 1994 és 1996 között egy sor hasonló vállalkozás követte, melyek mindegyike néhány további újítást vezetett be: pl. az Excite, az Infoseek, az Inktomi, a Hotbot, és az AltaVista. Végül ez utóbbi lett a legsikeresebb és évekig vezette a keresők mezőnyét. Az Altavista komoly sávszélességgel és szerverekkel rendelkezett már kezdettől fogva, elsőként vezette be a minimalista designt, a természetes nyelvű lekérdezés lehetőségét, a részletes kereső opciókat, sőt még automatikus fordítóprogramot is biztosított Babelfish néven.

Megjelenik a Google

A keresőrendszerek piacán nagy harc indult a kilencvenes évek második felétől: a cégek felvásárolták egymást, portálokká alakultak, új szolgáltatásokkal és funkciókkal kísérleteztek, majd sokan tönkrementek az ezredforduló után a "dot.com lufi" kipukkanásakor. Ekkor tört be erre a területre a Larry Page and Sergey Brin (a kaliforniai Stanford University két Ph.D. hallgatója) által 1996-1998 közt kifejlesztett Google kereső, amely néhány év alatt a legnépszerűbb keresőgép lett a weben, messze megelőzve az elődjeit és a későbbi versenytársait is. A Google népszerűsége a gyorsasága és egyszerűsége mellett a PageRank technológiában van, aminek eredményeként nagyon releváns találatokat ad.

Bing és Yahoo

A Microsoft cég 1998-ban jelent meg keresőszolgáltatással a weben előbb MSN Search majd Live Search néven, de kezdetben nem saját technológiát használt, hanem más keresőgépeket kérdezett le, és csak 2004 végén jelent meg a saját rendszerével. A szolgáltatást 2009 júniusában Bing-re keresztelték át, és komoly reklámkampányba kezdtek, hogy minél nagyobb piaci részesedére tegyenek szert ezen a területen is. Hasonló utat járt be a Yahoo! Search is: az eredetileg webes címtárként híressé vált Yahoo! sokáig más keresőket épített be a portáljába, és csak 2004-től indított saját rendszert. 2009 nyarán viszont bejelentették, hogy a Bing-et használják a továbbiakban.

Magyar keresők

A korai magyar fejlesztések közül meg kell említeni a Hungary Network által 1995-ben indított (és 2005-ben felújított) Heuréka keresőt; az 1999-ben megjelent Góliát-ot (ezt használta az Index és a Startlap is), és a Matáv által 1998 májusában létrehozott Altavizsla nevű oldalt, amely később Vizsla névre hallgatott, jelenleg pedig Ok.hu-nak hívják és az Origó portál része, de ez valójában különböző külföldi keresőmotorokat (kezdetben az AltaVista, később a Northern Light és a Yahoo által megvett Overture, 2007-től pedig a Google) használ(t) a magyar web lekérdezésére. 2010 elején három új hazai kereső is megjelent: a speciális keresőfunkciókban gazdag Bluu, a találatok rendezésében és megjelenítésében újszerű Szörcs, valamint a tartalomjegyzéket kínáló Johu kereső.

Írta: Drótos László, Magyar Elektronikus könyvtár

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Lehetsz okosabb, mint a Google? Hírkeresés okosabban

2010.10.01. 15:05 Szerző: Kereso75 Címkék: keresés problémái polymeta hírkeresés

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kereső tanfolyam - 2. Keresők működése

2010.09.27. 14:00 Szerző: siklosib Címkék: kereséselmélet kereső tanfolyam

5 komment • Kövess Facebookon • Iratkozz fel értesítőre

Keresés természetes nyelven

2010.09.21. 11:14 Szerző: siklosib Címkék: keresés jövője alternatív keresőfelület keresés problémái szemantikus keresés kereséselmélet

Mi is az a pragmatika?

Társalgási maximák

Keresés és relevancia

Ha valamit tényleg tudnod kell; fordulj a könyvtároshoz

Mi ennek a tanulsága?

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A Bing a Facebooknak tejel? Keresőpiaci trendforduló jöhet...

2010.09.16. 16:32 Szerző: Kereso75 Címkék: trendek facebook keresés jövője bing

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kereső tanfolyam - 1. Keresőtörténelem

2010.09.13. 14:00 Szerző: siklosib Címkék: internetes keresés keresők története kereséselmélet kereső tanfolyam

1. Keresőtörténelem

Az első kereső: Archie

A Gopher és keresői

Wide Area Information Servers

A World Wide Web kereshetővé tétele

Teljes szövegű keresés

Lycos

Megindul a verseny

Megjelenik a Google

Bing és Yahoo

Magyar keresők

1 komment • Kövess Facebookon • Iratkozz fel értesítőre