Sajtos Istvánt és Tóth Benedeket, a nemrégiben elindult Szörcs vezető fejlesztőit kérdeztem, olyan témákról amik talán eddig nagyrészt kimaradtak a velük kapcsolatos híradásokból.
A blogotokon írjátok, hogy a szörcs "erősen szemantikus felépítésű". Miben szemantikus?
Sajtos István: Sokat dolgoztunk rajta, hogy felismerje az ismétlődő mintákat és az adott oldalon elvárható elemeket. Automatikusan kategorizáljuk az oldalakat típus szerint. Felismerjük, hogy az adott találat például egy blogposzt, vagy egy linkgyűjtemény. Innen már nekiállhat értékeket keresni: egy cikknél a szerzőt, keletkezés idejét, címét, kapcsolódó képeket, egy webáruháznál az árat, a termék nevét, ha a termék könyv, akkor az ISBN azonosítót is elmenti.
Rengeteg ilyen lehetőség van és nagyon jól működik a találati lista pontosításánál és szeretnénk, ha a jövőben ezek az információk a találatok megjelenítésénél is szerepet kapnának.
Milyen magyar nyelvi eszközöket alkalmaztok? Milyen sajátos nyelvi jelenségek kezelésére vagytok képesek?
SI: A szótövezésben jó a Szörcs, de ez ma már alapfeltétele egy jól működő keresőnek.
Amire büszkék vagyunk, hogy gépileg tudunk mondatot elemezni. Tudjuk egy szóról, hogy milyen szerepet lát el, egy nagyon összetett mondatban is. Alany, tárgy, állítmány és társaik. Ha ezeket vegyítjük kiterjedt értelmező, szinonima és asszociációs szótárakkal, akkor meglepően pontos szövegelemzést tudunk csinálni, ami nagyszerűen felhasználható a találatok rangsorolásánál.
Szintén a blogon olvastam, hogy a keresések során nem csak a magyar oldalakat tekinti eredménynek, hanem azokat a külföldi oldalakat is, amelyeken magyar tartalom van. Ez egyelőre nem igazán működik jól, illetve a fordított irány működik kevésbé. Ha angol szóra keresek, sok külföldi oldal jelenik meg angol tartalommal...
Tóth Benedek: Igen, ez olyan téma, ahol igazából nem a nyelv felismerése a probléma, hanem hogy eldöntsük, hogy mikor érdemes külföldi tartalmat megjeleníteni.
Alapszabály, hogy a magyar tartalmakat preferáljuk. De egy olyan keresésnél például, hogy "twitter" vagy "ford" messze nem annyira egyértelmű, hogy az angol nyelvű hivatalos oldal hova kerüljön. Ez ugyancsak változatos oldaltípusoknál. Egy videónál nem szükséges a youtube oldalt hátrasorolni például csak azért mert nem magyar. De a CNN hátrébb kerül mindenképpen.
Hogy tudjátok megtalálni a nem magyar domainen levő magyar tartalmakat? pl blogok a blogspoton
TB: Sokat keresgélve :) Első sorban a magyar oldalakról linkelt tartalmat követjük. Ha egy oldalt nagyon gyakran linkelnek itthonról, akkor vesszünk a fáradtságot, és az összes oldalt felindexeljünk ami ahhoz a domainhez tartozik. Nagyon kevés magyar oldalra nem lehet így eljutni.
Tetszik a trendek funkció használata során az eredmények előtt megjelenő címke sor. Ezek az eredményekből automatikusan generálódnak? Az általános keresésnél nem kaphatnánk egy ilyet?
SI: Maguk a címkék és az egész trend oldal automatikusan generálódik, de ha az algoritmus nem biztos a dolgában, akkor szól a szerkesztőségnek, aki jóvá hagyja a trend kipublikálását.
Az általános keresésnél az ajánló is hasonlóan működik mint a trend címkesor, csak kicsit más szempontokat veszünk figyelembe, mert inkább a keresés pontosítása és szűkítése a cél. Gondolkozunk rajta, hogy hogyan segíthetnénk címkézéssel a hasonló és szomszédos tartalmak keresését, és eddig egy ilyen asszociációs gráf tűnik a megfelelő fejlesztési iránynak. Lesznek ilyen fejlesztéseink és kísérleteink, mindig is érdekes és megoldandó kihívásként tekintettünk a gépi asszociációt.
Mik voltak technikai oldalról a legnagyobb nehézségeitek a fejlesztésben?
SI: Egyrészt eleinte nagyon sok hardveres problémánk volt, igazából nem voltak meg a megfelelő feltételek ezen a téren és eléggé trükköznünk kellett.
A másik jelentős probléma pedig természetesen az óriási adatmennyiségből fakad. Van néhány művelet, amit ennyi adaton egyszerűen nem lehet megoldani. Nem is maga a keresés okoz problémát, de ha változtatni kell valamit az adatbázisban sokszor rutin dolgok is óriási problémát jelentenek.
Érdekes háttértörténet, hogy egy új paramétert szerettünk volna kiszámoltatni, amely sokat segített később a relevancia megállapításában. De körülbelül 2-3 hét alatt futott volna le az akkor rendelkezésre álló hardveren a számítás. Ekkor az egyik kollégánknak az az ötlete támadt, hogy segítsenek be a laptopjaink és otthoni számítógépeink. Megírtuk a programot, ami futtatta a számítást, és elküldtünk egy tucat ismerősnek is. 13 napot sikerült spórolni ezzel az ötlettel.
Hogyan tovább?
TB: Sok-sok meglepetéssel készülünk, de elsősorban a keresési találatok minőségén szeretnénk nagyon sokat javítani és vannak kissebb hiányosságok, hibák amiket szeretnénk megoldani.