Hogyan készült? A Szörcs

2010.01.28. 15:52 Szerző: Kereso75

Sajtos Istvánt és Tóth Benedeket, a nemrégiben elindult Szörcs vezető fejlesztőit kérdeztem, olyan témákról amik talán eddig nagyrészt kimaradtak a velük kapcsolatos híradásokból.

A blogotokon írjátok, hogy a szörcs "erősen szemantikus felépítésű". Miben szemantikus?

Sajtos István: Sokat dolgoztunk rajta, hogy felismerje az ismétlődő mintákat és az adott oldalon elvárható elemeket. Automatikusan kategorizáljuk az oldalakat típus szerint. Felismerjük, hogy az adott találat például egy blogposzt, vagy egy linkgyűjtemény. Innen már nekiállhat értékeket keresni: egy cikknél a szerzőt, keletkezés idejét, címét, kapcsolódó képeket, egy webáruháznál az árat, a termék nevét, ha a termék könyv, akkor az ISBN azonosítót is elmenti.

Rengeteg ilyen lehetőség van és nagyon jól működik a találati lista pontosításánál és szeretnénk, ha a jövőben ezek az információk a találatok megjelenítésénél is szerepet kapnának.

Milyen magyar nyelvi eszközöket alkalmaztok? Milyen sajátos nyelvi jelenségek kezelésére vagytok képesek?

SI: A szótövezésben jó a Szörcs, de ez ma már alapfeltétele egy jól működő keresőnek.
Amire büszkék vagyunk, hogy gépileg tudunk mondatot elemezni. Tudjuk egy szóról, hogy milyen szerepet lát el, egy nagyon összetett mondatban is. Alany, tárgy, állítmány és társaik. Ha ezeket vegyítjük kiterjedt értelmező, szinonima és asszociációs szótárakkal, akkor meglepően pontos szövegelemzést tudunk csinálni, ami nagyszerűen felhasználható a találatok rangsorolásánál.

Szintén a blogon olvastam, hogy a keresések során nem csak a magyar oldalakat tekinti eredménynek, hanem azokat a külföldi oldalakat is, amelyeken magyar tartalom van. Ez egyelőre nem igazán működik jól, illetve a fordított irány működik kevésbé. Ha angol szóra keresek, sok külföldi oldal jelenik meg angol tartalommal...

Tóth Benedek: Igen, ez olyan téma, ahol igazából nem a nyelv felismerése a probléma, hanem hogy eldöntsük, hogy mikor érdemes külföldi tartalmat megjeleníteni.

Alapszabály, hogy a magyar tartalmakat preferáljuk. De egy olyan keresésnél például, hogy "twitter" vagy "ford" messze nem annyira egyértelmű, hogy az angol nyelvű hivatalos oldal hova kerüljön. Ez ugyancsak változatos oldaltípusoknál. Egy videónál nem szükséges a youtube oldalt hátrasorolni például csak azért mert nem magyar. De a CNN hátrébb kerül mindenképpen.

Hogy tudjátok megtalálni a nem magyar domainen levő magyar tartalmakat? pl blogok a blogspoton

TB: Sokat keresgélve :) Első sorban a magyar oldalakról linkelt tartalmat követjük. Ha egy oldalt nagyon gyakran linkelnek itthonról, akkor vesszünk a fáradtságot, és az összes oldalt felindexeljünk ami ahhoz a domainhez tartozik. Nagyon kevés magyar oldalra nem lehet így eljutni.

Tetszik a trendek funkció használata során az eredmények előtt megjelenő címke sor. Ezek az eredményekből automatikusan generálódnak? Az általános keresésnél nem kaphatnánk egy ilyet?

SI: Maguk a címkék és az egész trend oldal automatikusan generálódik, de ha az algoritmus nem biztos a dolgában, akkor szól a szerkesztőségnek, aki jóvá hagyja a trend kipublikálását.

Az általános keresésnél az ajánló is hasonlóan működik mint a trend címkesor, csak kicsit más szempontokat veszünk figyelembe, mert inkább a keresés pontosítása és szűkítése a cél. Gondolkozunk rajta, hogy hogyan segíthetnénk címkézéssel a hasonló és szomszédos tartalmak keresését, és eddig egy ilyen asszociációs gráf tűnik a megfelelő fejlesztési iránynak. Lesznek ilyen fejlesztéseink és kísérleteink, mindig is érdekes és megoldandó kihívásként tekintettünk a gépi asszociációt.

Mik voltak technikai oldalról a legnagyobb nehézségeitek a fejlesztésben?

SI: Egyrészt eleinte nagyon sok hardveres problémánk volt, igazából nem voltak meg a megfelelő feltételek ezen a téren és eléggé trükköznünk kellett.

A másik jelentős probléma pedig természetesen az óriási adatmennyiségből fakad. Van néhány művelet, amit ennyi adaton egyszerűen nem lehet megoldani. Nem is maga a keresés okoz problémát, de ha változtatni kell valamit az adatbázisban sokszor rutin dolgok is óriási problémát jelentenek.

Érdekes háttértörténet, hogy egy új paramétert szerettünk volna kiszámoltatni, amely sokat segített később a relevancia megállapításában. De körülbelül 2-3 hét alatt futott volna le az akkor rendelkezésre álló hardveren a számítás. Ekkor az egyik kollégánknak az az ötlete támadt, hogy segítsenek be a laptopjaink és otthoni számítógépeink. Megírtuk a programot, ami futtatta a számítást, és elküldtünk egy tucat ismerősnek is. 13 napot sikerült spórolni ezzel az ötlettel.

Hogyan tovább?

TB: Sok-sok meglepetéssel készülünk, de elsősorban a keresési találatok minőségén szeretnénk nagyon sokat javítani és vannak kissebb hiányosságok, hibák amiket szeretnénk megoldani.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr581710121

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Fransiscó 2010.01.29. 05:59:51

Ha úgy működne mint a Google azonnal eszt használnám mivel hazai termék!

Válasz erre

Kereso75 · http://kereses.blog.hu 2010.01.29. 07:29:15

@Fransiscó: Arra biztatnálak, hogy adj visszajelzést a fejlesztőknek arról, hogy milyen hiányosságot látsz egy-egy keresésnél. Biztos vagyok benne, hogy sokat segíthetsz vele a fejlesztésben.

Válasz erre

fledgling42 2010.01.31. 10:23:52

Nagyon szimpatikus vállalkozás ez a Szörcs; sok sikert és sok befektetőt kívánok - a tömegek csak akkor fogják használni, ha sebességében és relevenciájában megközelíti a Google-t, és tud plusz szolgáltatásokat nyújtani; amire szerintem van esély, elnézve a jelenlegi fejlesztéseket, és azt, hogy a magyar piacra fókuszál. Ígéretes, bár nem tudom mennyi pénz áll mögöttük, reméljük jó sok, mert az bizony kell, a szerverparkokhoz, a sávszélességhez, az átfogó fejlesztésekhez.

Válasz erre

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Hogyan készült? A Szörcs

2010.01.28. 15:52 Szerző: Kereso75

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

Fransiscó 2010.01.29. 05:59:51

Kereso75 · http://kereses.blog.hu 2010.01.29. 07:29:15

fledgling42 2010.01.31. 10:23:52

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Hogyan készült? A Szörcs

2010.01.28. 15:52 Szerző: Kereso75

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek:

Fransiscó 2010.01.29. 05:59:51

Kereso75 · http://kereses.blog.hu 2010.01.29. 07:29:15

fledgling42 2010.01.31. 10:23:52