Szemantikus ki-mit-tud?

2009.10.21. 12:41 Szerző: siklosib Címkék: szemantikus keresők

Megjelent egy cikk a BMC Bioinformatics folyóiratban, melyben a szerzők részletesen összehasonlítják a működő szemantikus keresőket. Talán a címmel ellentétben nem igazán "Ki mit tud?" jelleggel, mert nem a végső produkció értékeléséről van szó, hanem inkább egy összefoglalás arról, hogy milyen utakon lehet eljutni bármiféle szemantikai kereső alkalmazás megvalósításához.

Különböző szempontok szerint lehet csoportosítani az ilyen keresőket.

A felhasznált adattípus alapján

RDF-OWL alapú keresők: A legélesebb választóvonal a bemeneti adattípus alapján húzható. A szemantikus web technológiáit felhasználva vannak keresők, melyek előre feldolgozott, szemantikai információval bővített adathalmaz alapján működnek, mint például a Swoogle, a Semantic Web Search Engine (SWSE), a WikiDB, a Sindice, a Watson, a Falcon és a Corese. Ezek bemeneti formátuma nem sima szöveges dokumentum, hanem RDF adatmodellt használnak, illetve OWL fájlokat keresnek. Mivel az így előfeldolgozott oldalak száma elég kevés, előállításuk nehézkes, ezért ezek a keresők erősen limitáltak.
Szöveg alapú keresők: A keresők másik nagy csoportja sima szöveges dokumentumokban keres, ami lehetővé teszi a sokkal tágabb körű feldolgozást. Erre a csoportra nem csak a feldolgozható információhalmaz bővebb rendelkezésre állása a jellemző, hanem a technológiai szabadság is. Nem egy előre meghatározott keret alapján valósítják meg a szemantikai keresést, hanem különböző irányokból megközelítve. Így több szempont alapján lehet ezeket a rendszereket jellemezni: a feldolgozott dokumentumok témája (web, orvosi, wiki, stb), háttértudás, ontológia használata, különböző szövegfeldolgozási eljárások használata alapján.

Általános keresők, akik mindent tudnak

A PolyMeta, a Hakia, a START, az Ask.com, a BrainBoost, az AnswerBus, a Cuil, a Clusty, és a Carrot általános keresőként működnek, a weben előforduló minden témájú és tartalmú szöveg keresésével. Így nem csak milliós, de milliárdos nagyságrendű dokumentum feldolgozásával. Mivel háttér ontológiát nem használnak, a pusztán kulcsszó alapú keresést nyelvfeldogozási algoritmusok alkalmazásával egészítik ki: szótövesítés, kifejezéscsoportok azonosítása, mély/felszíni elemzés, stb.

Eredmények megjelenítése

A Polymeta, a Cuil, a Clusty, és a Carrot keresők a rengeteg eredmény között való eligazodás elősegítésére azokat csoportosítva jelenítik meg. A klaszterek elnevezése azonban nem valamilyen ontológia vagy tezaurusz alapján meghatározott összefoglaló név, hanem a találatokban szereplő közös kifejezés. Így mivel a tartalmi jelentést csupán a dokumentumokban valójában előforduló nyelvi jelenségek alapján, illetve azok feldolgozása során értelmezik, nem igazán nevezhetőek szemantikus keresőknek. Ezzel azonban megtartják azt az előnyüket, hogy teljesen általánosan alkalmazhatóak, hiszen nem függenek semmilyen háttértudástól.

Úton az ontológia felé...

A szemantikai térképen újabb terület képviselői a PowerSet és a QuAlim. Ezek a rendszerek a wikipedia hatalmas, és egyre növekvő tudását használják fel különböző feldolgozási módszerek segítségével. Valódi ontológiát tehát ezek sem tartalmaznak, de ilyen formán a keresett dokumentumok jelentéséről többet tudnak a wikipediából kinyert információk segítségével.

A hagyományos kulcsszó alapú és a szakterületi ontológiát alkalmaz keresők között található a GoWeb, mely mindkét módszert kihasználva általánosan keres, majd ontológiai szűrést és csoportosítást valósít meg.

Vertikális keresők

A következő nagy kategóriába tartoznak a vertikális keresők, jelen példában az orvosi-egészségügyi téren. Míg az eddigi rendszerek előnye volt az általános alkalmazhatóság, hiányosságuk a speciális szakterületeken való járatlanságuk. A szakterületi keresők azonban alkalmasak arra, hogy a különböző forrásokból származó háttértudás alapján képesek legyenek mélyebb szemantikai kapcsolatok felfedésére is, így a valóban releváns eredményeket nagyobb eséllyel találják meg. A HealthMash, a GoPubMed és az EBIMed például a GeneOntology és a Medical Subject Headings (MeSH) tudását használják ki; az XPlorMed nyolc MeSH kategória alapján szűri meg az eredményeket; az IHOP a gének és fehérjék megnevezéseit használja ki, mint mondatok közötti kapcsolatot. Az EAGli és az askMedline pedig a bemenetként kapott valódi kérdésekre keresi a választ.

A valódi ontológiát alkalmazó rendszerek esetén az eredmények jellege lehetővé teszi, hogy a megjelenített klaszterek alapja is ez a háttértudás legyen, az ebben szereplő összefüggések és hierarchikus kapcsolatok alapján.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr551465247

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Szemantikus ki-mit-tud?

2009.10.21. 12:41 Szerző: siklosib Címkék: szemantikus keresők

A felhasznált adattípus alapján

Általános keresők, akik mindent tudnak

Eredmények megjelenítése

Úton az ontológia felé...

Vertikális keresők

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Szemantikus ki-mit-tud?

2009.10.21. 12:41 Szerző: siklosib Címkék: szemantikus keresők

A felhasznált adattípus alapján

Általános keresők, akik mindent tudnak

Eredmények megjelenítése

Úton az ontológia felé...

Vertikális keresők

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: