Megjelent egy cikk a BMC Bioinformatics folyóiratban, melyben a szerzők részletesen összehasonlítják a működő szemantikus keresőket. Talán a címmel ellentétben nem igazán "Ki mit tud?" jelleggel, mert nem a végső produkció értékeléséről van szó, hanem inkább egy összefoglalás arról, hogy milyen utakon lehet eljutni bármiféle szemantikai kereső alkalmazás megvalósításához.
Különböző szempontok szerint lehet csoportosítani az ilyen keresőket.
A felhasznált adattípus alapján
- RDF-OWL alapú keresők: A legélesebb választóvonal a bemeneti adattípus alapján húzható. A szemantikus web technológiáit felhasználva vannak keresők, melyek előre feldolgozott, szemantikai információval bővített adathalmaz alapján működnek, mint például a Swoogle, a Semantic Web Search Engine (SWSE), a WikiDB, a Sindice, a Watson, a Falcon és a Corese. Ezek bemeneti formátuma nem sima szöveges dokumentum, hanem RDF adatmodellt használnak, illetve OWL fájlokat keresnek. Mivel az így előfeldolgozott oldalak száma elég kevés, előállításuk nehézkes, ezért ezek a keresők erősen limitáltak.
- Szöveg alapú keresők: A keresők másik nagy csoportja sima szöveges dokumentumokban keres, ami lehetővé teszi a sokkal tágabb körű feldolgozást. Erre a csoportra nem csak a feldolgozható információhalmaz bővebb rendelkezésre állása a jellemző, hanem a technológiai szabadság is. Nem egy előre meghatározott keret alapján valósítják meg a szemantikai keresést, hanem különböző irányokból megközelítve. Így több szempont alapján lehet ezeket a rendszereket jellemezni: a feldolgozott dokumentumok témája (web, orvosi, wiki, stb), háttértudás, ontológia használata, különböző szövegfeldolgozási eljárások használata alapján.
Általános keresők, akik mindent tudnak
A PolyMeta, a Hakia, a START, az Ask.com, a BrainBoost, az AnswerBus, a Cuil, a Clusty, és a Carrot általános keresőként működnek, a weben előforduló minden témájú és tartalmú szöveg keresésével. Így nem csak milliós, de milliárdos nagyságrendű dokumentum feldolgozásával. Mivel háttér ontológiát nem használnak, a pusztán kulcsszó alapú keresést nyelvfeldogozási algoritmusok alkalmazásával egészítik ki: szótövesítés, kifejezéscsoportok azonosítása, mély/felszíni elemzés, stb.
Eredmények megjelenítése
A Polymeta, a Cuil, a Clusty, és a Carrot keresők a rengeteg eredmény között való eligazodás elősegítésére azokat csoportosítva jelenítik meg. A klaszterek elnevezése azonban nem valamilyen ontológia vagy tezaurusz alapján meghatározott összefoglaló név, hanem a találatokban szereplő közös kifejezés. Így mivel a tartalmi jelentést csupán a dokumentumokban valójában előforduló nyelvi jelenségek alapján, illetve azok feldolgozása során értelmezik, nem igazán nevezhetőek szemantikus keresőknek. Ezzel azonban megtartják azt az előnyüket, hogy teljesen általánosan alkalmazhatóak, hiszen nem függenek semmilyen háttértudástól.
Úton az ontológia felé...
A szemantikai térképen újabb terület képviselői a PowerSet és a QuAlim. Ezek a rendszerek a wikipedia hatalmas, és egyre növekvő tudását használják fel különböző feldolgozási módszerek segítségével. Valódi ontológiát tehát ezek sem tartalmaznak, de ilyen formán a keresett dokumentumok jelentéséről többet tudnak a wikipediából kinyert információk segítségével.
A hagyományos kulcsszó alapú és a szakterületi ontológiát alkalmaz keresők között található a GoWeb, mely mindkét módszert kihasználva általánosan keres, majd ontológiai szűrést és csoportosítást valósít meg.
Vertikális keresők
A következő nagy kategóriába tartoznak a vertikális keresők, jelen példában az orvosi-egészségügyi téren. Míg az eddigi rendszerek előnye volt az általános alkalmazhatóság, hiányosságuk a speciális szakterületeken való járatlanságuk. A szakterületi keresők azonban alkalmasak arra, hogy a különböző forrásokból származó háttértudás alapján képesek legyenek mélyebb szemantikai kapcsolatok felfedésére is, így a valóban releváns eredményeket nagyobb eséllyel találják meg. A HealthMash, a GoPubMed és az EBIMed például a GeneOntology és a Medical Subject Headings (MeSH) tudását használják ki; az XPlorMed nyolc MeSH kategória alapján szűri meg az eredményeket; az IHOP a gének és fehérjék megnevezéseit használja ki, mint mondatok közötti kapcsolatot. Az EAGli és az askMedline pedig a bemenetként kapott valódi kérdésekre keresi a választ.
A valódi ontológiát alkalmazó rendszerek esetén az eredmények jellege lehetővé teszi, hogy a megjelenített klaszterek alapja is ez a háttértudás legyen, az ebben szereplő összefüggések és hierarchikus kapcsolatok alapján.