HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Szemantikus ki-mit-tud?

2009.10.21. 12:41 Szerző: siklosib Címkék: szemantikus keresők

Megjelent egy cikk a BMC Bioinformatics folyóiratban, melyben a szerzők részletesen összehasonlítják a működő szemantikus keresőket. Talán a címmel ellentétben nem igazán "Ki mit tud?" jelleggel, mert nem a végső produkció értékeléséről van szó, hanem inkább egy összefoglalás arról, hogy milyen utakon lehet eljutni bármiféle szemantikai kereső alkalmazás megvalósításához.

Különböző szempontok szerint lehet csoportosítani az ilyen keresőket.

A felhasznált adattípus alapján

  • RDF-OWL alapú keresők: A legélesebb választóvonal a bemeneti adattípus alapján húzható. A szemantikus web technológiáit felhasználva vannak keresők, melyek előre feldolgozott, szemantikai információval bővített adathalmaz alapján működnek, mint például a Swoogle, a Semantic Web Search Engine (SWSE), a WikiDB, a Sindice, a Watson, a Falcon és a Corese. Ezek bemeneti formátuma nem sima szöveges dokumentum, hanem RDF adatmodellt használnak, illetve OWL fájlokat keresnek. Mivel az így előfeldolgozott oldalak száma elég kevés, előállításuk nehézkes, ezért ezek a keresők erősen limitáltak.
  • Szöveg alapú keresők: A keresők másik nagy csoportja sima szöveges dokumentumokban keres, ami lehetővé teszi a sokkal tágabb körű feldolgozást. Erre a csoportra nem csak a feldolgozható információhalmaz bővebb rendelkezésre állása a jellemző, hanem a technológiai szabadság is. Nem egy előre meghatározott keret alapján valósítják meg a szemantikai keresést, hanem különböző irányokból megközelítve. Így több szempont alapján lehet ezeket a rendszereket jellemezni: a feldolgozott dokumentumok témája (web, orvosi, wiki, stb), háttértudás, ontológia használata, különböző szövegfeldolgozási eljárások használata alapján.

Általános keresők, akik mindent tudnak

A PolyMeta, a Hakia, a START, az Ask.com, a BrainBoost, az AnswerBus, a Cuil, a Clusty, és a Carrot általános keresőként működnek, a weben előforduló minden témájú és tartalmú szöveg keresésével. Így nem csak milliós, de milliárdos nagyságrendű dokumentum feldolgozásával. Mivel háttér ontológiát nem használnak, a pusztán kulcsszó alapú keresést nyelvfeldogozási algoritmusok alkalmazásával egészítik ki: szótövesítés, kifejezéscsoportok azonosítása, mély/felszíni elemzés, stb.

Eredmények megjelenítése

A Polymeta, a Cuil, a Clusty, és a Carrot keresők a rengeteg eredmény között való eligazodás elősegítésére azokat csoportosítva jelenítik meg. A klaszterek elnevezése azonban nem valamilyen ontológia vagy tezaurusz alapján meghatározott összefoglaló név, hanem a találatokban szereplő közös kifejezés. Így mivel a tartalmi jelentést csupán a dokumentumokban valójában előforduló nyelvi jelenségek alapján, illetve azok feldolgozása során értelmezik, nem igazán nevezhetőek szemantikus keresőknek. Ezzel azonban megtartják azt az előnyüket, hogy teljesen általánosan alkalmazhatóak, hiszen nem függenek semmilyen háttértudástól.

Úton az ontológia felé...

A szemantikai térképen újabb terület képviselői a PowerSet és a QuAlim. Ezek a rendszerek a wikipedia hatalmas, és egyre növekvő tudását használják fel különböző feldolgozási módszerek segítségével. Valódi ontológiát tehát ezek sem tartalmaznak, de ilyen formán a keresett dokumentumok jelentéséről többet tudnak a wikipediából kinyert információk segítségével.

A hagyományos kulcsszó alapú és a szakterületi ontológiát alkalmaz keresők között található a GoWeb, mely mindkét módszert kihasználva általánosan keres, majd ontológiai szűrést és csoportosítást valósít meg.

Vertikális keresők

A következő nagy kategóriába tartoznak a vertikális keresők, jelen példában az orvosi-egészségügyi téren. Míg az eddigi rendszerek előnye volt az általános alkalmazhatóság, hiányosságuk a speciális szakterületeken való járatlanságuk. A szakterületi keresők azonban alkalmasak arra, hogy a különböző forrásokból származó háttértudás alapján képesek legyenek mélyebb szemantikai kapcsolatok felfedésére is, így a valóban releváns eredményeket nagyobb eséllyel találják meg. A HealthMash, a GoPubMed és az EBIMed például a GeneOntology és a Medical Subject Headings (MeSH) tudását használják ki; az XPlorMed nyolc MeSH kategória alapján szűri meg az eredményeket; az IHOP a gének és fehérjék megnevezéseit használja ki, mint  mondatok közötti kapcsolatot. Az EAGli és az askMedline pedig a bemenetként kapott valódi kérdésekre keresi a választ.

A valódi ontológiát alkalmazó rendszerek esetén az eredmények jellege lehetővé teszi, hogy a megjelenített klaszterek alapja is ez a háttértudás legyen, az ebben szereplő összefüggések és hierarchikus kapcsolatok alapján.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr11465247

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása