A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.
Az alábbi keresődobozsegítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.
Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.
Precognox Blogkereső
Document
opendata.hu
Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.
A long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...
A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft.Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.
Magyarországon ha egyelőre lassan is, de kezdenek elterjedni a különböző tématerületekre szakosodott, úgynevezett tematikus, vagy vertikális keresők. Sok a keresés során felmerülő problémára megoldást jelenthetnek, ugyanakkor nem lehet elhallgatni, hogy hátrányaik is vannak. Ezeket foglalnánk össze az alábbiakban.
Előnyök: miben nyújtanak segítséget a tematikus keresők?
Többértelműség kiküszöbölése: egészségügyi példát hozva a "szív" szóra keresve a rengeteg zene, film, Valentin-napi kártya, stb között jelenik meg a tényleg orvosi szempontból is érdekes találat. Vertikális keresés esetén, a terület meghatározza, hogy csak valóban releváns eredményeket kapunk.
Találatról kapott információ mennyisége: egy speciális kereső a várható érdeklődésnek megfelelő mennyiségű és formátumú információt adhat vissza, nem feltétlenül csak az interneten véletlen előfordulásokat, akármilyen formában és környezetben.
A keresendő kifejezés megfogalmazása: speciális területre vonatkozó keresők esetén gyakran lehetőség van kifinomultabb keresési funkciók alkalmazására, mely egy általános kereső esetén a rengeteg lehetőség miatt lehetetlen volna.
Hátrányok
Új oldal megnyitása sokszor kényelmetlenebb, mint a meglévő általános kereső használata. A különböző speciális keresések mind más címen érhetők el, minden sikertelen keresés esetén újabb hely megnyitása túl körülményes, a felhasználók nagy része erre nem hajlandó.
Egyre több szakterületi kereső létezik, ezeknek számontartása is nehéz, hogy mikor melyik volna a legalkalmasabb
A mindennapi használat során, egy-egy információ keresésekor nehéz eldönteni, hogy melyik eszköz a legalkalmasabb az adott esetben, sokszor „marad” inkább az általános keresés
Az előző pontok figyelembevételével sok időt vehet igénybe a létező kereső eszközök felkutatása, a legjobb kiválasztása, a meglévő általános kereső helyett másik helyre való navigálás. Persze végül „költséghatékonyabb” lehet a pontos eredmények elérése.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Ajánlom Miskolczy Csaba cikkét olvasásra a Kreatív Online-on. Egy kis ízelítő:
"A kérdés tehát az, hogy vajon a magyar médiatartalmak képesek lesznek-e megőrizni erejüket a globális, online mamutok mindent elsöprő erejével szemben. A Google, Youtube, Facebook, Twitter hazai térnyerése pedig háttérbe szorítja a lokális médiaipar válságba süllyedésének rémképét is. Ez a kihívás most mindent visz! A válságban meggyengült hazai médiaszereplők számára minden eddiginél erősebb üzleti korjelenség és médiafogyasztási paradigmaváltás következett be. Ez pedig immár napi üggyé, explicite vérre menő üzleti ténykérdéssé változott.
A Google, a Facebook és nemzetközi társaik ugyanis észrevétlenül, de immár helyi nyelveken terjeszkednek az európai lokális médiapiacokon, megállíthatatlanul törnek előre Európa szerte. Csupán néhány piac tud megfelelő kulturális és üzleti alternatívát kínálni velük szemben, pontosabban „velük összemérhetően”. Ilyen például a cseh, orosz és francia médiapiac, ahol a nézők továbbra is a helyi keresőket (pl. Seznam.cz, Yandex.ru) vagy a helyi közösségi oldalakat részesítik előnyben (pl. Mail.ru, iWiW.hu). Az összes többi piac behódolni látszik egy minden eddigieknél erősebb szellemi és piaci nyomásnak."
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
A Webisztánon olvasott Facebook interjú indította meg a gondolataimat. Nem egyszerű a legnagyobbakkal versenyezni, vagy akár csak felhívni magunkra a figyelmüket, ha éppen nekik szeretnénk eladni.
Májusban Hawaii-on jártam egy konferencián, ahol mint kis cég mutattuk be, a nemsokára megjelenő egészségügyi szemantikus adatbázis és kereső termékünket. Egyik reggel a konferencia egyik résztvevője megkérdezte, hogy mi is ott voltunk-e a tegnap a hajón? - Milyen hajón? - kérdeztem vissza, kissé értetlenül. - A ...... cég kibérelt egy kisebb óceánjárót, és 500 konferencia résztvevőt elvitt egy hajóútra, "szerény" vacsorával.
Ezek a vacsorák, ahol kötetlen körülmények között meg lehet ejteni a beszélgetést:
- Akkor rendben van a jövő évi szerződés?
- Persze.
- Kérsz még a homárból?
- Kösz nem, már tele vagyok.
Nos, ez volt a pillanat, amikor a kollégámhoz fordultam és azt mondtam: Az biztos, hogy nekünk alternatív eszközöket kell találnunk. Ezen a pályán, mi azt hiszem nem tudjuk felvenni a versenyt.
Hogyan verheted meg a legnagyobbakat egy-egy vásárlóért folyó versenyben? Nem azokkal az eszközökkel, amikkel ő játszik. Mást kell találnod.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Olyan helyen találkoztam az ingyenesség törvényeinek remek illusztrálásával, ahol arra talán a legkevésbé számítottam. A "cég" amely az elveket remekül alkalmazza, elég komoly múltra tekint vissza. Az összes kontinensen működteti franchise jellegű rendszerben az általa képviselt szolgáltatást.
A konkrét példában vettek egy nagy látogatottságú helyet, melynek elérését igen könnyűvé tették. Az alapfunkciók teljesen ingyenesek, és úgyis teljesértékű a szolgáltatás. Csak az extra "tartalmakért" kell fizetni, azokért is csak a kisösszegű fizetésben megszokott összegeket: gyertyák, térkép, nyomott pénzérme, kincstárbelépő, fülhallgatós idegenvezetés 2-5 euróig. Ezeket egészítik ki aztán az olyan prémium tartalmak, mint például az 1500 eurós szentcsalád Swarowski kristályból. Mindez a Notre Dame székesegyházban. A látogatottságból következtetve elég szépen működik.
Azonban egy másik fontos igazságot is megerősítettek párizsi kirándulásunk tapasztalatai. Ha nincs egy Notre Dame-od (egy nagy látogatottságot vonzó, jól ismert alapszolgáltatásod), akkor az ingyenesség igen nehezen működik. Ezt a rengeteg ingyenes utcazenész és élőszobor által megkeresett napi néhány euró bizonyítja. Az ingyenesség sajnos leginkább a nagy cégek vadászterülete ma.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
A szemantikus web világában a szemantikus keresés gyakran a szemantikai információkkal kiegészített, előre feldolgozott adathalmazokból való információkinyerést jelenti. Ilyen például az RDF (Resource Description Framework) metaadat-adatmodellje, melyek létrehozása körülményes és sok munkát igényel. A nem ilyen módon rendelkezésre álló szövegek jelentés alapján való keresése a szemantikus keresés egy másik irányába vezet, ahol a nyelvészeti adottságokból eredő szemantikai összefüggések, ontológiai tudásreprezentációk és statisztika alapú megközelítések játszanak elsődleges szerepet.
1.PowerSet - szintaktikai megközelítés A keresés tárgyaként szolgáló adathalmazok nagy része természetes nyelvű szövegként áll rendelkezésre. Ebből adódik, hogy ezek, illetve a rájuk irányuló szintén emberi nyelvű lekérdezések feldolgozásához az adott nyelv tulajdonságaiból adódó jelenségek kezelése szükséges jelentés alapú kereső rendszerek megvalósítása során. Ilyen nyelvi jellemzők a szintaktikai szabályok, szemantikai következések, többértelműség.
Szintaktikai szabályok: A szintaktika érvényesülése független attól, hogy milyen témájú szövegről, esetleg szakszövegről van szó, illetve attól is, hogy mikor keletkezett, ezért egy viszonylag állandó tényező. Ezzel szemben szemantikai információt is hordoz. Például az angol passzív formák esetén arra a kérdésre, hogy „Who did Peoplesoft aquire?” jó válasz lehet, hogy „Peoplesoft aquired JD Edwards.”, a következő azonban nem a kérdésre válaszol: „ Peoplesoft was aquired by Oracle.”. Kulcsszavas keresés esetén általában a "was" és "by" stopword listára kerül, tehát jó eredményként jelenik meg a második válasz is, hiszen a szavak megfelelnek a kérdésnek.
Szemantikai következés: Bár a nyelvtan állandó, mégsem elégséges, hiszen megváltozhat egy mondat jelentése bizonyos szavak megváltoztatása során, hogy közben a szintaktika nem változik. Például „Peoplesoft managed to buy JD Edwards.”, „Peoplesoft failed to buy JD Edwards” mondatok szintaktikai szerkezete azonos, jelentésük mégis eltér. Az ilyen esetek kezelésére fogalmi hierarchiák, lexikai és tartalomtól függő következtetések bevezetése növelik a fedés mértékét, de a pontosságot ronthatják.
Többértelműség: Egy több jelentést hordozó mondat vagy kifejezés különböző értelmezései nem feltétlenül logikai diszjunkcióként ábrázolhatók. Például a „John knows the chicken is ready to eat.” mondatban John tudása nem felel meg annak a „vagy” feltételnek, hogy „John knows the chicken is [hungry or cooked]”. Ezért nem pusztán logikai sémák alkalmazása, hanem összetettebb, valószínűségen, szövegkörnyezet figyelembevételén alapuló módszer alkalmazása szükséges.
A PowerSet által megvalósított szemantikai indexelés lépései, mely lehetővé teszi, hogy a rendszer a lekérdezés során gyors legyen, a következők:
A dokumentumokban szereplő mondatok elemzése, mondatrészek közötti kapcsolatok, összefüggések meghatározása.
Kibővítés hasonló, illetve általánosabb osztályba sorolható entitásokra, absztrakció.
Minden mondathoz az előző lépések során kapott felépítés alapján a lehető legtöbb információ hozzárendelése.
Példa:"Sir Edward Heath died from pneumonia" megfelel annak a mondatnak az elemzés és kibővítés után, hogy "A politician killed by a disease", ezért a rendszer választ fog találni benne arra a lekérdezésre, hogy "diseases that killed politicians".
2.RiverGlass - ontológiai megközelítés A szintaktikai szabályok elsősorban a felszínen érvényesülnek, míg a jelentés, a szemantika ennél mélyebb fogalmat takar. A szintaktika, kulcsszavak kinyeréséből alkotott statisztika, szöveg megjelölés, címkézés tehát nem szemantikai fogalmak. A szemantika, jelentés megértéséhez a nyelv ismeretére (lexikon) és a világ ismeretére (ontológia) van elsősorban szükség. A RiverGlass felépítése:
Morfológiai, szintaktikai elemző rendszer végzi az előfeldolgozást.
Lexikon és adatbázis alapján a tulajdonnevek kinyerése után egy „szemantikai szöveget” hoz létre, ontológia megfeleltetésével.
Az így kapott jelentés reprezentációkat eltárolja. A RiverGlass rendszer nem a teljes web feldolgozását célozza meg, így ez az eltárolás viszonylag könnyen megvalósítható, természetesen minél bővebb a feldolgozandó szöveghalmaz, úgy növekszik az itt szükséges tárigény.
Lekérdezés során a kérdéses szöveget ugyanígy elemzi, a tárolt minták megfeleltetése alapján keresi a megfelelő válaszokat.
3. Hakia - szintén ontológiai megközelítés Mérnöki szemszögből közelítve itt az elsődleges hangsúly a platform optimalizálásán van. A hagyományos indexelési technikák nem alkalmasak a szemantika kezelésére a weben található hatalmas mennyiségű dokumentumhalmaz miatt. Ezért alulról felfelé közelíti a problémát: a dokumentumokból meghatározza, hogy milyen kérdésekre adhatnak választ, így sokkal kisebb lesz a lekérdezés során feldolgozandó adatmennyiség, melynek köszönhető a hatékonyság és a sebesség növelése a minőség megtartása mellett.
A feldolgozás lépései:
A dokumentumok tartalma alapján meghatározza a dokumentumra vonatkozó lehetséges lekérdezéseket (mind szintaktika szabályok, mind ontológia felhasználásával).
Horizontális kiterjesztés: meghatározza, hogy adott kifejezések esetén melyek azok, amik szintén arra az eredményre kell hogy vezessenek, tehát a keresés során figyelembe kell venni. (treat = cure, heal, help...)
Vertikális kiterjesztés: meghatározza, hogy adott kifejezések esetén melyek azok, amik esetleg speciálisabb vagy általánosabb formában szintén jó eredményt jelentenek. (drug -> painkiller -> aspirin...)
Tulajdonnevek esetén szükséges a jelentéskör meghatározása (Saturn: bolygó vagy autó).
4. TextWise - statisztikai alapú megközelítés Az előző példákkal ellentétben sem teljes nyelvtani elemzést (csak felszíni elemzést), sem ontológiát nem alkalmaz, hanem "környezeti szemantikán" alapul. Egy kifejezés jelentését a szövegkörnyezet határozza meg, többértelmű szavak esetén is egy magasabb szintű szövegkörnyezet egyértelműen meghatározza a jelentést. Például a „bank” szó jelentése egyértelművé válik a következő környezetekben: „bank regulators" - pénzügyi intézmény, „on the left bank” - folyópart. Statisztikai tanulási módszerek segítségével helyezi el a dokumentumokat a megfelelő jelentés terekben (vektorterek) a dokumentumban szereplő kifejezések alapján. Célja a magasabb szintű szövegkörnyezetek meghatározása, nem a konkrét válasz egy adott lekérdezésre. Az így elért témacsoportok és a lekérdezések közötti hasonlóságot, összefüggést vizsgálja a megfelelő eredmény elérésére.
Ez az összefoglaló az alábbi konferencia video alapján készült.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.