HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A szavak titkos élete

2011.10.25. 12:00 Szerző: Zoltán Varjú Címkék: szótár szemantikus keresés Wordnik

Coixet filmje nagyon szépen érzékelteti hogy a szavakban több van mint gondolnánk. Persze van a szavaknak egy nyilvános élete is amiről a szótárak tájékoztatnak minket, de ki szereti a hatalmas köteteket cipelni, ott vannak hát az online szótárak, de ugye tudjuk hogy a nyilvános dolgokon túl mindenkit azok a titkok érdekelnek... A Wordnik arra vállalkozott hogy forradalmasítja a szótár fogalmát és bebizonyítja hogy a szavak titkos élete kikutatható és a keresésben is alkalmazható.

 

Erin McKean lexikográfus (és több sikerkönyv szerzője, valamint divat blogger) és Mark Wong – van Haren az Excite (1994 óta aktív online szolgáltatás ami a kereséstől kezdve email szolgáltatáson át szinte a teljes vertikumot lefedi) alapítója egyszer összetalálkozott és megszületett a Wordnik szótár. McKean több neves szótárat is szerkesztett és nagyon érdekelte hogy milyennek is kell lennie a 21. század szótárának, van Haren pedig régi motoros a keresésben, nem csoda hogy a találkozásból egy nagyon izgalmas dolog született. A továbbiakban áttekintjük hogy milyen is lett ez az új szótár, majd hogy mire is épül fel ez az egész és végül arra is kitérünk hogy mire lehet felhasználni (és hogyan lehet pénzt keresni ma egy szótárból).

 

Wordnik: All the Words_1318095065746.png

 

 

 

 

A 21. század szótára

 

Addig rendben van hogy az internet korában egy szótárnak elektronikusnak kell lennie és a netes megjelenés is alap – sajnos azonban az ingyenesség már nem annyira magától értetőtőd. McKean nagyon ráérzett arra hogy valami nincs rendben azzal hogy simán tesznek egy keresőt a meglévő adatbázisokra. Egy nyomtatott szótár szerkesztése nagyon körülményes, a használhatóság terjedelmi korlátokat szab, nem lehet csak úgy bővíteni, ezért egy-egy új szó felvétele, vagy éppen törlése nagy vitákat képes kiváltani. De mielőtt ennyire előre szaladnánk, álljunk meg egy percre (vagy egy szóra, ha már a nyelvvel foglalkozunk :D) és gondolkodjunk el azon honnét is „szerzik be” a szótárkészítők az alapanyagot amiből kinyerik a szavakat. A szavak nem magukban állnak, hanem mondatokba szerveződve „élik életüket”, a leggyakrabban pedig nem leírjuk őket, hanem beszéd közben szállnak el. Ahogy minden nyelvészeti bevezetőben áll, a szó és annak jelentése közötti kapcsolat önkényes (semmi sem kötelez miket arra hogy a 'kutya' kutya legyen a magyarban vagy dog az angolban, chien, az angolban, perro a spanyolban vagy inu a japánban). Egy ilyen önkényes jel lenetése nem önmagában adott, hanem a többi jelhez viszonyítva (és persze a nyelvtani szabályoknak engedelmeskedve). Azaz a kutya szó jelentését azok a mondatok és szószerkezetek határozzák meg melyekben előfordul. Így pl.

„Szeretem a kutyákat.”

„Cifra, de aranyos kutya vagy te!”

„A kutya megharapta a postást.”

„A mudi egy magyar kutyafajta.”

A fentiek meghatározzák a kutya szó egy bizonyos jelentését, egyben azt is láthatjuk hogy itt kicserélhetjük minden előfordulását az „eb” szóra. Fontoljuk meg azonban az alábbiakat:

„Kutya rossz idő van.”

„Kutya hideg van.”

„Kutyául állunk.”

„Tito, a láncos kutya.”

Az elő kettőben nem éreznénk elfogadhatónak ha a „kutyát” kicserélnénk „ebre”. A harmadik esetben ezt nyugodtan megtehetjük („Ebül állunk” ha egyre ritkább is, de elfogadható), a negyedik esetben viszont ismét ellenkezik nyelvérzékünkkel a csere. Ezt a jelenséget nevezzük disztribúciónak, vagy eloszlásnak. Minden szó mutat egy eloszlást, az egyes előfordulások hasonlóak, mások jelentősen eltérnek – ezek adják a jelentést.

 

Az elszállt szóra nem építhetjük fel a szótárunkat (legalábbis sokáig nem tehettük ezt meg), ezért a lexikográfia elsődlegesen írott forrásokra támaszkodik. Egy nyelv szótárának elkészítése nem könnyű feladat, ha csak az írott adatokra szorítkozunk is rengeteg kérédés merül fel, kezdve attól hogy milyen időintervallumban vizsgálódunk (bevennénk pl. a magyar nyelv szótárába a 16/17 századi forrásokat, vagy az Ómagyar Mária-siralmat, vagy mondjuk Fluor Tomi dalszövegeit?), de még egy adott intervallumon belül is hatalmas adatmennyiséget kapnánk és nyilván bizonyos változatok felülreprezentáltak lennénke (pl. sokkal több hír és újságcikk keletkezik mint vers vagy tanulmány) ezért meg kell küzdenünk a mintavételezés problémájával is (a közvélemény-kutatások elemzéseiből tudjuk hogy minta legyen reprezentatív, de mit reprezentáljon, a mai magyar nyelvet, de mit értünk ezen, a Magyarországon beszélt magyyar nyelvet, a magyar emberek által beszélt standard nyelvet, a nyelvjárásokat is belevesszük, belevesszük-e az szlenget és egyéb nem-standard változatokat stb). Szembe kell néznünk továbbá azzal a ténnyel hogy a nyelv változik, akár viszonylag rövid időn belül is belső vagy külső hatásokra új szavak jelenhetnek meg, régi szavak jelentése módosulhat stb, Nádasdy Ádám szavait kölcsönvéve a nyelvek „ide-oda változnak, ahogy a tenger ide-oda hullámzik, apad és dagad”. Persze mi magunk részesei, elszenvedői és okai vagyunk ennek a változásnak ezért nem látjuk, de Kumanan Rajamanikkam (Wordnik Lead Engineer) Cloudera vendégposztjában felhívja a figyelmet arra hogy egy elektornikus szótárnak illik feldolgoznia az összes hozzáférhető forrást és egy már eléggé érett, nagy adatbázissal rendelekező eszközzel is megeshet hogy másodpercenként (!) 8.000 szót kell feldolgoznia. Ilyen léptékkel már igen kis eltérések is kimutathatók a nyelvhasználatban, egy buzzword (felkapott hívószó) megjelenése is kimutatható ilyen szinten, ami valljuk be a hagyományos szótárkészítés esetében nem is biztos hogy átmegy a következő kiadásba (amire biztos hogy pár évet várni kell).

 

Ha adva van egy kellően nagy adatbázis (vagy nevezzük nevén és hívjuk korpusznak ahogy a nyelvészek teszik) valahogy lehetővé kell tenni a keresését is az összes elérhető extra információval. A Wordnik ezt egy eléggé hosszúra nyúlt, de azért áttekinthető felülettel oldotta meg.

 

wordnik_definition.png

 

A keresett szó alatt elérhetjük rögtön a Define, Relate, List, Discuss, See, Hear, Share és Love gyorslinkeket. A definíciók általában nyílt forrásból nyert meghatározások, ahol rendelkezésre áll információ ott az etimológiát is megadják (azaz honnét ered a szó). A fent vázolt disztribúción alapuló példa kikeresés is működik, ezt láthatjuk jobb oldalt.


wordnik_relatedwords.png

 

A „Relate” gyorslink vezet minket a „Related words” részhez, ahol szinonimákat, antonómiákat és hiponímiákat találhatunk, valamint a felhasználók által megadott cimkéket (tags) is láthatunk.

 

wordnik_lists.png

 

A felhasználók szerepét nagyon komolyan veszi a Wordnik, bárki regisztrálhat, készíthet magának listákat, kommentálhat szavakat, listákat, sőt részt vehet a Wordnik játékaiban a Twitteren. Egyrészt ez egy nagy buli, másrészt pedig a keletkezett anyag amolyan élőnyelvi korpuszt generál amit ismét lehet bányászni és beépíteni a szótárba...

 

wordnik_commentstweets.png

 

De ha ez nem elég, akad még pár dolog.

 

wordnik_etc.png

 

Minden szavuk aranyat ér?

 

A körítés mellett azonban felmerülhet a kérdés mitől több ez mint pl. a SZTAKI szótárak? Az első legfontosabb különbség hogy a szótár elérhető egy API-n keresztül, az összes funkció beépíthető egy mashup-ba így bárki akinek szótári információra van szüksége alkalmazásához készen kapja meg azt. Az Apple tartalomfogyasztásra kihegyezett termékeihez pedig külön SDK-t adtak ki (software development kit – szoftverfejlesztési eszköztár) ami lehetővé teszi hogy az alkalmazásokból egyszerűen élérhető legyen minden információ. De a Barnes&Noble Nook Color készülékéhez is külön alkalmazást fejlesztettek ki.

 

A tartalomelőállítók és a tartalomfogyasztásra specializálódott eszközök (legyenek azok szoftverek vagy hardverek) gyártóit célozta meg a Wordnik Smartwords kezdeményezése, ami nem más mint egy API szabvány elektronikus szótárakra szabva (maga a készülő dokumentáció is nagyon hasonlít pl. az Open Knowledge Foundation Open Data ajánlásaihoz).

 

 

 

 A Blekko kereső tkp lehetővé teszi hogy különböző feltételek mentén szűrjük és rangsoroljuk a találatokat. A \define slash (így nevezeik Blekko-ul a szűrési feltételeket) eredményét a Wordnik szállítja

 

blekko.png 

 

A korpusz mérete immár lehetővé teszi hogy az egyes szavakat egy olyan strutúrába rendezve kezeljék ami leírja a közöttük lévő kapcsolatokat, erre épül az új WordGraph API. Itt már nem csupán egy szó definíciójának kinyeréséről van szó, hanem a szavak közötti viszonyok leképezéséről is, tehát a szemantikus web tipleteit kapjuk meg (azaz egyfajta alaptudástár, mint a Freebase). A WordGraph első felhasználója a TaskRabbit protál, ami segít összehozni azokat akiknek segítségre van szükségük azokkal akik meg tudják oldani a feladatot (amolyan mindennapi ügyek elintézése olcsón, gyorsan, hatékonyan).

 

tasktabbit.png 

 

A feladat leírása és a potenciális segítő megtalálása során a WordGraph összepárosítja a természetes nyelven leírt elvárásokat és képességeket - kár hogy a Smartwords nevet már ellőtték.

 

A Wordnik sokak kedvence lett 2009-es indulása óta, a korpusznyelvészet berkeiben pedig egyenesen csodálják hiszen az alkalmazott korpusznyelvészet megszületésének vagyunk tanui. Azonban még mindig kérdés hogy képes-e megélni a saját lábán ez a modell, a WordGraph és a különböző szolgáltatások képesek-e annyi profitot termelni hogy fennmaradjon és növekedjen a cég.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr833307710

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása