A szavak titkos élete

2011.10.25. 12:00 Szerző: Zoltán Varjú Címkék: szótár szemantikus keresés Wordnik

Coixet filmje nagyon szépen érzékelteti hogy a szavakban több van mint gondolnánk. Persze van a szavaknak egy nyilvános élete is amiről a szótárak tájékoztatnak minket, de ki szereti a hatalmas köteteket cipelni, ott vannak hát az online szótárak, de ugye tudjuk hogy a nyilvános dolgokon túl mindenkit azok a titkok érdekelnek... A Wordnik arra vállalkozott hogy forradalmasítja a szótár fogalmát és bebizonyítja hogy a szavak titkos élete kikutatható és a keresésben is alkalmazható.

Erin McKean lexikográfus (és több sikerkönyv szerzője, valamint divat blogger) és Mark Wong – van Haren az Excite (1994 óta aktív online szolgáltatás ami a kereséstől kezdve email szolgáltatáson át szinte a teljes vertikumot lefedi) alapítója egyszer összetalálkozott és megszületett a Wordnik szótár. McKean több neves szótárat is szerkesztett és nagyon érdekelte hogy milyennek is kell lennie a 21. század szótárának, van Haren pedig régi motoros a keresésben, nem csoda hogy a találkozásból egy nagyon izgalmas dolog született. A továbbiakban áttekintjük hogy milyen is lett ez az új szótár, majd hogy mire is épül fel ez az egész és végül arra is kitérünk hogy mire lehet felhasználni (és hogyan lehet pénzt keresni ma egy szótárból).

Wordnik: All the Words_1318095065746.png

A 21. század szótára

Addig rendben van hogy az internet korában egy szótárnak elektronikusnak kell lennie és a netes megjelenés is alap – sajnos azonban az ingyenesség már nem annyira magától értetőtőd. McKean nagyon ráérzett arra hogy valami nincs rendben azzal hogy simán tesznek egy keresőt a meglévő adatbázisokra. Egy nyomtatott szótár szerkesztése nagyon körülményes, a használhatóság terjedelmi korlátokat szab, nem lehet csak úgy bővíteni, ezért egy-egy új szó felvétele, vagy éppen törlése nagy vitákat képes kiváltani. De mielőtt ennyire előre szaladnánk, álljunk meg egy percre (vagy egy szóra, ha már a nyelvvel foglalkozunk :D) és gondolkodjunk el azon honnét is „szerzik be” a szótárkészítők az alapanyagot amiből kinyerik a szavakat. A szavak nem magukban állnak, hanem mondatokba szerveződve „élik életüket”, a leggyakrabban pedig nem leírjuk őket, hanem beszéd közben szállnak el. Ahogy minden nyelvészeti bevezetőben áll, a szó és annak jelentése közötti kapcsolat önkényes (semmi sem kötelez miket arra hogy a 'kutya' kutya legyen a magyarban vagy dog az angolban, chien, az angolban, perro a spanyolban vagy inu a japánban). Egy ilyen önkényes jel lenetése nem önmagában adott, hanem a többi jelhez viszonyítva (és persze a nyelvtani szabályoknak engedelmeskedve). Azaz a kutya szó jelentését azok a mondatok és szószerkezetek határozzák meg melyekben előfordul. Így pl.

„Szeretem a kutyákat.”

„Cifra, de aranyos kutya vagy te!”

„A kutya megharapta a postást.”

„A mudi egy magyar kutyafajta.”

A fentiek meghatározzák a kutya szó egy bizonyos jelentését, egyben azt is láthatjuk hogy itt kicserélhetjük minden előfordulását az „eb” szóra. Fontoljuk meg azonban az alábbiakat:

„Kutya rossz idő van.”

„Kutya hideg van.”

„Kutyául állunk.”

„Tito, a láncos kutya.”

Az elő kettőben nem éreznénk elfogadhatónak ha a „kutyát” kicserélnénk „ebre”. A harmadik esetben ezt nyugodtan megtehetjük („Ebül állunk” ha egyre ritkább is, de elfogadható), a negyedik esetben viszont ismét ellenkezik nyelvérzékünkkel a csere. Ezt a jelenséget nevezzük disztribúciónak, vagy eloszlásnak. Minden szó mutat egy eloszlást, az egyes előfordulások hasonlóak, mások jelentősen eltérnek – ezek adják a jelentést.

Az elszállt szóra nem építhetjük fel a szótárunkat (legalábbis sokáig nem tehettük ezt meg), ezért a lexikográfia elsődlegesen írott forrásokra támaszkodik. Egy nyelv szótárának elkészítése nem könnyű feladat, ha csak az írott adatokra szorítkozunk is rengeteg kérédés merül fel, kezdve attól hogy milyen időintervallumban vizsgálódunk (bevennénk pl. a magyar nyelv szótárába a 16/17 századi forrásokat, vagy az Ómagyar Mária-siralmat, vagy mondjuk Fluor Tomi dalszövegeit?), de még egy adott intervallumon belül is hatalmas adatmennyiséget kapnánk és nyilván bizonyos változatok felülreprezentáltak lennénke (pl. sokkal több hír és újságcikk keletkezik mint vers vagy tanulmány) ezért meg kell küzdenünk a mintavételezés problémájával is (a közvélemény-kutatások elemzéseiből tudjuk hogy minta legyen reprezentatív, de mit reprezentáljon, a mai magyar nyelvet, de mit értünk ezen, a Magyarországon beszélt magyyar nyelvet, a magyar emberek által beszélt standard nyelvet, a nyelvjárásokat is belevesszük, belevesszük-e az szlenget és egyéb nem-standard változatokat stb). Szembe kell néznünk továbbá azzal a ténnyel hogy a nyelv változik, akár viszonylag rövid időn belül is belső vagy külső hatásokra új szavak jelenhetnek meg, régi szavak jelentése módosulhat stb, Nádasdy Ádám szavait kölcsönvéve a nyelvek „ide-oda változnak, ahogy a tenger ide-oda hullámzik, apad és dagad”. Persze mi magunk részesei, elszenvedői és okai vagyunk ennek a változásnak ezért nem látjuk, de Kumanan Rajamanikkam (Wordnik Lead Engineer) Cloudera vendégposztjában felhívja a figyelmet arra hogy egy elektornikus szótárnak illik feldolgoznia az összes hozzáférhető forrást és egy már eléggé érett, nagy adatbázissal rendelekező eszközzel is megeshet hogy másodpercenként (!) 8.000 szót kell feldolgoznia. Ilyen léptékkel már igen kis eltérések is kimutathatók a nyelvhasználatban, egy buzzword (felkapott hívószó) megjelenése is kimutatható ilyen szinten, ami valljuk be a hagyományos szótárkészítés esetében nem is biztos hogy átmegy a következő kiadásba (amire biztos hogy pár évet várni kell).

Ha adva van egy kellően nagy adatbázis (vagy nevezzük nevén és hívjuk korpusznak ahogy a nyelvészek teszik) valahogy lehetővé kell tenni a keresését is az összes elérhető extra információval. A Wordnik ezt egy eléggé hosszúra nyúlt, de azért áttekinthető felülettel oldotta meg.

A keresett szó alatt elérhetjük rögtön a Define, Relate, List, Discuss, See, Hear, Share és Love gyorslinkeket. A definíciók általában nyílt forrásból nyert meghatározások, ahol rendelkezésre áll információ ott az etimológiát is megadják (azaz honnét ered a szó). A fent vázolt disztribúción alapuló példa kikeresés is működik, ezt láthatjuk jobb oldalt.

A „Relate” gyorslink vezet minket a „Related words” részhez, ahol szinonimákat, antonómiákat és hiponímiákat találhatunk, valamint a felhasználók által megadott cimkéket (tags) is láthatunk.

A felhasználók szerepét nagyon komolyan veszi a Wordnik, bárki regisztrálhat, készíthet magának listákat, kommentálhat szavakat, listákat, sőt részt vehet a Wordnik játékaiban a Twitteren. Egyrészt ez egy nagy buli, másrészt pedig a keletkezett anyag amolyan élőnyelvi korpuszt generál amit ismét lehet bányászni és beépíteni a szótárba...

De ha ez nem elég, akad még pár dolog.

Minden szavuk aranyat ér?

A körítés mellett azonban felmerülhet a kérdés mitől több ez mint pl. a SZTAKI szótárak? Az első legfontosabb különbség hogy a szótár elérhető egy API-n keresztül, az összes funkció beépíthető egy mashup-ba így bárki akinek szótári információra van szüksége alkalmazásához készen kapja meg azt. Az Apple tartalomfogyasztásra kihegyezett termékeihez pedig külön SDK-t adtak ki (software development kit – szoftverfejlesztési eszköztár) ami lehetővé teszi hogy az alkalmazásokból egyszerűen élérhető legyen minden információ. De a Barnes&Noble Nook Color készülékéhez is külön alkalmazást fejlesztettek ki.

A tartalomelőállítók és a tartalomfogyasztásra specializálódott eszközök (legyenek azok szoftverek vagy hardverek) gyártóit célozta meg a Wordnik Smartwords kezdeményezése, ami nem más mint egy API szabvány elektronikus szótárakra szabva (maga a készülő dokumentáció is nagyon hasonlít pl. az Open Knowledge Foundation Open Data ajánlásaihoz).

A Blekko kereső tkp lehetővé teszi hogy különböző feltételek mentén szűrjük és rangsoroljuk a találatokat. A \define slash (így nevezeik Blekko-ul a szűrési feltételeket) eredményét a Wordnik szállítja

A korpusz mérete immár lehetővé teszi hogy az egyes szavakat egy olyan strutúrába rendezve kezeljék ami leírja a közöttük lévő kapcsolatokat, erre épül az új WordGraph API. Itt már nem csupán egy szó definíciójának kinyeréséről van szó, hanem a szavak közötti viszonyok leképezéséről is, tehát a szemantikus web tipleteit kapjuk meg (azaz egyfajta alaptudástár, mint a Freebase). A WordGraph első felhasználója a TaskRabbit protál, ami segít összehozni azokat akiknek segítségre van szükségük azokkal akik meg tudják oldani a feladatot (amolyan mindennapi ügyek elintézése olcsón, gyorsan, hatékonyan).

A feladat leírása és a potenciális segítő megtalálása során a WordGraph összepárosítja a természetes nyelven leírt elvárásokat és képességeket - kár hogy a Smartwords nevet már ellőtték.

A Wordnik sokak kedvence lett 2009-es indulása óta, a korpusznyelvészet berkeiben pedig egyenesen csodálják hiszen az alkalmazott korpusznyelvészet megszületésének vagyunk tanui. Azonban még mindig kérdés hogy képes-e megélni a saját lábán ez a modell, a WordGraph és a különböző szolgáltatások képesek-e annyi profitot termelni hogy fennmaradjon és növekedjen a cég.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr643307710

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

A szavak titkos élete

2011.10.25. 12:00 Szerző: Zoltán Varjú Címkék: szótár szemantikus keresés Wordnik

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

A szavak titkos élete

2011.10.25. 12:00 Szerző: Zoltán Varjú Címkék: szótár szemantikus keresés Wordnik

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: