Gavagai - a nyúlon túl

2012.05.29. 12:00 Szerző: Zoltán Varjú Címkék: twitter prediktív analitika gavagai

A közösségi média elemzése az egyik legfelkapottabb téma manapság. Megszámolni is lehetetlen hány startup célja, hogy információt nyerjen ki a netezők által generált tartalmakból. Kevesen jutnak el pl. a DiscoverText szintjére és tudnak széles rétegek számára használható elemzést kínálni. Azok a cégek pedig, melyek a megrendelő igényeihez jobban alkalmazkodnak és mélyebb elemzést végeznek, mint pl. a Quid, sokkal drágábban dolgoznak. A svéd gavagai az utóbbi irányzat egyik legerősebb tagja, olyan eljárást dolgozott ki, amely a közösségi médiát hatékonyan tudja elemezni.

A cég nevét Willard Van Orman Quine analitikus filozófus híres gondolatkísérletében szereplő nyúlról kapta. Szabadalmaztatott "ethersource" technológiájuk az ún. disztribúciós szemantikán alapul, mely dióhéjban annyit tesz, hogy egy szó jelentését az határozza meg milyen környezetben, azaz milyen más szavakkal fordul elő. Így egy mondat, vagy egy hosszabb szöveg nem más, mint egy újabb disztribúciója (eloszlása) a benne szereplő szavaknak. A módszer az ún. látens dirichlet allokáció (latent dirichlet allocation, röviden lda) eljárásra épít, de ennél többet - érthető okokból - nem lehet megtudni róla. Ez a metódus viszonylag könnyen átültethető egyik nyelvről a másikra. Mivel mérhetővé teszi az egyes szavak egymáshoz viszonyított jelentését, teret nyit arra hogy, pl. szentiment analízist (érzelmi viszonyt) végezzenek szövegeken, vagy trendeket kövessenek nyomon.

Az idei Eurovízió Twitter elemzése sikeresen előrejelezte a svéd győzelmet.

Figyelembe véve az egyes országok közötti különbségeket (pl. internet penetráció és Twitter használati eltérések) még sokkal jobb eredményt kaptak.

A gavagai példája jól mutatja, hogy ha igazán fontos számunkra a közösségi média elemzése, akkor (még) nem hagyatkozhatunk a "dobozos" megoldásokra. Az adatok kezeléséhez, kiegészítő információk kereséséhez és az elemzés értelmezéséhez szükséges szakértők bevonása. Ez azonban meg is drágítja egy-egy ilyen eszköz használatát, de az IT területén viszonylag gyorsan tömegtermékké válhat egy árú vagy szolgáltatás szerencsére, ami leszoríthatja az árakat.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szövegbányászat minden mennyiségben

2012.05.26. 19:01 Szerző: Zoltán Varjú Címkék: r meetup szövegbányászat text mining számítógépes nyelvészet

A Hungarian Natural Language Processing Meetup csoport szervezésében július 24-én két rendezvény is várja a szövegbányászat iránt érdeklődőket.

R tm hands-on tutorial by Ingo Feinerer

Az R statisztikai programozási nyelv tm (text mining) csomagjának szerzője vezeti be az érdeklődőket a szövegbányászatba. A tutorial ingyenes, de a részvétel előzetes regisztrációhoz kötött. Reggel 10-kor kezdünk és délután négyig meg sem állunk, na jó egy ebéd bele fog férni.

Text Mining

Hagyományos meetup, 19 órától, szintén július 24-én. Jelenleg egy előadó biztos, Ingo Feinerer, aki Distributed Text Mining című előadásában beszél nekünk hogyan fogták munkára a Hadoop-ot a tm csomaggal. Ha valaki szeretne előadni szövegbányászatról, jelentkezzen (vendégünkre tekintettel ezen az estén kizárólag angol előadásokra vagyunk nyitottak).

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Silk - adatra fel!

2012.05.22. 12:00 Szerző: Zoltán Varjú Címkék: adatok silk vizualizáció adatújságírás silkapp

Az adatújságírásról szóló posztunkban röviden bemutattuk azt az új irányzatot, mely az egyre nagyobb mennyiségben elérhető adatokra támaszkodva igyekszik megreformálni az újságírást. Habár rengeteg eszköz érhető el, melyekkel az adatokat érthető formában megjeleníthetjük, egy történet "elmeséléséhez" akár több, különböző applikációt is használnunk kell. Ennek legjobb példája a Guardian Data blog. De nem mindenki engedheti meg magának, hogy egy csapat újságírót és programozót tartson, és ez a csoport teszi ki az emberiség nagyobb hányadát. Nekik a Silk nyújt egyszerű megoldást.

A Silk tkp. az adatok Tumblre. Pár kattintással létrehozhatuk egy csatornát (nem kell feltétlenül tematikusnak lennie), amihez aloldalakat is rendelhetünk. Ezután a neten található adatokat importálhatjuk a Silkbe, majd egyszerűen készíthetünk vizualizációkat hozzájuk. A végeredmény egy (jobb név híjján) poszt, ami az adatokat s azok képi megjelenítését is tartalmazza és természetesen írhatunk szöveges elemzést is hozzá. Akik követik a Guardian Data blogot, azoknak ez nagyon ismerős lehet, a különbség "csupán" annyi, hogyha találunk adatokat a neten, akkor a Silk azt megpróbálja nekünk kitisztítani, és el is tárolja, nem kell külön eszközöket keresnünk a képi megjelenítéshez, hanem a rendszer felajánlja nekünk automatikusan az elérhető grafikonokat.

Az adatok importálás után táblázatos formában jelennek meg. Itt van lehetőségünk a séma ellenőrzésére, vagy akár egyes elemek javítására is. A Silk célja, hogy egy helyen gyűjtsön össze minnél több adatot, az egyes Silk csatornák ezeket megoszthassák egymás között és ne kelljen kétszer feltölteni ugyanazt az adathalmazt.

A rendszer valamennyire intelligens és megpróbál felajánlani vizualizációs technikákat (nyilván a táblázatok sémái alapján). Ez természetesen nem jelenti azt, hogy csak azokat a módszereket érhetjük el, melyek alkalmazhatóak is az adatokra. A várható élettartamra vonatkozó adatok esetében pl. felajánlja az ilyen típusú adatok megjelenítésére kivállóan alkalmas ún. column (v. bar) chart formát.

Ellenben a line chart is választható, amit inkább idősorok esetében érdemes használni inkább.

A térképes megjelenítés nem rossz, de lehetne jobb is.

Összességében elmondható, hogy a Silk segítségével nagyon egyszerűen mesélhetünk el adatokkal támogatott történeteket, vagy csak mutathatunk be adatokat. Mindenki elindíthatja a maga kis Data blogját, a Silk pedig összeszedhet sok-sok szabadon elérhető, vagy direkt a felhasználók által gyűjtött és feltöltött információt. Kifejezetten szimpatikus, hogy a cég legtöbb fejlesztését "visszaadja" a közösségnek mint nyílt forráskódú szoftver. Mindenképpen jó, hogy két irányból is építkeznek (adatok begyűjtése, ill. felhasználói kör kiépítése), de kérdéses még, melyik irány fogja termőre fordítani a céget, addig maradnak a sikeres kockázati tőke befektetések.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Weotta - mit csinálsz ma?

2012.05.15. 12:00 Szerző: Zoltán Varjú Címkék: mobil real time keresés lokális keresés weotta

"Data is stupid. Weotta makes it smart." A mottó első felével egyet is ért mindenki, a második fellengzősnek hathatna, de igaz. Többször leírtuk már, hogy a mobil korszakban milyen fontos a kontextus és mi mindenre lehet(ne) használni, a Weotta ennek iskolapéldája.

A Weotta tevékenységének nagy része még szupertitkos, amit tudni lehet azt most bemutatjuk. Hogy nem csupán hype-ról van szó azt erősíti, hogy vezetőfejlesztőjük Jacob Perkins, aki az egyik legnépszerűbb számítógépes nyelvészeti blog és könyv szerzője és a szakmai konferenciák elengedhetetlen előadója (a Számítógépes nyelvészet blognak adott interjúja itt olvasható).

A Weotta Stations önmeghatározásában a perszonalizált internetes rádiókhoz hasonlítja magát. Fogalmam sincs miért ezt a hasonlatot választották a fejlesztők, de biztos igazuk van. Az alapötlet nagyon egyszerű, a mit csináljak ma este (vagy X napon Y órában) kérdésre a lehető legegyszerűbben választ találni.

Különféle alkalmakhoz állíthatunk be "állomásokat", pl. koncertek, szombat esti partik stb. Az ezekhez kapcsolódó adatokat összeszedi a Weotta és szépen tálalja nekünk.

A további két, még nem éles szolgáltatás is ehhez kapcsolódik. A Go valós időben ajánl "eseményeket", legyen az egy film a közeli moziban, vagy éppen a körzetben található mexikói éttermek listája. A Plans pedig segít megszervezni egy napot, a reggelitől az esti filmig.

A Weotta nagy fába vágta a fejszéjét, de rendkívüli szürkeállományt rendeltek a feladahoz. Maga a problém már egy ideje ott van a levegőben, de senkinek sem sikerült még igazából megoldani. Reméljük egyre többen indulnak el ezen az úton!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Első magyar NLP meetup

2012.05.14. 12:00 Szerző: Zoltán Varjú Címkék: meetup számítógépes nyelvészet hungarian natural language processing meetup

Május 10-én, a Colabs-ben tartottuk az első Natural Language Processing Meetupot.

Több mint ötvenen regisztráltak a meetupra és kereken negyvenen vettek részt. Köszönjük az előadóknak a színvonalas prezentációkat, a hallgatóságnak pedig az aktív részvételt.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Gavagai - a nyúlon túl

2012.05.29. 12:00 Szerző: Zoltán Varjú Címkék: twitter prediktív analitika gavagai

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szövegbányászat minden mennyiségben

2012.05.26. 19:01 Szerző: Zoltán Varjú Címkék: r meetup szövegbányászat text mining számítógépes nyelvészet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Silk - adatra fel!

2012.05.22. 12:00 Szerző: Zoltán Varjú Címkék: adatok silk vizualizáció adatújságírás silkapp

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Weotta - mit csinálsz ma?

2012.05.15. 12:00 Szerző: Zoltán Varjú Címkék: mobil real time keresés lokális keresés weotta

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Első magyar NLP meetup

2012.05.14. 12:00 Szerző: Zoltán Varjú Címkék: meetup számítógépes nyelvészet hungarian natural language processing meetup

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre