Adatvizualizáció arról, hogy hogyan beszélnek a romákról a kuruc.info-n

2015.09.09. 10:31 Szerző: Kitti Balogh Címkék: roma gyűlöletbeszéd adatvizualizáció

Habár az utóbbi időben más csoport ellen folyik csőstül a gyűlöletbeszéd, a romaellenesség állandónak számít a magyar közhangulatban. Egy korábbi kutatásunkban - melyhez a most elkészült adatvizualizációt szeretnénk bemutatni - ez utóbbi jelenséget vizsgáltuk a kuruc.info beszélő nevű Cigánybűnözés rovatában. Az oldal 2006-os indulásától 2015 elejéig elemeztük a cigányellenes témák időbeli alakulását, amit egy adatvizualizáció segítségével tettünk szemléletessé és interaktívvá.

A Cigánybűnözés rovat cikkeinek témáit a látens Dirichlet allokáció (LDA) nevű topik modell segítségével nyertük ki, amivel 27 jól elkülönülő romaellenes témát kaptunk. Hogy a cikkek milyen topikokban íródtak, az idő függvényében is megvizsgáltuk. Így megkaptuk, hogy az egyes témákban mely időszakokban és időpontokban írtak kiemelkedően sokat. Az idősorban megjelenő csúcsok általában egy kirívó eseményhez köthetők, amelyeket az adatvizualizáción is megjelenítettünk. Vannak azonban olyan általános, de mégis gyakori témák (pl. a lopással kapcsolatos hírek vagy a verekedésekről, késelésekről, támadásokról szóló hírek), amelyeknél nem lehet ilyen kirívó, a médiában nagy visszhangot kapott eseményeket meghatározni. A vizualizáción jól látszik, hogy a 2006-tól 2011-ig tartó időszakban a hírportál aktivitása jóval nagyobb volt és többféle speciális témában írtak, míg a 2011-től 2015-ig tartó időszakban inkább olyan általánosabb hírekkel tartották fenn a rovatot, mint a lopásokról szóló hírek.

Az adatvizualizációt Szűcs Krisztina készítette, aki nagyszerű munkát végzett a topikok időbeli megjelenítésével. 2012-ben diplomázott a MOME-n, azóta szabadúszóként foglalkozik adatvizualizációk tervezésével.

Krisztina munkájával nagyon elégedettek vagyunk és mindenkinek csak ajánlani tudjuk, akinek adatvizualizációban szüksége van egy profira!

Krisztinát a szeptember 15-i Budapest Open Knowledge Meetup-on is meghallgathatjátok, ahol az Oktatás és az adatok téma kapcsán fog előadni az OECD és a visualizing.org "The Economic Return on Education" adatvizualizációs pályázatán első helyet szerzett munkájáról.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Gondolatolvasás - a brain-to-text már valóság

2015.09.07. 10:55 Szerző: Zoltán Varjú Címkék: beszédtechnológia extended mind brain-to-text

Ki ne szeretné néha olvasni a másik gondolatait? Milyen jól jönne egy kis szerkezet, amivel a hőn áhított lány, vagy fiú agyi aktivitását szövegé alakíthatnánk, de a rendfenntartó erők sem lennének restek egy ilyen kütyüt bevetni. Scifinek tűnhet a gondolatolvasás, de mára valósággá vált. Idén két kutatócsoport is meggyőző eredményeket produkált már a brain-to-speech területén. Nem kell hozzá más, csak egy kis elektróda az agyban, ami lehet az első lépés a cyberbrain felé...

Egy igazán nemzetközi projekt keretében, ami a Boston University, a Harvard, az MIT mellett kórházi és ipari partnerek együttműködésének gyümölcse, sikeresen szólaltatták meg egy ún. locked-in szindrómás beteg gondolatait. Az önkéntes páciens agyába ültetett elektródák az agyi aktivitás mintázatait egy dekódoló egységnek továbbítják, ami azután beszédet szintetizál a jelekből. Habár csak egy alany eredményeit mutatja be a kísérletről szóló tanulmány, nagyon ígéretesnek tűnik a megközelítés.

A KIT Congitive Systems Lab kutatói epilepsziások agykérgére helyezett elektródák segítségével rögzítették a beszédhez kapcsolódó agyi aktivitást. Történetünk szempontjából az, hogy az alanyok epilepsziások, csupán annyit számít, hogy amúgy is átestek egy koponyát érintő beavatkozáson, ennek során kerültek be az elektródák koponyájukba. Habár messze van még a tökéletestől a rendszer, az eljárást bemutató tanulmány szerint a szótévesztés aránya 25, a fonémahibák aránya pedig 50% alatt van már.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szeptember 15. BOK meetup: Oktatás és adatok - vége a nyári szünetnek

2015.09.03. 10:02 Szerző: Zoltán Varjú Címkék: oktatás meetup open data open knowledge BOK

Vége a nyárnak, az iskola mellett a BOK meetup is beindul. A szezon első meetupján szeptember 15-én az oktatásé a főszerep. Az esemény 19:00-kor kezdődik a Foncsorozóban (Weiner Leó u. 8.), a részvétel ingyenes, de egy regisztrációval segíthetitek a szervezők munkáját.

A program

HORN DÁNIEL - MTA KTI tudományos munkatársa -

Előadásában az oktatásban elérhető adatbázisokról lesz szó, különös figyelemmel az Országos Kompetenciamérésre. Ez az adatbázis nem csak országos szinten teszi lehetővé a magyar általános és középiskolások átlagos matematikai és olvasási szövegértésének a felmérését, de hosszabb távon összetettebb, iskolai szintű hozzáadott érték alapú mutatók is számíthatók a segítségével.

SZŰCS KRISZTINA - tervezőgrafikus -

Az OECD és a visualizing.org "The Economic Return on Education" adatvizualizációs pályázatán első helyet szerzett munkájáról fog beszélni: az adatmegjelenítés folyamatáról, az első oszlopdiagramtól a végső, összetett adatábrázolásig.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kisvilágunk, a nyelv 2. - szemantikai és szóasszociációs hálózatok

2015.09.01. 09:31 Szerző: Zoltán Varjú Címkék: nyelvészet gráf kisvilág asszociációk hálózatelemzés WordNet

Korábbi posztunkban a magyar Wikipedia korpuszán szemléltettük, hogy a nyelvi gráfok kisvilág tulajdonságot mutatnak. Most magyar példákon keresztül szemléltetjük, hogy a szemantikai és az asszociációs nyelvi hálózatok is skálafüggetlen kisvilágok.

Magyar WordNet

A Magyar WordNet az első magyar lexikális szemantikai adatbázis mely alapegységei az ún. synset-ek, melyekhez szinonimák, használati példák stb. tartoznak, továbbá az adott synset más elemekkel kapcsolatos szemantikai relációit sorolja fel. Hálózatunkat ebből készítettük, a fenti képen pirossal jelöltük a synset-eket, kékkel pedig a bennük felsorolt szinonimákat. Hálózatunkban 42359 csomópont található, ezek között 38335 él van. Az átlagos utak hossza 2.35, a gráf átmérője 13, klaszterezési együtthatója 0.0032. A fokszámok gyakorisága így alakul:

Ha a fokszámok eloszlását log-skálán nézzük, akkor a klasszikus skálafüggetlen gráfokra jellemző ábrát kapunk.

A WordNet esetében is érvényesül, hogy a népszerű csomópontok egyaránt vonzzák az alacsony és magas fokszámú elemeket, habár itt a klasszikus ábráktól kicsit eltérő képet láthatunk.

Mivel gráfunk nagy, úgy döntöttünk hogy a három vagy annál nagyobb fokszámú csomópontokat mutatjuk csak meg az alábbi ábrán. Továbbra is piros színnel jelöljük a synset-eket, kékkel pedig a szinonimákat. A csomópontok nagysága PageRank értéküket tükrözi. Érdemes megjegyezni, hogy a PageRank érték nem mutat akkora szórást mint más skálafüggetlen gráfok esetében.

Agykapocs

Kovács László Agykapocs adatbázisa egy online gyűjtött, többnyelvű szóasszociációs adatbázis. Sajnos az Agykapocs jelenleg nem érhető el online, de ebből a tanulmányból megismerhető. Akiknek ennyi nem elég, azoknak ajánljuk az adatbázis készítőjének doktori értekezéséből készült kötetet.

Mivel az Agykapocs többnyelvű, első körben leszűrtük a magyar kapcsolatokat. Irányított gráfunkba csak azok az elemek kerültek be, melyeket egynél több az erőssége, azaz egynél több felhasználó válaszaiban szerepelt. Az így kapott gráfban 8049 csomópont és 13635 él található. Az átlagos utak hossza 4.36, a gráf átmérője 353, klaszterezési együtthatója pedig 0.0438. A fokszám gyakoriságok alakulását az alábbi ábra szemlélteti:

A fokszámok eloszlása is klasszikusan alakul.

Nagyon szépen kijön a preferenciális kapcsolódás, azaz a népszerű csomópontokat mindenki szereti.

Az asszociációs hálózat megjelenítésével még nagyobb bajban voltunk, ugyanis ennek élei súlyozottak. Úgy döntöttünk, hogy a kilenc, vagy annál nagyobb fokszámú csomópontokat fogjuk megmutatni csupán.

Szépnek szép, de mi értelme?

A nyelvi gráfok nagyon szexin mutatnak, de ennél sokkal többről van szó. Habár technológiai szempontból teljesen mindegy, hogy egy-egy nyelvtechnológiai megoldás hasonlít-e az emberi elmében lezajló folyamatokhoz, sok jel arra utal, hogy a gráf alapú megközelítés egyszerre hatékony mint technológiai eszköz és mint kognitív modell is. Hamarosan arról is írunk, miért gondoljuk ezt így!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Automatikus szövegelemző API végre magyar nyelven is

2015.08.13. 09:26 Szerző: Zoltán Varjú Címkék: tartalomelemzés véleményelemzés Neticel Semantic API szenitmentelemzés

A Neticle Technologies által készített szövegelemző függvények most már bárki számára elérhetőek idén júliustól. A Neticle Semantic API képes automatikusan, emberi pontossággal vélemény- és tartalomelemezni a magyar nyelvű szövegeket.

A csapat saját termékeinek fejlesztési munkáját megkönnyítve döntött úgy, hogy webes API-ba szervezi a több mint 4 éve finomhangolt legfontosabb nyelvi függvényeit, majd rájött, hogy másoknak is hasznos lehet a magyar nyelvre írt eszköztár, ezért cégen kívülre is elérhetővé tette.

A Neticle Semantic API 1.0 a következő nyelvi függvényekre képes:

szöveg szintű és entitás alapú szentimentelemzés: egy kérésnél megadhatjuk a véleményelemzés tárgyát egy kulcsszó szinonimának felsorolásával (például: Samsung;samsung;SAMSUNG;samsung;Szamszung;SZAMSZUNG), ekkor csak a Samsungra vonatkozó véleményt számszerűsíti az eszköz vagy mondhatjuk, hogy a teljes szöveget véleményelemezzük.
érzelmek felismerése: a Neticle 7-féle érzelem előfordulásainak számát vizsgálja
címkézés: kulcs témák és tulajdonságok felismerésével a szövegekben rá lehet világítani a leggyakoribb üzleti témákra és a kapcsolódó véleményekre automatikusan, például: ügyfélszolgálat és ügyintézés előfordulása és értékelése ügyfélvisszajelzésekben.
NER (named entity recognition):
- helyek felismerése: városok és országok azonosítása
- márkák felismerése: márkanevek felismerése
- személyek felismerése
- szervezetek felismerése
szerzők nemének felismerése: a keresztnév alapján a nem megjóslása
entitás kapcsolatok felismerése: a különböző entitások és címkék között kapcsolatok és azok erősségének azonosítása hálózatos megjelenítésekhez, mely kifejezetten előnyös és informatív tartalomelemzési feladatoknál (lásd lent)

Az API segíthet kérdőívek nyílt kérdéseire érkező válaszok automatikus elemzésében, ügyfélvisszajelzések vagy CRM adatbázis feldolgozásában, bármilyen tartalomelemzési feladatban, de akár e-mail kategorizációban és automatikus válaszkialakításban is.

Az alábbi felületen kipróbálható 1-1 kisebb méretű szövegre: https://api.neticle.hu/demo.html

Néhány kódsorral egyszerűen beilleszthető az API bármilyen szoftverbe, csupán egy érvényes tokenre van szükség: http://wiki.neticle.hu/semantic_api_v1.0

Próba token valamennyi kereses.blog olvasó számára a peter.szekeres@neticle.hu címen kérhető. A készítők bármilyen visszajelzésnek nagyon örülnek, és már gőzerővel dolgoznak, hogy angolul, németül és bolgárul is tudjanak a függvények valamint, hogy különféle kivonatoló funkciókat vezessenek be.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Adatvizualizáció arról, hogy hogyan beszélnek a romákról a kuruc.info-n

2015.09.09. 10:31 Szerző: Kitti Balogh Címkék: roma gyűlöletbeszéd adatvizualizáció

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Gondolatolvasás - a brain-to-text már valóság

2015.09.07. 10:55 Szerző: Zoltán Varjú Címkék: beszédtechnológia extended mind brain-to-text

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szeptember 15. BOK meetup: Oktatás és adatok - vége a nyári szünetnek

2015.09.03. 10:02 Szerző: Zoltán Varjú Címkék: oktatás meetup open data open knowledge BOK

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kisvilágunk, a nyelv 2. - szemantikai és szóasszociációs hálózatok

2015.09.01. 09:31 Szerző: Zoltán Varjú Címkék: nyelvészet gráf kisvilág asszociációk hálózatelemzés WordNet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Automatikus szövegelemző API végre magyar nyelven is

2015.08.13. 09:26 Szerző: Zoltán Varjú Címkék: tartalomelemzés véleményelemzés Neticel Semantic API szenitmentelemzés

3 komment • Kövess Facebookon • Iratkozz fel értesítőre