Ezeken a konfokon találkozhatsz velünk októberben

2016.10.11. 15:33 Szerző: Zoltán Varjú Címkék: konferencia tartalomelemzés képfeldolgozás dashboard Precognox LDA deep learning

Az őszi konferencia szezon elindult, októberben az alábbi rendezvényeken találkozhattok velünk:

Balogh Kitti: Szövegvizualizációs dashboardok
Varjú Zoltán: A Review of Image Retrieval Methods – a journey from image descriptors to neural networks

Varjú Zoltán: Unveiling the narratives of the masses

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Dashboard romaellenes cikkek elemzéséhez

2016.09.14. 10:17 Szerző: Kitti Balogh Címkék: dashboard szentimentelemzés emócióelemzés named entity recognition topik modellek Banana Solr

Az idősoros dashboard egy régebben kezdődött projektünk zárásaként készült el. A projekt során a kurucinfo szélsőjobboldali hírportál romaellenes cikkeit gyűjtöttük össze 2006-tól 2015-ig, amiket aztán kulcsszavak és témák szerint elemeztük. Ezután egy interaktív adatvizualizáció is készült, aminek segítségével időben felfedezhetők a témák és a témákhoz köthető események.

Most egy az EMMA Egyesület (nemrég még Születésház Egyesület) mélyinterjúihoz készült dashboardhoz hasonló felületet hoztunk létre. Az új felületen a romaellenes cikkeket szentimentek, emóciók, topikok, leggyakoribb szavak és névelemek (helyszínek, személyek, szervezetek) szerint elemzhetjük. Ráadásul a cikkekhez tartozó időpontok segítségével idősoros felületet tudtunk létrehozni, azaz a szentimentek, emóciók és topikok időbeli alakulásának vizsgálatára is lehetőség nyílik.

A szövegek előfeldolgozása után Solr-rel indexeltük a cikkeket, majd Banana-val hoztuk létre a felületet. A kész dashboard összesen négy részből áll: egy topik-, egy névelem-, egy szentiment- és egy emócióelemző részből. A dashboard ezen a linken érhető el.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Tanártüntetések: Mi történt a Facebookon?

2016.08.03. 14:44 Szerző: Kitti Balogh Címkék: scraping Facebook R Shiny tanártüntetés dashbord

A 2016 elején kezdődött megmozdulás során többezer tanár, diák és támogató vett részt a tüntetéseken, hogy kifejezzék a kormány oktatáspolitikájával szembeni nemtetszésüket. A Budapesten és más nagyobb városokban szervezett események közül a február 13-i és március 15-i tüntetések keltették a legnagyobb visszhangot a médiában és az emberek körében. Az aktív résztvevőkön kívül sok tízezren jelezték érdeklődésüket vagy fejezték ki véleményüket, aminek tökéletes helyszínt nyújtott a két esemény Facebook oldala.

Hogy elemezni tudjuk a 2016. február 13-i és március 15-i Facebook események szövegeit és a felhasználók aktivitását, készítettünk egy dashboardot, ami ezen a linken érhető el.

Az adatokat a Facebook scraperünk segítségével szedtük le, ami a két Facebook eseménynél keletkezett posztokat, kommenteket, lájkokat, reakcióikat és az eseményeknél aktív felhasználókat, valamint az ezekkel kapcsolatos információkat nyerte le. Ezután vizualizációkat készítettünk és egy Shinyval készült dashboardon jelenítettük meg őket.

A dashboard egyik része az aktivitást jelző adatokat (posztolás, megosztás, komment, lájk), a másik része a szöveges adatokat (posztok és kommentek szövege) elemzi ábrák segítségével.

Az ábrák alapján többek között az is kiderül, hogy a posztok mellett a februári eseménynél a linkek, a márciusi eseménynél a képek esetében voltak aktívabbak az embereket. A lájkok és kommentek alapján készült hálózatokból pedig az is látszik, hogy a két eseménynél ugyanaz a két felhasználó a legközpontibb szereplő, őket kommentelik és lájkolják a legtöbben. (A felhasználók identitása el van fedve.)

A szófelhők mutatják a két esemény leggyakoribb szavait, amik a februári eseménynél a pedagógus, a tüntetés, a gyermek, a kormány, az ember, míg márciusban az 1848 március 15-i események felelevenítése miatt a március szó is nagy szerephez jut. A szöveges adatokban megjelenő érzelmek is érdekes képet mutatnak. A februári eseménynél a posztokban végig az öröm a legerőteljesebb érzelem, míg a második legjellemzőbb az esemény időpontja körül a szomorúság, majd átveszi a szerepet az undor. A márciusi eseménynél szintén az öröm volt a legerőteljesebb emóció, azonban a második legjellemzőbbnek itt a félelem bizonyult.

Ezeken kívül természetesen még sok érdekes dolog leszűrhető a dashboard alapján, például, hogy milyen témákról beszélgettek a felhasználók, úgyhogy érdemes rákattintani.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Facebook scraper - Hogyan szedjük le egy Facebook oldal adatait?

2016.07.27. 13:26 Szerző: Kitti Balogh Címkék: scraping Facebook Python SQLite

Itt érhető el az a scraper, amit azzal a céllal készítettünk, hogy könnyedén le tudjuk szedni egy publikus Facebook oldal posztjait, kommentjeit, lájkjait, reakciót és az oldalon aktív felhasználókkal kapcsolatos adatokat.

A Pythonban íródott eszköz az adatokat egy SQLite adatbázisba tölti a következő séma szerint:

A scraper elindításához három dologra van szükség:

egy Facebook access tokenre,
a leszedni kívánt Facebook oldal Facebook ID-jára és
a SQLite adatbázis elérési útjára.

A telepítéshez és a használathoz bővebb információt itt lehet találni.

Egy következő bejegyzésünkben beszámolunk arról, hogy a scraperrel lenyert adatokat milyen fajta elemzésekre lehet használni, például hogy mennyire kötődnek az emberek egy oldalhoz, melyik felhasználókat tekinthetjük véleményvezéreknek, milyen témákról beszélnek az oldalon vagy hogy milyen érzelmek jelennek meg a diskurzusban.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Multimodális emócióelemzés a Hackathonon

2016.06.30. 13:41 Szerző: Szabó Martina Katalin Címkék: emócióelemzés hackathon multimodális emócióelemzés

Június 10-én tartott céges Hackathonunkon az egyik csapatunk egy igazán izgalmas projekten, multimodális emócióelemzésen dolgozott.

A feladathoz rövid, angol és magyar nyelvű videórészleteket kerestünk. Olyan anyagokra volt szükségünk, ahol a kép, a hang és a szöveg is jó eséllyel elemezhető emóciókat mutat. Végül három videórészlet maradt fent a rostán: az angol nyelvre a Bladerunner Tears in rain monológja és a Closer egy jelenete, a magyarra pedig a Beugró Váltóláz nevű játékából egy részlet.

Első lépésként a videókat két perces anyagokra vágtuk, mert az API, amellyel a hangsávot elemeztük, csupán két perces anyagot fogad. A hangsáv elemzésével az alábbihoz hasonló eredményt kaptunk:

Azokat az emóciókat, amelyeket a hangsávon felismertünk, felvittük a videóra annotációként. A női beszélők érzelmei rózsaszínű, a férfi beszélőké pedig kék szövegbuborékokba kerültek.

A vizuális emóciók feldolgozását szintén egy API segítségével végeztük. Első körben a Google Cloud Vision-jét próbáltuk ki, de az számunkra nem bizonyult megfelelőnek. A képi anyag elemzési eredményeit szintén felvittük a videókra.

Az eredményeink alább nézhetőek meg:

A magyar nyelvű videónkon az emóciószótáraink segítségével még szövegelemzést is végeztünk a hang és a kép feldolgozása mellett. Ez lett az eredmény:

A projekt eredményeivel és tapasztalataival a hátunk mögött most meg szeretnénk vizsgálni, hogy milyen összefüggésben van a három különböző típusú elemzés egymással. Azt gondoljuk, hogy egy multimodális elemzésben a három elemzési eszköz hatékonyan kiegészítheti egymást, és olyan emóciókat is megmutathat, amelyek a csak az egyik faktort figyelembe vevő elemzésben elvesznének. További terveink között szerepel annak feltérképezése is, hogy mit árul el a multimodális elemzés olyan trükkös jelenségek esetében, mint a hazugság, a káröröm, az irónia vagy a gúny.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Ezeken a konfokon találkozhatsz velünk októberben

2016.10.11. 15:33 Szerző: Zoltán Varjú Címkék: konferencia tartalomelemzés képfeldolgozás dashboard Precognox LDA deep learning

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Dashboard romaellenes cikkek elemzéséhez

2016.09.14. 10:17 Szerző: Kitti Balogh Címkék: dashboard szentimentelemzés emócióelemzés named entity recognition topik modellek Banana Solr

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Tanártüntetések: Mi történt a Facebookon?

2016.08.03. 14:44 Szerző: Kitti Balogh Címkék: scraping Facebook R Shiny tanártüntetés dashbord

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Facebook scraper - Hogyan szedjük le egy Facebook oldal adatait?

2016.07.27. 13:26 Szerző: Kitti Balogh Címkék: scraping Facebook Python SQLite

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Multimodális emócióelemzés a Hackathonon

2016.06.30. 13:41 Szerző: Szabó Martina Katalin Címkék: emócióelemzés hackathon multimodális emócióelemzés

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre