HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Dashboard romaellenes cikkek elemzéséhez

2016.09.14. 10:17 Szerző: kittibalogh Címkék: dashboard szentimentelemzés emócióelemzés named entity recognition topik modellek Banana Solr

Az idősoros dashboard egy régebben kezdődött projektünk zárásaként készült el. A projekt során a kurucinfo szélsőjobboldali hírportál romaellenes cikkeit gyűjtöttük össze 2006-tól 2015-ig, amiket aztán kulcsszavak és témák szerint elemeztük. Ezután egy interaktív adatvizualizáció is készült, aminek segítségével időben felfedezhetők a témák és a témákhoz köthető események.

screenshot_from_2016-09-01_15_11_44.png

Most egy az EMMA Egyesület (nemrég még Születésház Egyesület) mélyinterjúihoz készült dashboardhoz hasonló felületet hoztunk létre. Az új felületen a romaellenes cikkeket szentimentek, emóciók, topikok, leggyakoribb szavak és névelemek (helyszínek, személyek, szervezetek) szerint elemzhetjük. Ráadásul a cikkekhez tartozó időpontok segítségével idősoros felületet tudtunk létrehozni, azaz a szentimentek, emóciók és topikok időbeli alakulásának vizsgálatára is lehetőség nyílik.

A szövegek előfeldolgozása után Solr-rel indexeltük a cikkeket, majd Banana-val hoztuk létre a felületet. A kész dashboard összesen négy részből áll: egy topik-, egy névelem-, egy szentiment- és egy emócióelemző részből. A dashboard ezen a linken érhető el. 

screenshot_from_2016-09-01_15_10_42.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Tanártüntetések: Mi történt a Facebookon?

2016.08.03. 14:44 Szerző: kittibalogh Címkék: scraping Facebook R Shiny tanártüntetés dashbord

A 2016 elején kezdődött megmozdulás során többezer tanár, diák és támogató vett részt a tüntetéseken, hogy kifejezzék a kormány oktatáspolitikájával szembeni nemtetszésüket. A Budapesten és más nagyobb városokban szervezett események közül a február 13-i és március 15-i tüntetések keltették a legnagyobb visszhangot a médiában és az emberek körében. Az aktív résztvevőkön kívül sok tízezren jelezték érdeklődésüket vagy fejezték ki véleményüket, aminek tökéletes helyszínt nyújtott a két esemény Facebook oldala.

networks.png

Hogy elemezni tudjuk a 2016. február 13-i és március 15-i Facebook események szövegeit és a felhasználók aktivitását, készítettünk egy dashboardot, ami ezen a linken érhető el.

Az adatokat a Facebook scraperünk segítségével szedtük le, ami a két Facebook eseménynél keletkezett posztokat, kommenteket, lájkokat, reakcióikat és az eseményeknél aktív felhasználókat, valamint az ezekkel kapcsolatos információkat nyerte le. Ezután vizualizációkat készítettünk és egy Shinyval készült dashboardon jelenítettük meg őket.

A dashboard egyik része az aktivitást jelző adatokat (posztolás, megosztás, komment, lájk), a másik része a szöveges adatokat (posztok és kommentek szövege) elemzi ábrák segítségével.

Az ábrák alapján többek között az is kiderül, hogy a posztok mellett a februári eseménynél a linkek, a márciusi eseménynél a képek esetében voltak aktívabbak az embereket. A lájkok és kommentek alapján készült hálózatokból pedig az is látszik, hogy a két eseménynél ugyanaz a két felhasználó a legközpontibb szereplő, őket kommentelik és lájkolják a legtöbben. (A felhasználók identitása el van fedve.)

A szófelhők mutatják a két esemény leggyakoribb szavait, amik a februári eseménynél a pedagógus, a tüntetés, a gyermek, a kormány, az ember, míg márciusban az 1848 március 15-i események felelevenítése miatt a március szó is nagy szerephez jut. A szöveges adatokban megjelenő érzelmek is érdekes képet mutatnak. A februári eseménynél a posztokban végig az öröm a legerőteljesebb érzelem, míg a második legjellemzőbb az esemény időpontja körül a szomorúság, majd átveszi a szerepet az undor. A márciusi eseménynél szintén az öröm volt a legerőteljesebb emóció, azonban a második legjellemzőbbnek itt a félelem bizonyult.

Ezeken kívül természetesen még sok érdekes dolog leszűrhető a dashboard alapján, például, hogy milyen témákról beszélgettek a felhasználók, úgyhogy érdemes rákattintani.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Facebook scraper - Hogyan szedjük le egy Facebook oldal adatait?

2016.07.27. 13:26 Szerző: kittibalogh Címkék: scraping Facebook Python SQLite

Itt érhető el az a scraper, amit azzal a céllal készítettünk, hogy könnyedén le tudjuk szedni egy publikus Facebook oldal posztjait, kommentjeit, lájkjait, reakciót és az oldalon aktív felhasználókkal kapcsolatos adatokat.

A Pythonban íródott eszköz az adatokat egy SQLite adatbázisba tölti a következő séma szerint:

 scheme.png

A scraper elindításához három dologra van szükség:

  1. egy Facebook access tokenre,
  2. a leszedni kívánt Facebook oldal Facebook ID-jára és
  3. a SQLite adatbázis elérési útjára.

A telepítéshez és a használathoz bővebb információt itt lehet találni.

Egy következő bejegyzésünkben beszámolunk arról, hogy a scraperrel lenyert adatokat milyen fajta elemzésekre lehet használni, például hogy mennyire kötődnek az emberek egy oldalhoz, melyik felhasználókat tekinthetjük véleményvezéreknek, milyen témákról beszélnek az oldalon vagy hogy milyen érzelmek jelennek meg a diskurzusban.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Multimodális emócióelemzés a Hackathonon

2016.06.30. 13:41 Szerző: Szabó Martina Katalin Címkék: emócióelemzés hackathon multimodális emócióelemzés

Június 10-én tartott céges Hackathonunkon az egyik csapatunk egy igazán izgalmas projekten, multimodális emócióelemzésen dolgozott. 

A feladathoz rövid, angol és magyar nyelvű videórészleteket kerestünk. Olyan anyagokra volt szükségünk, ahol a kép, a hang és a szöveg is jó eséllyel elemezhető emóciókat mutat. Végül három videórészlet maradt fent a rostán: az angol nyelvre a Bladerunner Tears in rain monológja és a Closer egy jelenete, a magyarra pedig a Beugró Váltóláz nevű játékából egy részlet.

Első lépésként a videókat két perces anyagokra vágtuk, mert az API, amellyel a hangsávot elemeztük, csupán két perces anyagot fogad. A hangsáv elemzésével az alábbihoz hasonló eredményt kaptunk:

 kep1_5.png

Azokat az emóciókat, amelyeket a hangsávon felismertünk, felvittük a videóra annotációként. A női beszélők érzelmei rózsaszínű, a férfi beszélőké pedig kék szövegbuborékokba kerültek. 

A vizuális emóciók feldolgozását szintén egy API segítségével végeztük. Első körben a Google Cloud Vision-jét próbáltuk ki, de az számunkra nem bizonyult megfelelőnek. A képi anyag elemzési eredményeit szintén felvittük a videókra. 

Az eredményeink alább nézhetőek meg:

 

 

A magyar nyelvű videónkon az emóciószótáraink segítségével még szövegelemzést is végeztünk a hang és a kép feldolgozása mellett. Ez lett az eredmény:

 

A projekt eredményeivel és tapasztalataival a hátunk mögött most meg szeretnénk vizsgálni, hogy milyen összefüggésben van a három különböző típusú elemzés egymással. Azt gondoljuk, hogy egy multimodális elemzésben a három elemzési eszköz hatékonyan kiegészítheti egymást, és olyan emóciókat is megmutathat, amelyek a csak az egyik faktort figyelembe vevő elemzésben elvesznének. További terveink között szerepel annak feltérképezése is, hogy mit árul el a multimodális elemzés olyan trükkös jelenségek esetében, mint a hazugság, a káröröm, az irónia vagy a gúny. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A JOY ajánlja a Receptkeresőnket!

2016.06.30. 09:29 Szerző: Szabó Martina Katalin Címkék: ajánló recept JOY receptkereső

A JOY júniusi számában ajánlja a Receptkereső alkalmazásunkat.

joy.jpg

 

A lap ajánlása egy olyan cikkben jelenik meg, amely a nőknek igyekszik hasznos tippeket adni ahhoz, hogyan maradjon több pénzük a hónap végén. Amint azt a népszerű női havi magazin közli, az ingyenes Receptkereső alkalmazás a spórolásban is segíthet. Idézzük:

Már csak egy kis sajt árválkodik a hűtőben? Nézd meg a Receptkereső alkalmazással, hogy mi mindent készíthetsz belőle rántott sajton kívül!

images_1.jpg

Egyszerű, átlátható felületű Receptkereső alkalmazásunk a hazai legnagyobb receptmegosztó oldalak receptjei közül alapanyag, elkészítési idő, nehézségi fok szűrésével ajánl recepteket, de a keresési források is módosíthatóak. Így tehát egyetlen kereséssel, sok különböző oldal receptjét kaphatjuk meg a keresési feltételek szerint. Nem kell a blogokon, weboldalakon egyenként keresgélni.

Alkalmazásunk elérhető itt

Jó keresgélést és finom falatokat mindenkinek!

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre