HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Ezeken a konfokon találkozhatsz velünk októberben

2016.10.11. 15:33 Szerző: Zoltán Varjú Címkék: konferencia tartalomelemzés képfeldolgozás dashboard Precognox LDA deep learning

Az őszi konferencia szezon elindult, októberben az alábbi rendezvényeken találkozhattok velünk:

Budapest BI Forum, Október 25-27.

Budapest AI, Október 26.

  • Varjú Zoltán: Unveiling the narratives of the masses

precognoxlogo.png

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Dashboard romaellenes cikkek elemzéséhez

2016.09.14. 10:17 Szerző: Kitti Balogh Címkék: dashboard szentimentelemzés emócióelemzés named entity recognition topik modellek Banana Solr

Az idősoros dashboard egy régebben kezdődött projektünk zárásaként készült el. A projekt során a kurucinfo szélsőjobboldali hírportál romaellenes cikkeit gyűjtöttük össze 2006-tól 2015-ig, amiket aztán kulcsszavak és témák szerint elemeztük. Ezután egy interaktív adatvizualizáció is készült, aminek segítségével időben felfedezhetők a témák és a témákhoz köthető események.

screenshot_from_2016-09-01_15_11_44.png

Most egy az EMMA Egyesület (nemrég még Születésház Egyesület) mélyinterjúihoz készült dashboardhoz hasonló felületet hoztunk létre. Az új felületen a romaellenes cikkeket szentimentek, emóciók, topikok, leggyakoribb szavak és névelemek (helyszínek, személyek, szervezetek) szerint elemzhetjük. Ráadásul a cikkekhez tartozó időpontok segítségével idősoros felületet tudtunk létrehozni, azaz a szentimentek, emóciók és topikok időbeli alakulásának vizsgálatára is lehetőség nyílik.

A szövegek előfeldolgozása után Solr-rel indexeltük a cikkeket, majd Banana-val hoztuk létre a felületet. A kész dashboard összesen négy részből áll: egy topik-, egy névelem-, egy szentiment- és egy emócióelemző részből. A dashboard ezen a linken érhető el. 

screenshot_from_2016-09-01_15_10_42.png

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Tanártüntetések: Mi történt a Facebookon?

2016.08.03. 14:44 Szerző: Kitti Balogh Címkék: scraping Facebook R Shiny tanártüntetés dashbord

A 2016 elején kezdődött megmozdulás során többezer tanár, diák és támogató vett részt a tüntetéseken, hogy kifejezzék a kormány oktatáspolitikájával szembeni nemtetszésüket. A Budapesten és más nagyobb városokban szervezett események közül a február 13-i és március 15-i tüntetések keltették a legnagyobb visszhangot a médiában és az emberek körében. Az aktív résztvevőkön kívül sok tízezren jelezték érdeklődésüket vagy fejezték ki véleményüket, aminek tökéletes helyszínt nyújtott a két esemény Facebook oldala.

networks.png

Hogy elemezni tudjuk a 2016. február 13-i és március 15-i Facebook események szövegeit és a felhasználók aktivitását, készítettünk egy dashboardot, ami ezen a linken érhető el.

Az adatokat a Facebook scraperünk segítségével szedtük le, ami a két Facebook eseménynél keletkezett posztokat, kommenteket, lájkokat, reakcióikat és az eseményeknél aktív felhasználókat, valamint az ezekkel kapcsolatos információkat nyerte le. Ezután vizualizációkat készítettünk és egy Shinyval készült dashboardon jelenítettük meg őket.

A dashboard egyik része az aktivitást jelző adatokat (posztolás, megosztás, komment, lájk), a másik része a szöveges adatokat (posztok és kommentek szövege) elemzi ábrák segítségével.

Az ábrák alapján többek között az is kiderül, hogy a posztok mellett a februári eseménynél a linkek, a márciusi eseménynél a képek esetében voltak aktívabbak az embereket. A lájkok és kommentek alapján készült hálózatokból pedig az is látszik, hogy a két eseménynél ugyanaz a két felhasználó a legközpontibb szereplő, őket kommentelik és lájkolják a legtöbben. (A felhasználók identitása el van fedve.)

A szófelhők mutatják a két esemény leggyakoribb szavait, amik a februári eseménynél a pedagógus, a tüntetés, a gyermek, a kormány, az ember, míg márciusban az 1848 március 15-i események felelevenítése miatt a március szó is nagy szerephez jut. A szöveges adatokban megjelenő érzelmek is érdekes képet mutatnak. A februári eseménynél a posztokban végig az öröm a legerőteljesebb érzelem, míg a második legjellemzőbb az esemény időpontja körül a szomorúság, majd átveszi a szerepet az undor. A márciusi eseménynél szintén az öröm volt a legerőteljesebb emóció, azonban a második legjellemzőbbnek itt a félelem bizonyult.

Ezeken kívül természetesen még sok érdekes dolog leszűrhető a dashboard alapján, például, hogy milyen témákról beszélgettek a felhasználók, úgyhogy érdemes rákattintani.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Facebook scraper - Hogyan szedjük le egy Facebook oldal adatait?

2016.07.27. 13:26 Szerző: Kitti Balogh Címkék: scraping Facebook Python SQLite

Itt érhető el az a scraper, amit azzal a céllal készítettünk, hogy könnyedén le tudjuk szedni egy publikus Facebook oldal posztjait, kommentjeit, lájkjait, reakciót és az oldalon aktív felhasználókkal kapcsolatos adatokat.

A Pythonban íródott eszköz az adatokat egy SQLite adatbázisba tölti a következő séma szerint:

 scheme.png

A scraper elindításához három dologra van szükség:

  1. egy Facebook access tokenre,
  2. a leszedni kívánt Facebook oldal Facebook ID-jára és
  3. a SQLite adatbázis elérési útjára.

A telepítéshez és a használathoz bővebb információt itt lehet találni.

Egy következő bejegyzésünkben beszámolunk arról, hogy a scraperrel lenyert adatokat milyen fajta elemzésekre lehet használni, például hogy mennyire kötődnek az emberek egy oldalhoz, melyik felhasználókat tekinthetjük véleményvezéreknek, milyen témákról beszélnek az oldalon vagy hogy milyen érzelmek jelennek meg a diskurzusban.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Multimodális emócióelemzés a Hackathonon

2016.06.30. 13:41 Szerző: Szabó Martina Katalin Címkék: emócióelemzés hackathon multimodális emócióelemzés

Június 10-én tartott céges Hackathonunkon az egyik csapatunk egy igazán izgalmas projekten, multimodális emócióelemzésen dolgozott. 

A feladathoz rövid, angol és magyar nyelvű videórészleteket kerestünk. Olyan anyagokra volt szükségünk, ahol a kép, a hang és a szöveg is jó eséllyel elemezhető emóciókat mutat. Végül három videórészlet maradt fent a rostán: az angol nyelvre a Bladerunner Tears in rain monológja és a Closer egy jelenete, a magyarra pedig a Beugró Váltóláz nevű játékából egy részlet.

Első lépésként a videókat két perces anyagokra vágtuk, mert az API, amellyel a hangsávot elemeztük, csupán két perces anyagot fogad. A hangsáv elemzésével az alábbihoz hasonló eredményt kaptunk:

 kep1_5.png

Azokat az emóciókat, amelyeket a hangsávon felismertünk, felvittük a videóra annotációként. A női beszélők érzelmei rózsaszínű, a férfi beszélőké pedig kék szövegbuborékokba kerültek. 

A vizuális emóciók feldolgozását szintén egy API segítségével végeztük. Első körben a Google Cloud Vision-jét próbáltuk ki, de az számunkra nem bizonyult megfelelőnek. A képi anyag elemzési eredményeit szintén felvittük a videókra. 

Az eredményeink alább nézhetőek meg:

 

 

A magyar nyelvű videónkon az emóciószótáraink segítségével még szövegelemzést is végeztünk a hang és a kép feldolgozása mellett. Ez lett az eredmény:

 

A projekt eredményeivel és tapasztalataival a hátunk mögött most meg szeretnénk vizsgálni, hogy milyen összefüggésben van a három különböző típusú elemzés egymással. Azt gondoljuk, hogy egy multimodális elemzésben a három elemzési eszköz hatékonyan kiegészítheti egymást, és olyan emóciókat is megmutathat, amelyek a csak az egyik faktort figyelembe vevő elemzésben elvesznének. További terveink között szerepel annak feltérképezése is, hogy mit árul el a multimodális elemzés olyan trükkös jelenségek esetében, mint a hazugság, a káröröm, az irónia vagy a gúny. 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása