HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Tanártüntetések: Mi történt a Facebookon?

2016.08.03. 14:44 Szerző: kittibalogh Címkék: scraping Facebook R Shiny tanártüntetés dashbord

A 2016 elején kezdődött megmozdulás során többezer tanár, diák és támogató vett részt a tüntetéseken, hogy kifejezzék a kormány oktatáspolitikájával szembeni nemtetszésüket. A Budapesten és más nagyobb városokban szervezett események közül a február 13-i és március 15-i tüntetések keltették a legnagyobb visszhangot a médiában és az emberek körében. Az aktív résztvevőkön kívül sok tízezren jelezték érdeklődésüket vagy fejezték ki véleményüket, aminek tökéletes helyszínt nyújtott a két esemény Facebook oldala.

networks.png

Hogy elemezni tudjuk a 2016. február 13-i és március 15-i Facebook események szövegeit és a felhasználók aktivitását, készítettünk egy dashboardot, ami ezen a linken érhető el.

Az adatokat a Facebook scraperünk segítségével szedtük le, ami a két Facebook eseménynél keletkezett posztokat, kommenteket, lájkokat, reakcióikat és az eseményeknél aktív felhasználókat, valamint az ezekkel kapcsolatos információkat nyerte le. Ezután vizualizációkat készítettünk és egy Shinyval készült dashboardon jelenítettük meg őket.

A dashboard egyik része az aktivitást jelző adatokat (posztolás, megosztás, komment, lájk), a másik része a szöveges adatokat (posztok és kommentek szövege) elemzi ábrák segítségével.

Az ábrák alapján többek között az is kiderül, hogy a posztok mellett a februári eseménynél a linkek, a márciusi eseménynél a képek esetében voltak aktívabbak az embereket. A lájkok és kommentek alapján készült hálózatokból pedig az is látszik, hogy a két eseménynél ugyanaz a két felhasználó a legközpontibb szereplő, őket kommentelik és lájkolják a legtöbben. (A felhasználók identitása el van fedve.)

A szófelhők mutatják a két esemény leggyakoribb szavait, amik a februári eseménynél a pedagógus, a tüntetés, a gyermek, a kormány, az ember, míg márciusban az 1848 március 15-i események felelevenítése miatt a március szó is nagy szerephez jut. A szöveges adatokban megjelenő érzelmek is érdekes képet mutatnak. A februári eseménynél a posztokban végig az öröm a legerőteljesebb érzelem, míg a második legjellemzőbb az esemény időpontja körül a szomorúság, majd átveszi a szerepet az undor. A márciusi eseménynél szintén az öröm volt a legerőteljesebb emóció, azonban a második legjellemzőbbnek itt a félelem bizonyult.

Ezeken kívül természetesen még sok érdekes dolog leszűrhető a dashboard alapján, például, hogy milyen témákról beszélgettek a felhasználók, úgyhogy érdemes rákattintani.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Facebook scraper - Hogyan szedjük le egy Facebook oldal adatait?

2016.07.27. 13:26 Szerző: kittibalogh Címkék: scraping Facebook Python SQLite

Itt érhető el az a scraper, amit azzal a céllal készítettünk, hogy könnyedén le tudjuk szedni egy publikus Facebook oldal posztjait, kommentjeit, lájkjait, reakciót és az oldalon aktív felhasználókkal kapcsolatos adatokat.

A Pythonban íródott eszköz az adatokat egy SQLite adatbázisba tölti a következő séma szerint:

 scheme.png

A scraper elindításához három dologra van szükség:

  1. egy Facebook access tokenre,
  2. a leszedni kívánt Facebook oldal Facebook ID-jára és
  3. a SQLite adatbázis elérési útjára.

A telepítéshez és a használathoz bővebb információt itt lehet találni.

Egy következő bejegyzésünkben beszámolunk arról, hogy a scraperrel lenyert adatokat milyen fajta elemzésekre lehet használni, például hogy mennyire kötődnek az emberek egy oldalhoz, melyik felhasználókat tekinthetjük véleményvezéreknek, milyen témákról beszélnek az oldalon vagy hogy milyen érzelmek jelennek meg a diskurzusban.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Multimodális emócióelemzés a Hackathonon

2016.06.30. 13:41 Szerző: Szabó Martina Katalin Címkék: emócióelemzés hackathon multimodális emócióelemzés

Június 10-én tartott céges Hackathonunkon az egyik csapatunk egy igazán izgalmas projekten, multimodális emócióelemzésen dolgozott. 

A feladathoz rövid, angol és magyar nyelvű videórészleteket kerestünk. Olyan anyagokra volt szükségünk, ahol a kép, a hang és a szöveg is jó eséllyel elemezhető emóciókat mutat. Végül három videórészlet maradt fent a rostán: az angol nyelvre a Bladerunner Tears in rain monológja és a Closer egy jelenete, a magyarra pedig a Beugró Váltóláz nevű játékából egy részlet.

Első lépésként a videókat két perces anyagokra vágtuk, mert az API, amellyel a hangsávot elemeztük, csupán két perces anyagot fogad. A hangsáv elemzésével az alábbihoz hasonló eredményt kaptunk:

 kep1_5.png

Azokat az emóciókat, amelyeket a hangsávon felismertünk, felvittük a videóra annotációként. A női beszélők érzelmei rózsaszínű, a férfi beszélőké pedig kék szövegbuborékokba kerültek. 

A vizuális emóciók feldolgozását szintén egy API segítségével végeztük. Első körben a Google Cloud Vision-jét próbáltuk ki, de az számunkra nem bizonyult megfelelőnek. A képi anyag elemzési eredményeit szintén felvittük a videókra. 

Az eredményeink alább nézhetőek meg:

 

 

A magyar nyelvű videónkon az emóciószótáraink segítségével még szövegelemzést is végeztünk a hang és a kép feldolgozása mellett. Ez lett az eredmény:

 

A projekt eredményeivel és tapasztalataival a hátunk mögött most meg szeretnénk vizsgálni, hogy milyen összefüggésben van a három különböző típusú elemzés egymással. Azt gondoljuk, hogy egy multimodális elemzésben a három elemzési eszköz hatékonyan kiegészítheti egymást, és olyan emóciókat is megmutathat, amelyek a csak az egyik faktort figyelembe vevő elemzésben elvesznének. További terveink között szerepel annak feltérképezése is, hogy mit árul el a multimodális elemzés olyan trükkös jelenségek esetében, mint a hazugság, a káröröm, az irónia vagy a gúny. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A JOY ajánlja a Receptkeresőnket!

2016.06.30. 09:29 Szerző: Szabó Martina Katalin Címkék: ajánló recept JOY receptkereső

A JOY júniusi számában ajánlja a Receptkereső alkalmazásunkat.

joy.jpg

 

A lap ajánlása egy olyan cikkben jelenik meg, amely a nőknek igyekszik hasznos tippeket adni ahhoz, hogyan maradjon több pénzük a hónap végén. Amint azt a népszerű női havi magazin közli, az ingyenes Receptkereső alkalmazás a spórolásban is segíthet. Idézzük:

Már csak egy kis sajt árválkodik a hűtőben? Nézd meg a Receptkereső alkalmazással, hogy mi mindent készíthetsz belőle rántott sajton kívül!

images_1.jpg

Egyszerű, átlátható felületű Receptkereső alkalmazásunk a hazai legnagyobb receptmegosztó oldalak receptjei közül alapanyag, elkészítési idő, nehézségi fok szűrésével ajánl recepteket, de a keresési források is módosíthatóak. Így tehát egyetlen kereséssel, sok különböző oldal receptjét kaphatjuk meg a keresési feltételek szerint. Nem kell a blogokon, weboldalakon egyenként keresgélni.

Alkalmazásunk elérhető itt

Jó keresgélést és finom falatokat mindenkinek!

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ezt olvasd, ha a gépi tanulásba vágnád a fejszédet

2016.06.07. 10:04 Szerző: zoltanvarju Címkék: könyvajánló gépi tanulás R

A gépi tanulás, hipszter nevén data science, egyre több érdeklődőt vonz, sokak szerencsétlenségére a terület azonban nagyon szerteágazó; a gépi tanulás ma az, ami mindenre ráhúzható az egyszerű statisztikai adatelemzéstől kezdve a képfeldolgozáson át a nyelvfeldolgozásig minden bele tud férni. Bonyolítja a helyzetet, hogy ezeken a területeken különböző megközelítések versenyeznek, vannak bayesiánusok, konnekcionisták stb. Aki szeretné átlátni ezt a területet, az könnyen zavarba kerülhet; nekik nyújt segítséget két remek könyv, amelyek, habár kezdőknek íródtak, mindenkinek jó szolgálatot tehetnek.

Pedro Domingos: The Master Algorithm

Domingos a gépi tanulás egyik központi figurája, aki a tanuló algoritmusok szent grálját keresi, azaz azt az algoritmust, ami egyesíti az összes jelenlegi megközelítés erényeit - erről (is) szól ez az ismeretterjesztő könyv. Domingos saját bevallása szerint is távol áll még a mester algoritmus megtalálásától, de mániájának hála alaposan meg kellett ismerkednie a gépi tanulás különféle irányzataival (szimbolizmus, konnekcionizmus, evolúciós algoritmusok, bayesianizmus, analogizmus), melyeknek egy-egy fejezetet szentelt. Sajnos nem-felügyelt módszereket és a meta-tanulást egy fejezetbe sűríti, amit a saját kutatásáról (számomra) érthetetlenül megírt fejezet követ. A kötet zárása a gépi tanulás társadalmi hatásairól szól, amin érződik, hogy Domingos érdeklődik a téma iránt és olvassa a társadalomtudományokban zajló vitákat erről, de ennél több nincs benne.

01ma.jpg

Minden hibája ellenére csak ajánlani tudom a könyvet profiknak és kezdőknek egyaránt, hiszen a gépi tanulás ott van a mindennapjainkban, nem árt ismerni.

 

Brett Lantz: Machine Learning with R

Akik tudnak már valamennyire programozni és rendelkeznek némi statisztikai alapismeretekkel, azok számára ez a könyv a legjobb. Lantz nagyon élvezetesen magyarázza el a legalapvetőbb gépi tanulási algoritmusokat és illusztrálja működésüket egy-egy adathalmazon. A kötet végén az adatelemzői munkához kapunk gyakorlati tippeket, kezdve a kiértékeléstől, az egyszerű hatékonyságot növelő módszerektől az ensemble módszerekig.02mlr.jpg

A könyvet elolvasva és példákat követve még nem válik senki profi data scientist-é, de aki rendesen dolgozik, az megpróbálkozhat a terület alapkönyvének számító Introduction to Statistical Learning tanulmányozásával.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre