HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Meetup slides

2016.04.26. 09:42 Szerző: zoltanvarju Címkék: Neticle NLPmeetup Meltwater Zurvey

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szentimentek, emóciók és témák elemzése interjúkban

2016.04.15. 08:27 Szerző: kittibalogh Címkék: keresés konferencia tartalomelemzés szentimentelemzés emócióelemzés Banana Születésház Solr

Április 15-én bemutatjuk legújabb fejlesztésünket a "Tedd meg az első lépést" zárórendezvényen.

Az esemény a Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektjét zárja le. A projekt azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Az eseményen az interjúk elemzéséhez készített analitikai felületet fogjuk demózni.

A felületet az interjúelemzői munka támogatásához, illetve kiegészítéséhez készítettük. Az elkészült dashboardon az interjúk szentimentjei, emóciói, témái és leggyakoribb szavai jelennek meg különböző ábrákon, például oszlopdiagramokon vagy szófelhőkön. Emellett a felület lehetőséget ad az interjúkban való keresésre és szűrésre, amikkel az ábrák és az interjúegységek dinamikusan váltanak.

Az előadás során beszélünk a feldolgozási folyamatról és az eszközökről is és egy példaelemzést is bemutatunk az eszköz használatával:

Az analitikai felület demójának használatát ezeken a videókon is megtekintheted:

 

Topikelemzési példa egy interjún keresztül:

 

Szentimentelemzési példa egy interjún keresztül és topikelemzéssel kombinálása:

Emócióelemzési példa egy interjún keresztül:

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hackathon: Tweet-klasszifikáció

2016.04.14. 11:42 Szerző: jvenczeli Címkék: twitter ml gépi tanulás Twitter klasszifikáció Python hackathon machine learning scikit-learn sklearn

A hackathon keretében kísérletet tettünk a scikit-learn python package klasszifikációs eszközeinek felderítésére.
A scikit-learn lehetőséget ad arra, hogy egészen kevés kódolással gyorsan implementálhassunk gépi tanulási eszközöket pythonban. Jópár szövegklasszifikációra is alkalmas algoritmust tartalmaz, úgy mint naive bayes, maxent, SVM, decision tree, etc. A package használata viszonylag egyszerű a beépített vektorizáló függvényeknek köszönhetően, amik az adott korpusz nyers sztringjeit automatikusan az összes classifier számára emészthető formába tudják alakítani.  A választott classifier ezután a kapott adat és a használt algoritmus alapján felépít egy modellt, amit újabb adatok automatikus klasszifikációjára lehet használni.

Mi a naive bayes és maximum entropy classifiereket használtuk, arra, hogy a korábban szentiment kalsszifikációhoz gyűjtött magyar twitter korpusz elemeit a posztolók neme szerint válogassuk szét. Ezután egy voter segítségével összegeztük az egyes classifierekből származó outputokat. Ez azért hasznos, mert az egyes algoritmusok más-más elven működnek, így más-más gyengeségeik és erősségeik vannak, viszont több különböző classifier használata esetén kiszűrhetjük a hibás klasszifikációkat, ha mindegyik classifier szavaz egy adott adatpontról, és a végleges outputot a szavazás eredménye határozza meg.

A kísérlethez a nyers korpuszt használtuk, minden előfeldolgozás nélkül, ami az egyes classifiereken meglepően jó, 65-70% körüli pontossággal állapította meg a tweetelők nemét. A voter használata ezt még kb. 25%-kal emelte.

better.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Facebook projekt a kaposvári Hackathonon

2016.04.05. 10:57 Szerző: kittibalogh Címkék: tüntetés Facebook hackathon

A márciusi céges Hackathon egyik projektjeként azt a célt tűztük ki, hogy feltárjuk, milyen elemzési lehetőségek rejlenek a nyilvános Facebook oldalak adataiban. Emellett az is célunk volt, hogy mindezt a D3 JavaScript könyvtár segítségével jelenítsük meg vizuálisan. A Hackathon végére elkészült oldal itt nézhető meg.

esernyok.jpg

Az elemzéshez két akkor aktuális esemény oldalát választottuk ki, a február 13-i tanártüntetését, amely során első ízben tüntettek a kormány oktatáspolitikája ellen, valamint a február 23-i Tüntetés a demokráciáért a Választási Irodánál! nevű eseményt, amelyet a Nemzeti Választási Irodában történt népszavazási kérelemmel kapcsolatos incidens után tartottak. A februári tanártüntetés eseményének oldala már nem érhető el.

20160223nemzeti-valasztasi-iroda-blokad-20168.jpgFotó: Szabó Gábor - Origo

A Facebook feedekről szöveges és numerikus adatokhoz egyaránt hozzájuthatunk. Ezeket három megközelítésben elemeztük:

1) Az aktivitás mérőszámainak, a like-ok, share-ek, kommentek és posztok számának vizsgálatára idősoros megjelenítést alkalmaztunk. Mindkét eseményhez két idősor készült, egy a nyers aktivitási értékekkel, egy pedig a posztok számával normalizált értékekre. Előbbi megjelenítésnél mindkét eseménynél az látszik, hogy a legnagyobb aktivitás a tüntetés napjához fűződik, utóbbinál azonban megfigyelhetők más kisebb-nagyobb hullámok is, amik a nagyobb aktivitást kiváltó posztokat jelzik.

2) A posztok és kommentek szövegeinek leggyakoribb szavaiból egyszerű szófelhők készültek, az ehhez tartozó rövid értelmezést még sikerült a Hackathon ideje alatt megírni.

3) A harmadik megközelítés a Facebook adatok struktúrája alapján eléggé adott hálózatos megjelenítés volt. A kész oldalra végül csak a tanártüntetés gráfja, sőt annak is csak egy kisebb részgráfja került fel, ugyanis akkora adatmennyiséggel volt dolgunk, ami vizuálisan már nem mutatott szépen. A hálózat csúcsai az esemény oldalán aktivitást kifejtő személyeket jelzik, a köztük lévő élek, azaz kapcsolatok pedig az egymás posztjaira, kommentjeire adott lájkokat jelentik. A gráfon így könnyen kiszúrhatjuk a centrális helyet elfoglaló szereplőket, akik az oldalon zajló diskurzus meghatározó személyeinek tekinthetők.

Az oldalra még ráférne egy-két simítás (pl. az egymás mellé helyezett idősorokon nem látszik az időpontokat jelző tengely, adatvédelmi szempontból a hálózat csúcsaihoz nem beazonosítható ID-t illene rendelni, valamint egyéb elrendezési szempontok), de tekintve, hogy nagyjából 5 óra alatt jutottunk el eddig, szép eredménynek könyvelhetjük el.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Gyakornokot keresünk

2016.04.01. 13:55 Szerző: kittibalogh Címkék: gyakornokság Precognox

A Precognoxhoz keresünk adatelemző gyakornokot. Elsősorban olyan nappali tagozatos hallgatót keresünk, aki járatos a statisztikában, adatelemzésben, és az R és/vagy a Python sem idegen számára (pl. survey statisztika, alkalmazott matematika szakos), de a határterületek hallgatóit (kognitív tudományok, informatika, fizika, társadalomtudományok, nyelvészet stb.) is szívesen látjuk.

csapat.jpg

A munka nagy része távmunkában végezhető és heti 16 órás elfoglaltságot jelent. Főleg szöveges adatok elemzésére lehet számítani, téma szerint pedig sok mindenbe bele lehet nálunk futni, a Star Wars szövegkönyv elemzéstől a közbeszerzési adatok feldolgozásán keresztül az egészségügyi szemantikus keresésig. Ha érdekelne a lehetőség, ezen az űrlapon tudsz jelentkezni.

output-csapat-mozaik2.jpg

A csapat iráni mozaik stílusban neural-style-lal

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre