HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Facebook projekt a kaposvári Hackathonon

2016.04.05. 10:57 Szerző: kittibalogh Címkék: tüntetés Facebook hackathon

A márciusi céges Hackathon egyik projektjeként azt a célt tűztük ki, hogy feltárjuk, milyen elemzési lehetőségek rejlenek a nyilvános Facebook oldalak adataiban. Emellett az is célunk volt, hogy mindezt a D3 JavaScript könyvtár segítségével jelenítsük meg vizuálisan. A Hackathon végére elkészült oldal itt nézhető meg.

esernyok.jpg

Az elemzéshez két akkor aktuális esemény oldalát választottuk ki, a február 13-i tanártüntetését, amely során első ízben tüntettek a kormány oktatáspolitikája ellen, valamint a február 23-i Tüntetés a demokráciáért a Választási Irodánál! nevű eseményt, amelyet a Nemzeti Választási Irodában történt népszavazási kérelemmel kapcsolatos incidens után tartottak. A februári tanártüntetés eseményének oldala már nem érhető el.

20160223nemzeti-valasztasi-iroda-blokad-20168.jpgFotó: Szabó Gábor - Origo

A Facebook feedekről szöveges és numerikus adatokhoz egyaránt hozzájuthatunk. Ezeket három megközelítésben elemeztük:

1) Az aktivitás mérőszámainak, a like-ok, share-ek, kommentek és posztok számának vizsgálatára idősoros megjelenítést alkalmaztunk. Mindkét eseményhez két idősor készült, egy a nyers aktivitási értékekkel, egy pedig a posztok számával normalizált értékekre. Előbbi megjelenítésnél mindkét eseménynél az látszik, hogy a legnagyobb aktivitás a tüntetés napjához fűződik, utóbbinál azonban megfigyelhetők más kisebb-nagyobb hullámok is, amik a nagyobb aktivitást kiváltó posztokat jelzik.

2) A posztok és kommentek szövegeinek leggyakoribb szavaiból egyszerű szófelhők készültek, az ehhez tartozó rövid értelmezést még sikerült a Hackathon ideje alatt megírni.

3) A harmadik megközelítés a Facebook adatok struktúrája alapján eléggé adott hálózatos megjelenítés volt. A kész oldalra végül csak a tanártüntetés gráfja, sőt annak is csak egy kisebb részgráfja került fel, ugyanis akkora adatmennyiséggel volt dolgunk, ami vizuálisan már nem mutatott szépen. A hálózat csúcsai az esemény oldalán aktivitást kifejtő személyeket jelzik, a köztük lévő élek, azaz kapcsolatok pedig az egymás posztjaira, kommentjeire adott lájkokat jelentik. A gráfon így könnyen kiszúrhatjuk a centrális helyet elfoglaló szereplőket, akik az oldalon zajló diskurzus meghatározó személyeinek tekinthetők.

Az oldalra még ráférne egy-két simítás (pl. az egymás mellé helyezett idősorokon nem látszik az időpontokat jelző tengely, adatvédelmi szempontból a hálózat csúcsaihoz nem beazonosítható ID-t illene rendelni, valamint egyéb elrendezési szempontok), de tekintve, hogy nagyjából 5 óra alatt jutottunk el eddig, szép eredménynek könyvelhetjük el.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Gyakornokot keresünk

2016.04.01. 13:55 Szerző: kittibalogh Címkék: gyakornokság Precognox

A Precognoxhoz keresünk adatelemző gyakornokot. Elsősorban olyan nappali tagozatos hallgatót keresünk, aki járatos a statisztikában, adatelemzésben, és az R és/vagy a Python sem idegen számára (pl. survey statisztika, alkalmazott matematika szakos), de a határterületek hallgatóit (kognitív tudományok, informatika, fizika, társadalomtudományok, nyelvészet stb.) is szívesen látjuk.

csapat.jpg

A munka nagy része távmunkában végezhető és heti 16 órás elfoglaltságot jelent. Főleg szöveges adatok elemzésére lehet számítani, téma szerint pedig sok mindenbe bele lehet nálunk futni, a Star Wars szövegkönyv elemzéstől a közbeszerzési adatok feldolgozásán keresztül az egészségügyi szemantikus keresésig. Ha érdekelne a lehetőség, ezen az űrlapon tudsz jelentkezni.

output-csapat-mozaik2.jpg

A csapat iráni mozaik stílusban neural-style-lal

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hackathon - Receptkereső

2016.03.31. 16:06 Szerző: Anna Regeni Címkék: hackathon receptkereső

Az idei kaposvári hackathonon egy már korábbi precognoxos fejlesztésből származó receptkeresőt kellett hasznosítanunk a feladat megoldásához. Az egynapos projekt célja az volt, hogy prezentáljunk valamiféle eredményt a nap végére és persze, hogy ez az eredmény lehetőleg minél kerekebb legyen. Tehát, ha csak egy részfeladatra jut idő, akkor azt fejezzük be teljesen és mutassuk be látványos formában, ha azonban jut idő több dologra is, az persze nem hiba.  

Mivel a csapattagok közül voltak, akik korábban nem is találkoztak, mellékesen a projektmunka közben lehetőség nyílt arra is, hogy ezek az emberek egy kicsit összecsiszolódjanak és megismerkedjenek.

A mi projektünkben a már legyűjtött rengeteg receptből ki kellett vonnunk egyrészt az alapanyagokat és a mértékegységeket, hogy meg tudjuk mondani, miből mennyit tartalmaz egy-egy étel és utána ezekből a kinyert adatokból kellett kiszámolnunk az egyes ételek tápanyag-tartalmát. Ez nem volt annyira könnyű feladat, egyrészt, volt, hogy más is belekerült a szűrt adatba, nem csak alapanyagok, illetve, ami ennél trükkösebb kihívás volt, az a mértékegységek standardizálása. Képzeljük csak el, hogy az “egy púpozott kanál vaníliás cukor ” hány gramm. Mekkora az a kanál? Mokkás, teás, esetleg evőkanál-e? Esetleg merőkanál? Mi alapján határozzuk meg, hogy az “ízlés szerint” alatt mit kell érteni? Csak nem mondhatjuk mi is azt, hogy hát csak úgy ízlés szerint írtuk be a mennyiségeket a tápértékek kiszámoláshoz... Legalább is ez a megoldás nem lenne túl elegáns, ami azt illeti.

Túl ezen, az sem mindegy, hogy “egy fej hagymáról” vagy “egy fej káposztáról” beszélünk, nem lehet behelyettesíteni a “fej” helyére, hogy “fél kiló”, hiszen attól függ, hogy a szóban forgó fej éppen mire vonatkozik.

Túllendülve ezen a mulatságos problémán, akadtak még bonyodalmak a másik feladatrésznél is, ahol a különböző ételeket próbáltuk alapanyagok alapján clusterekbe sorolni.

Itt alapvető probléma volt az adatok megfelelő formára hozása, hiszen az SPSS elég érzékeny a beviteli források formátumára. Miután ezt sikerült áthidalni, rátérhettünk a tényleges vizualizációs feladatra. Az úgynevezett k-means clusterező módszerrel készítettük a különböző ételtípusokat. Ennek a módszernek az a lényege, hogy az adatokból centralitás értékeket számol a program és megpróbálja minimalizálni a csoportban a centroidtól való távolságot, illetve maximalizálni a különböző clusterek közötti távolságot.

kocka_hamm.png

Az egyes adatpontok az összetevők voltak és e clusterek alapján már “kézzel” határoztuk meg, hogy az adott összetevőket tartalmazó cluster milyen ételtípust foglal magába. Itt azonban fontos megjegyezni, hogy az egyes összetevőkből többfajta étel is készíthető. Tojásból például éppen úgy lehet sajtos hagymás omlettet sütni, ahogyan csokis piskótát is. Vagy vegyük a lisztet; sütemény, tésztafélék, palacsinta, kenyér egyaránt tartalmazza. Más szóval, egyértelmű clusterek készítése ilyen adatokból jellegüknél fogva nem lehetséges, hiszen az egyes clusterek tagjainak egy jelentős hányada átfedésben van.

Végül mégis sikerült értelmes csoportokat kihoznunk a clustereinkből, mint “kenyérfélék”, “gyümölcsös sütemények” és hasonlók.

Ugyan az utolsó pillanatban, de sikerült még összeállítanunk egy rövid prezentációt is a munkafolyamatról, így a nap végén tartott előadást viszonylag látványos formában sikerült a többiek elé tárni...és remélhetőleg ezt a “többiek” is így értékelik.

Végezetül egy megjegyzés a hackathonra vonatkozóan: nagyon jó érzés, hogy van egy jól meghatározott feladat, amit nap elején elkezd egy maréknyi munkatárs és a nap végére értékelhető produktum születik belőle, illetve hogy mindezt jó hangulatban sikerül elérni.

Köszönjük!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A Hackathon GATE-es projektje

2016.03.18. 09:36 Szerző: Szabó Martina Katalin Címkék: tartalomelemzés adatelemzés szentimentelemzés emócióelemzés named entity recognition hackathon GATE

A Kaposváron rendezett céges Hackathonon az egyik részprojektünk volt, hogy a cégünk által készített magyar GATE plugint a szentiment- és emóciószótárainkkal kiegészítsük, biztosítva ezzel a magyar nyelvű szövegek automatikus szentiment- és emócióelemzését a GATE-en keresztül. Emellett arra is kísérletet tettünk, hogy az elemzést névelemek automatikus felismertetésével (named entity recognition) is kiegészítsük, gazetteerek alapján. A jelen posztban az izgalmas vállalkozás menetéről és tapasztalatairól számolunk be röviden.

Azok, akik szeretnének többet megtudni a GATE nyílt forrású nyelvfeldolgozó eszközről, tekintsék meg a szoftver honlapját itt.  

A projektet egy kisebb csapatban végeztük, a csapat munkáját Kulcsár Ádám kollégámmal hangoltuk össze. Minden csapattag nagyon kooperatív és ügyes volt, ezúton is köszönet a hatékony együttműködésért!

preview_10.jpg  

A projekthez a tesztszövegeinket először a magyarlánc eszköz segítségével mondatra bontottuk és tokenizáltuk. 

A teszteléshez olyan szövegeket kerestünk, amelyek benyomásunk szerint sok szentimentet és emóciót tartalmaznak (pl. blogszövegek). 

Ezt követően betettük a GATE-be a szentiment- és az emóciószótárainkat, majd azokat a mondatra bontott és tokenizált szövegeken működésre bírtuk. 

Ezúton jeleznénk, hogy a szótárainkat a közeljövőben szabadon elérhetővé szeretnénk tenni kutatási célokra. A szentimentszótárunk egy negatív és egy pozitív szentimentkifejezéseket tartalmazó, összesen közel 10 ezer elemből álló lexikon. Az emóciószótárunk jelenleg két verzióban létezik. Az első változatot az arcon megfigyelhető hat alapemócióra építve hoztuk létre, míg a másodikban az emóciókorpuszunk manuális annotálásának tapasztalatai alapján nyolc érzelemkategóriába rendeztük a kifejezéseket. A publikálás során mindkét változatot szeretnénk nyilvánossá tenni. 

Alább azt láthatjuk, hogyan elemezhető egy szöveg a szentimentszótárunkkal...

 

... Itt pedig az, mi történik, ha a nyolcas kategóriarendszerű emóciószótárunkat használjuk, például a bánat, a harag és az öröm kifejezéseinek megtalálására:

 

A névelem-felismerést még tovább szeretnénk fejleszteni, ugyanis a tesztelések során nem várt problémákat tapasztaltunk. Remélhetőleg azonban ez az eszköz is hamarosan bekerülhet a pipeline-ba.

 

 

 

 

   

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Precognox Hackathon Kaposváron

2016.03.11. 08:58 Szerző: zoltanvarju Címkék: adat Precognox hackathon

Kedden céges hackathont tartottunk kaposvári irodánkban. Munkatársaink négy csapatba szerveződtek és az alábbi feladatokon dolgoztak:

  • a Receptkereső legnépszerűbb receptjeinek klaszterezése a hozzávalók szerint
  • Twitter felhasználók gender klasszifikációja
  • A tanártüntetés és a választási iroda előtt tartott tüntetések Facebook oldalainak elemzése
  • A cégünk által fejlesztett magyar GATE plugin kiegészítése szentiment- és emóciószótárakkal és magyar nyelvű named entity recognition gazetteerekkel.

preview.jpg

preview_1.jpg

preview_10.jpg

preview_12.jpg

preview_13.jpg

preview_14.jpg

preview_2.jpg

preview_3.jpg

preview_4.jpg

preview_5.jpg

preview_6.jpg

preview_7.jpg

preview_9.jpg

preview_8.jpg

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre