HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatok (12) adatújságírás (16) adatvizualizáció (12) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (44) bing (14) CEU (6) clustering (6) conTEXT (7) dashboard (6) data science (8) deep learning (10) egészség (7) egészség kereső (7) emócióelemzés (29) facebook (8) Facebook (9) gépi tanulás (8) Google (23) google (57) gyűlöletbeszéd (7) hackathon (9) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (33) könyvajánló (18) korpusznyelvészet (12) közösségi keresés (8) közösségi média (6) különleges keresők (7) LDA (8) lda (8) live (13) magyar kereső (9) marketing (8) meetup (38) mesterséges intelligencia (9) metafora (6) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (27) nyelvtechnológia (68) open data (11) open knowledge (7) politikai blogok (22) Precognox (39) Precognox Labs (14) Python (10) R (19) spam (6) statisztika (10) számítógépes nyelvészet (6) szemantikus keresés (16) szemantikus kereső (9) szentimentelemzés (31) szövegbányászat (14) tartalomelemzés (46) tartalomjegyzék (6) tematikus kereső (19) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (11) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Babák a hangok világában

2017.04.26. 11:50 Szerző: zoltanvarju Címkék: könyvajánló hálózatelemzés kognitív nyelvészet CHILDES

Megjelent Fehér Krisztina, a népszerű babanyelv blog szerzőjének könyve, amit ajánlunk minden kedves olvasónk figyelmébe, hiszen a Kereső Világ szerzői is feltűnnek a kötetben.

feher110_fin.jpg

Szerzőink feltűnése nagyon izgalmas, a részletekért vegyétek meg a könyvet.

 img_20170426_113508.jpg

A CHILDES korpuszon végzett vizsgálódásainkról ebben és ebben a posztban olvashattok. Mikit továbbra is imádjuk!

De miért foglalkoztunk mi ilyen dolgokkal? A hálózatelemzés az NLP-ben is elterjedt eszköz, Mikivel, a többi gyerekkel és anyukáikkal abban az időben foglalkoztunk, amikor a TextRank algoritmust módosítottuk, hogy legyen egy saját kulcsszókinyerőnk és dokumentumkivonatolónk.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szonifikáció

2017.04.25. 14:02 Szerző: zoltanvarju Címkék: tartalomelemzés adatvizualizáció emócióelemzés szonifikáció

Korábban már kísérleteztünk azzal, hogy egy szöveg emóciós idősorait szonifikáljuk. Most egy kicsit tovább gondoltuk a dolgot, próbálkozásunkat itt érhetitek el.

sounds.png

A hat emóciós idősorból képzett hangsávot egy többcsatornás wav fájlba gyúrtuk, mivel a wavesurfer képes minden sáv hangspektrumát külön megjeleníteni, azaz esetünkben rögtön az adott idősort is. Persze messze vagyunk még attól, hogy igazán szép és könnyen befogadható legyen a szonifikáció és a vizuális megjelenítés, de talán egy kis lépéssel közelebb kerültünk célunkhoz. 

Ha felmerül benne a kérdés, mi a fenének kell ilyen dolgokkal foglalkozni, akkor ajánljuk figyelmedbe Memo Akten Data Dramatization c. írását és itt dióhéjban csak annyit, hogy vannak olyan esetek, amikor az adatokkal hatni szeretnénk másokra, ilyenkor ha nem bújunk a tudományoskodás álarca mögé, szerintünk megengedett a dramatization.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Precognox @ Startup Safary

2017.04.21. 14:04 Szerző: zoltanvarju Címkék: konferencia tartalomelemzés képfeldolgozás Precognox LDA deep learning Startup Safary

Ma a Budapest Startup Safary-n adunk elő szeretett migráns korpuszunk kapcsán arról, hogyan is lehetne a különböző modalitásokat keverni a keresésben és a tartalomelemzésben. Diák és kapcsolódó anyagaink alább!

Kapcsolódó anyagok:

  • itt érhető el dashboardunk
  • aki még nem olvasta nyesten megjelent írásunk, melyben a migránsválság során a hazai online médiában megjelenő cikkeket elemeztük, az kattintson ide gyorsan
  • a Keras blogon van egy jó kis tutorial arról, hogyan látják a (konvolúciós) neurális hálók a világot
  • Thomas Nagel klasszikus esszéje arról, hogy van valami megfoghatatlan abban, ahogy észleljük a világot (ezt nevezik a filozófusok qualia-nak) elérhető online itt
  • Hernád István írása a szimbólum-lehorgonyzás problémájáról elérhető itt (igen, Hernád neve angolul Harnad)
  • A Language of Thought Hypothesis a SEP-en nagyon szépen össze lett foglalva
  • A Probabilistic Language of Thought Hypothesis-t Goodman és tsai itt foglalták össze röviden
  • A kreativitást a modalitások mixeléseként ez a tuti kis tanulmány írja le szépen
  • el Seed fantasztikus munkáiról a művész oldalán találsz infókat

201704_fe_cal_02-rt-web-header.jpg

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Barangolások a szemantikai térben

2017.04.19. 12:10 Szerző: zoltanvarju Címkék: adatvizualizáció R Python t-sne threejs word2vec gensim

Arra voltunk kíváncsiak, hogyan viszonyulnak egymáshoz a korábbi posztunkhoz begyűjtött korpuszban az egyes szavak, milyen szemantikai teret rajzolnak ki. Aki ismer minket, tudja, nem igazán szeretjük a puszta szógyakoriságon alapuló szófelhőket és helyettük inkább a kulcsszavakat és szógráfokat részesítjük előnyben (l. korábbi posztunkat, melyben Orbán Viktor évértékelő beszédeit elemeztük). Most azonban úgy gondoltuk, a korpusz word2vec modelljének 3D t-sne projekcióján értelmesen meg tudjuk mutatni az 1500 leggyakoribb szót és a közöttük lévő viszonyokat. Szimpla pontokból álló interaktív 3D vizunk itt érhető el, a szavakat is megjelenítő verzió pedig itt. UPDATE: Mivel a vizuk zabálják a memóriát, készítettünk egy csupán 360 szavat tartalmazó verziót is belőlük, ennek dot változata itt érhető el, a szavas változata pedit itt, 1000 szavas dot verzió, ami mutatja az adott szót ha rámegyünk egérrel pedig itt. (A nyájas olvasó figyelmét szeretnénk felhívni, hogy a vizuk nem mobilbarátok! A szófelhős verzió Windowson nem minden esetben működik. Ha túl nagy méretben jelennek meg a szavak, akkor ez az az eset.)

tsne_dots.png

A korpusz magyarlánccal lemmatizált verzióján a gensim segítségével tréneltünk egy word2vec modellt, ennek 3D t-SNE projekcióját az sklearn használatával készítettük el. A szólistában végül csak mellék- és főneveket, illetve a nem azonosított elemeket hagytuk. A 3D vizukat az R threejs könyvtárával készítettük.

output.gif

Az egér jobb gomját lenyomva tartva mozgatni, a bal gombot lenymva tartva pedig forgatni lehet a vizut, zoomolni pedig scrollozással lehet.

UPDATE:

1500 szó pozíciójának megjelenítése zabálja a memóriát, ezért készítettünk egy felhasználóbarátabb verziót is a vizukból. A négy oldal (444, index, origo, 888) szógyakorisági tábláiból a top 200 elemet vettük és csak ezek pozíciója kerülhetett fel. Külön színnel jelöltük a közös, illetve egy-egy oldal elemeit. Azt vettük észre, hogy így a 888 és az origo között nincs különbség, azaz nagyon egyforma szókincsük van.

tsne_dots_low.png

tsne_words_low.png

A vizuk az alábbi linkeken érhetőek el:

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Térképezz QGIS-zel

2017.04.18. 12:14 Szerző: kittibalogh Címkék: térkép munkanélküliség foglalkoztatottság leaflet adatvizualizáció KSH QGIS three.js

Visszatérő problémánk, hogy területi adatokat gyorsan, vizuálisan elfogadható módon és lehetőleg interaktívan ábrázoljunk. E célból próbáltuk ki a QGIS nevű open-source programot, amivel első találkozásunk egészen biztatóan sikerült.

movar_jaras.png

A QGIS-t elsősorban szakik használják, valószínűleg ezért is kerülte el eddig a figyelmünket, holott egészen egyszerűen lehet vele térképeket összerakni, különböző adatforrásból származó adatok bevonásával is. Pluginok segítségével pedig akár interaktív webes térképeket is könnyedén létrehozhatunk.

Az interaktív térképezéshez két plugint próbáltunk ki, az OpenLayers3 vagy Leaflet térképet generáló qgis2web és a 3D-s three.js objektumokat generáló qgis2threejs modulokat. A térkép layereihez OpenStreetMap-es adatokat használtunk. A járások shape fájljait és Budapest kerületeit a data2.openstreetmap.hu-ról töltöttük le, a többi layer (helyek, utak, vizek stb.) fájlait pedig a Geofabrikról. Ezt egészítettük ki a 2011-es népszámlálás népességszámra, foglalkoztatottságra és munkanélküliségre vonatkozó adataival, amit a KSH Területi statisztikai adatbázisából töltöttünk le.

Amit ezekkel műveltünk, itt lehet megnézni.

mo_munkanelk.png

Egyrészt interaktív 3D térképen ábrázoltuk a magyarországi járások munkanélküliségi rátáját és foglalkoztatottsági arányait. A munkanélküliségi ráták nem meglepően masszívan magasak, a foglalkoztatottsági arányok pedig masszivan alacsonyak az Eurostat friss statisztikája szerinti 9. legszegényebb európai régióban, Észak-Alföldön, a 10. legszegényebb Dél-Dunántúlon és Észak-Magyarországon, illetve a 14-17. Dél-Alföldön.

Emellett Budapest kerületeit is megvizsgáltuk ugyanilyen interaktív 3D térképekkel. A munkanélküliségi ráták a VIII., a XXI. és a XXIII. kerületben a legmagasabbak, míg a II. és a XII. kerületben a legalacsonyabbak. A foglalkoztatottsági arányok a IV., a XIII., a IX és a VI. kerületben a legmagasabbak, míg az V., a XII. és a XI. kerületben a legalacsonyabbak.

Mivel szerettünk volna település szintű adatokat is ábrázolni, kíválasztottunk egy-egy a statisztikák szerint jobban és rosszabban szereplő járást, amik nem mellesleg szívünkhöz is közel állnak. Így esett a választásunk a mosonmagyaróvári és a szikszói járás településeire, amiknek a térképét, valamint munkanélküliségi és foglalkoztatottsági statisztikáit a qgis2web pluginnel tettünk interaktívvá.

A QGIS tehát egészen jó arra, hogy gyorsan viszonylag jól kinéző, interaktív térképeket készítsünk, úgyhogy még biztos fogjuk használni az eszközt.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre