HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Ingatlanhirdetések kulcsszavai járások/kerületek szerint

2017.06.19. 15:39 Szerző: Zoltán Varjú Címkék: ingatlan adatbányászat tartalomelemzés adatvizualizáció QGIS

Az ingatlanhirdetések szövegei sokat elárulnak arról, hogyan látják környezetüket a hirdető tulajok. Korábban összegyűjtött közel 200.000 hirdetés szövegét elemeztük most, hogy lássuk, milyen területi különbségek jelennek meg az eladók szóhasználatában. A kapcsolódó vizualizáció itt érhető el.

map_text.png

 

Az adatgyűjtésről már írtunk a négyzetméterárakat bemutató posztunkban. Most kiegészítettük a járási/kerületi szinten aggregált adatokat a hirdetések szövegeivel is. A szövegeket magyarlánc segítségével szótöveztük és szófajilag szűrtük (melléknevek, főnevek maradtak meg), a kulcsszavakat khi-négyzet módszerrel határoztuk meg a scikit-learn segítségével. Az adatokat ezután QGIS-be töltöttük és a program qgis2web bővítményének segítségével generáltuk az online vizut.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kulcsszókiemeléssel az olvasási nehézségek csökkentéséért

2017.06.15. 10:34 Szerző: Putz Orsolya Címkék: kutatás Precognox kulcsszavazás

Jobban megértik-e és gyorsabban el tudják-e olvasni azt a szöveget, amelyben ki vannak emelve a kulcsszavak a tanulási nehézséggel küzdő gyerekek? – erre a fő kérdésre keresi a választ gyakornokunk, Régeni Anna mesterszakos diplomamunkájában.

core_words_1.png

Amikor megdől egy hipotézis

Az angol nyelvű szakdolgozat – az elméleti háttér részletes és alapos ismertetése után – egy hosszabb távú projektünk első lépésének eredményeit foglalja össze. Bevalljuk, a kapott eredményeknek pont az ellenkezőjére számítottunk. A kollégáink által végzett kutatások szerint ugyanis a kulcsszókiemelés nem gyorsítja, hanem lassítja az olvasás tempóját, illetve nem hoz látványos javulást a szövegértés tekintetében.

A kulcsszókiemelőnkről

A legnépszerűbb kulcsszókinyerők által kínált megoldásokat figyelembe véve a projektcsapat úgy találta, hogy a legjobb eredmény a TextRank alapú megoldással érhető el. Angol és magyar nyelvű szövegeken kísérletezve kiderült, hogy a leghatékonyabban akkor járunk el, ha különböző típusú és hosszúságú szövegekre különböző központiságot alkalmazunk.

Kiket, hogyan és miért mértünk

A kísérlet 9-10. osztályos diákok olvasási jellemzőit mérte: az olvasással töltött időt, a fókuszálási idejét és számát, az olvasásértést ellenőrző kérdésekre adott válaszok helyességét és reakcióidejét. Összesen 57 diák vállalkozott erre a feladatra, akik közöl 17 került az olvasási nehézséggel küzdők csoportjába és 20 a kontrollcsoportba. A feladat abból állt, hogy három azonos hosszúságú és nehézségű szöveget kellett elolvasniuk, majd szövegenként három kérdésre válaszolniuk. Eközben szemmozgásukat a Tobii 120T eye-scanner rögzítette. Az egyik szöveg semmilyen kiemelést nem tartalmazott, a másikban a kulcsszavak, míg a harmadikban random szavak voltak kiemelve. Az adatok tanulsága szerint a legtöbbet és a leghosszabb ideig a tanulási nehézséggel küzdő diákok fókuszáltak a kulcsszó kiemelést tartalmazó szövegre, míg a legkevesebbet és a legrövidebb ideig a kontroll csoport fókuszált a kiemelést nem tartalmazó szövegre. Ami a szövegértést illeti, mindkét csoport a kiemelést nem tartalmazó szövegekhez kapcsolódó kérdésekre adta a legtöbb helyes választ.

Az esetleges buktatók

A kutatás helytállóságát elismerve ne felejtsük el, hogy az ilyen és ehhez hasonló kísérletek esetén akár már egy tényező módosításával is más eredményt kaphatunk. Jelen esetben a legfőbb problémát az okozza, hogy ma Magyarországon az olvasási nehézségekkel küzdő gyerekeknek csak kis százaléka rendelkezik szakértői véleménnyel. Ahogy a kísérletben szereplő csoport összetétele is tükrözi, ez nem egy homogén terület, azaz az olvasási nehézségeknek különböző fajtái és fokozatai léteznek. Így a kulcsszavak kiemelése más-más hatással lehet a különböző típusokra. Továbbá az a kérdés is felmerül, hogyan befolyásolja a szövegértést az olvasott szöveg és az azzal kapcsolatos kérdések megjelenítése. Változik-e a gyerekek teljesítménye, ha a szöveget és az arra vonatkozó kérdéseket külön-külön látják, és nem térhetnek vissza egyikről a másikra; illetve ha egy képernyőn látják a kulcsszavakat tartalmazó szöveget és az azzal kapcsolatos kérdéseket. Végül nehéz kiszűrni az olyan tényezőket mint a stressz, valamint időarányosan a koncentráció csökkenése.

Hol alkalmazható?

Mint korábban utaltunk rá, Anna szakdolgozata az első mérföldkő egy hosszabb távú kutatásunkban. Célunk ugyanis egy olyan kulcsszókiemelő kifejlesztése, amely nemcsak az olvasási nehézséggel küzdő gyerekek olvasásértését segíti elő, hanem az internetező társadalom információfeldolgozását is megkönnyíti.

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Real-World Deep Learning for NLP @ Budapest Data Forum

2017.06.13. 12:44 Szerző: Zoltán Varjú Címkék: előadás konferencia search deep learning semantic search

Ma a Budapest Data Forumon adunk elő egy gyakorlati projektünről, melynek célja, hogy gyorsabban, minőségibb tezauruszokat tudjunk készíteni szemantikus keresőinkhez. Diák alább.

 

cerveau.jpg

(Nem illik ide, de egy konnektómos képet már régen szerettem volna elhelyezni a blogon)

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Látens jelentések és a szemantikai tér workshop

2017.05.31. 12:21 Szerző: Zoltán Varjú Címkék: előadás workshop tartalomelemzés

Ma az MTA-ELTE- Peripato Összehasonlító Társadalmi Dinamika Kutatócsoport által szervezett Látens jelentések és a szemantikai tér A közéleti-politikai diskurzus empirikus vizsgálata című workshopon veszünk részt.

spangenberg_schule_des_aristoteles.jpg

Izgatottan várjuk, hogy megtudjuk, milyen módszerekkel és eszközökkel dolgoznak a társadalomtudósok amikor tartalomelemzéssel foglalkoznak - ebből mindig sokat szoktunk tanulni. Mi a blogunkon már korábban bemutatott projektjeinkről fogunk beszélni, reméljük hasznára válhatnak valakinek és visszajelzéseket is kapunk. Slideok alább!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Topik modellek és word2vec

2017.05.30. 07:18 Szerző: Zoltán Varjú Címkék: tartalomelemzés lda topik modellek deep learning word2vec lda2vec

Egy korpuszunkon kipróbáltuk az lda2vec algoritmust, mert már nem bírtuk tovább. Jelentjük, nem is olyan rossz az eredmény! Itt meg is lehet nézni!

lblbanner.png

Christopher E. Moody Mixing Dirichlet Topic Models and Word Embeddings to Make lda2vec tanulmányát megjelenése óta imádjuk és párszor már használtuk is az általa implementált változatát. Most egy kicsit belekontárkodtunk a kódba (pl. Chainer helyett mi Keras-t használunk), hogy a tüntetések, és a CEU-ügy kapcsán megjelent cikkeket tartalmazó korpuszunkat elemezhessük.

De miért?

Itt már megírtuk, hogy az LDA két külön topikba pakolta az jobb- és baloldali lapokban ugyanazon témában megjelenő cikkeket. A korpuszon trénelt word2vec modell azonban azt mutatja, hogy az eltérő kifejezések, mint pl. CEU és a Soros-egyetem nagyon hasonló helyet foglalnak el a szemantikai térben. Nem gondoljuk, hogy az LDA rossz, mert a két eltérő narratíva bezavarta. Ellenben arra voltunk kíváncsiak, hogy a word embeddings-re alapozott topik modell képes-e ezen túllépni. Számításunk bejött! Habár még sokat kell pofozni a modellen, de a prototípusra kapott pyldaviz vizu megtekinthető itt.

lda2vec.png

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása