HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Főbb témák

adatbányászat (6) adatok (12) adatújságírás (16) adatvizualizáció (17) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (48) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) google (56) Google (23) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (54) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (12) metafora (7) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (28) nyelvtechnológia (73) open data (11) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (47) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (18) szemantikus kereső (9) szentimentelemzés (34) szövegbányászat (15) társadalomtudomány (7) tartalomelemzés (54) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) Twitter (18) twitter (15) vertikális kereső (9) vizualizáció (12) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Könyvajánló: Weapons of Math Destruction - How Big Data Increases Inequality and Threatens Democracy

2018.02.13. 14:56 Szerző: zoltanvarju Címkék: etika könyvajánló wmd big data Sandel ONeil

A szolucionizmus híveinek kötelező olvasmány Cathy O'Neil, a mathbabe blog szerzőjének könyve! Egy hajdani quant (pénzügyi geek) matek PhD-val a zsebében fogta magát és utána járt, mit köszönhetünk a gépi tanulásnak - nem sok jót talált, de arról rendkívül olvasmányos módon számol be nekünk.

weaponsmath-r4-6-06.jpg

A könyv alapvetése az, hogy a gépi tanulás hibázik és ezek a hibák hatással vannak az életünkre. Nincsenek jó modellek és ha nincs visszacsatolás, akkor nem is lesznek soha. A WMD, azaz a Weapon of Math Destruction mindig úgy indul, hogy valaki azt hiszi sok adata van, de gyakran nem tudjuk azt mérni, amit igazán szeretnénk, ezért proxikat, indikátorokat használunk. A felsőoktatási rangsorok például a tanár-diák arányt, a túljelentkezés mértékét, az átlagos felvételi pontszámot, stb. mérik, amik jó közelítőknek tűnnek, de egyben azt eredményezik, hogy minden iskola ezekre kezd rágyúrni, ezáltal a szakadék elkezd nőni az elit egyetemek és a többi között. Az objektívnek tűnő mérőszámokhoz kezdenek igazodni az iskolák, emiatt pedig egyre inkább hasonlítani kezdenek egymásra. O'Neil szerint az egyetemi rangsorok a WMD-k iskolapéldái. A könyv tíz fejezete hasonlóan működő WMD-ket mutat be az online hirdetések világával kezdve, amely kíméletlenül nyomul a szegények pénzére mindenféle hiteleket rájuk tukmálva. A munka világa két fejeztet is kap, az automatikus CV elemzés és az alkalmassági tesztek is durvák, de igazán a clopening, azaz az üzlet éjszakai zárását, majd reggeli nyitását magában foglaló műszakok, illetve a naponta többször is megszakított, algoritmikusan tervezett műszakok bemutatása során nyílik ki a bicska az ember zsebében. A biztosítási- és hitelpiac bemutatása ezek után már üdítően hat, no persze nem az hogy minden adatunkra rá szeretnék tenni a kezüket a pénzügyi cégek, de itt visszatérünk a klasszikus WMD-khez, melyek arra vannak optimalizálva, hogy a többséggel tartsanak és az átlagtól eltérőket (kisebbségek, szegények, stb.) kockázatosnak ítéljék meg. Az utolsó fejezetben összeér minden, hiszen a modern tömegdemokráciákban egyre divatosabb a célzott marketing, mely célja az átfordítható választól elérése. O'Neil szerint a már meggyőzött szavazókat elég megtartani, az ingadozókra kell összpontosítani és a célzott marketingnek hála minden csoport más ígérettel bombázható, innen egyenes út vezet a polarizálódáshoz.

 

Habár nagyon izgalmas és alapos a könyv, kicsit szájbarágós a WMD-k hatásai kapcsán. A szerző minden esetben kinyilatkoztatja  (amúgy számunkra szimpatikus) nézeteit arról, hogyan is kellene kinéznie egy ideális világnak. Ez azért furcsa, mert ezt a könyvet gyakran ajánlják a Big Data kapcsán etikai kurzusokhoz. De az aki annál többet akar látni, hogy a piaci mechanizmusok nem uralhatnak mindent és rossz dolog növelni az egyenlőtlenségeket, máshová kell fordulnia. Problémafelvetésnek remek a kötet, de talán jobban jár az érdeklődő olvasó, ha saját maga gondolkodik el a következtetéseken. Ehhez Michael Sandel Justice kurzusa online elérhető ingyen, a kapcsolódó könyv pedig magyar fordításban is beszerezhető. Ha pedig arról is el akar valaki gondolkodni, hogy meddig terjedhet a gazdasági gondolkodás, a pénz hatalma meddig érhet, annak Sandel What Money Can't Buy című könyvét ajánljuk. Vigyázat, ezek a könyvek nem adnak kész válaszokat, arra próbálják rávenni az embert hogy gondolkozzon, beszélgessen és önállóan alkosson véleményt.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Emberközpontú gépi tanulás @ Entrepreneur DNA

2018.02.08. 15:38 Szerző: zoltanvarju Címkék: konferencia gépi tanulás TAS Járókelő human centered machine learning Sales Lead Generator Data Collector

Ma az Entrepreneur DNA konferencián adunk elő, kapcsolódó diáink alább.

A gépi tanulás kapcsán termékeinkről fogunk beszélni, azaz a TAS, a Data Collector, a Classifier API és a Sales Lead Generator is bemutatásra kerül.

screenshot_from_2018-02-07_14-50-57.png

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

MSZNY-es beszámoló

2018.02.05. 07:59 Szerző: Szabó Martina Katalin Címkék: konferencia orosz társadalomtudomány tartalomelemzés termékfejlesztés szövegbányászat nyelvtechnológia NLP social network analysis szentimentelemzés emócióelemzés TAS MSZNY Spontán beszélt nyelvi korpusz

Most is, mint minden évben részt vettünk a szegedi Magyar Számítógépes Nyelvészeti Konferencián.

9.JPG 

A Szegedi Tudományegyetem Informatikai Tanszékcsoportja tizennegyedik alkalommal rendezte meg 2018. január 18-19-én a Magyar Számítógépes Nyelvészeti Konferenciát. A konferencia a nyelvtechnológia területén végzett kutatások és eredményeik ismertetésének ad otthont. Fő célja az elvégzett vagy folyamatban lévő kutatások és fejlesztések legaktuálisabb eredményeinek bemutatása, de lehetőség nyílik hallgatói projektek, ill. a nyelvtechnológia ipari alkalmazásainak ismertetésére is. 

mszny-tik.jpg

A konferencia honlapja itt érhető el, a tanulmánykötet pedig innen tölthető le. 

Magunk négy előadásban voltunk érdekeltek, amelyek a következők voltak:

1) Nyíri Zsófi, Szabó Martina Katalin, Ilyés Virág: Egy orosz nyelvű korpusz (NarRu) narratívaelemzése saját fejlesztésű szentiment- és emóciószótárakkal.

2) Lázár Bernadett, Szabó Martina Katalin, Vincze Veronika: Mozgást jelentő igék argumentumszerkezetének korpuszalapú vizsgálata. 

3) Gulyás Attila, Szabó Martina Katalin, Ifj. Boros István, Havadi Gergő: A Rákosi-éra pártjegyzőkönyveinek feldolgozása, elemzése és vizualizációja szövegalapú kapcsolatháló-elemzési módszerekkel.

4) Gulyás Attila, Galántai Júlia, Szabó Martina Katalin, Szebeni Zea: A HuTongue spontán beszélt nyelvi korpusz leiratozásának és annotálásának minőségbiztosítási munkálatai.

2-compressor.jpg

3-compressor.jpg

4-compressor.jpg

5-compressor.jpg

 

Az orosz narratívaelemzéses dashboardunkat a konferencia demo szekciójában is bemutattuk.

7-compressor.jpg

10-compressor.jpg

8-compressor.jpg

12-compressor.jpg

 

Aki szeretne még egy posztot olvasni a konferenciáról, az talál egy nagyon jót itt.


Aki pedig szeretne többet hallani a HuTongue korpuszról vagy a Rákosi-projektről, jöjjön egy február 22-én a Hungarian Natural Language Processing Meetupra, a HTK nagyelőadójába 18:30.kor! Bővebb információt itt találnak a programról.

 

Nagyon jó volt, köszönjük a szuper szervezést! Jövőre is találkozunk! :)

1-compressor.jpg

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nemi előítéletek és szóbeágyazási modellek

2018.01.30. 12:34 Szerző: zoltanvarju Címkék: adatvizualizáció AI word2vec gender bias szóbeágyazási modellek

Hogyan lesz előítéletes az AI? Erre keressük a választ magyar alternatív zenekarok dalszövegeiből készített szóbeágyazási modellt hívva segítségül. A szóbeágyazási modellt ezen az interaktív vizualizáción keresztül lehet felfedezni, de lentebb azt is elmondjuk, hogy mely szavak jellemzőbbek inkább a fiúkra, melyek a lányokra - legalábbis az underground dalszerzői szerint.

A word2vec egy nagyon jó dolog! A szóbeágyazási modelleket egyre több helyen tudjuk használni. ezért egyáltalán nem mindegy, milyen adatokon tanítjuk be. Pár éve még a The Unreasonable Effectiveness of Data nyomán úgy gondoltuk, hogy ha netről (meg más forrásokból) sok adatot gyűjtünk, akkor nem tévedhetünk, az adatok majd vezetni fognak minket. Azonban az adatokat mi emberek gyűjtjük saját magunkról, így - ahogy arról már a nyesten is írtunk - az adatokba igen gyakran belekerülnek saját előítéleteink, melyeket azután a rajtuk trénelt algoritmusok vissza is adnak. Jó példa erre a Google szentimentelemzője is, ami nagyon érdekes értékeket rendelt egyes mondatokhoz, ahogy a Motherboard példái is mutatják:

google01.png

google02.png

Nagyon szeretjük a pretrained modelleket, különösen ha klasszifikációról van szó. Ezek általában a Wikipedia-ról és/vagy híroldalakról gyűjtött adatokon vannak betanítva. Gondolhatnánk, hogy egy enciklopédia vagy egy objektivitásra törekvő híroldal biztos torzításoktól mentes. Olyan tanulmányoknak köszönhetően mint pl. a  Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings azonban rájöttünk, ez koránt sem igaz - az összes előítéletünk megjelenik ezekben a modellekben. Szerencsére tehetünk ellene, ha akarunk. 

Mennyire érhetjük tetten ezeket a torzításokat (bias) a magyar szövegekben? Honnét tudjuk, hogy rendben van a korpuszunk? Mi van, ha nincs olyan sok adatunk, amin megéri egy word2vec modellt trénelni. Ilyen kérdések foglalkoztatnak minket mostanában.

Az a tapasztalatunk, hogy a word2vec igazán akkor működik jól, ha tényleg sok adatunk van. Ha nem ez a helyzet, akkor jól jön a régi kölcsönös információ (pointwise mutual information), de eleve a szóbeágyazási modellek ezeket közelítik és az iparban nagyon népszerű manapság egy poszt, ami amellett érvel, hogy hagyjuk a fenébe a word2vec-et, térjünk vissza a jól bevált eszközeinkhez.

Egy korábbi projektünkhöz 24 magyar alternatív zenekar 1503 számának szövegét gyűjtöttük le. Ahogy manapság mindenki teszi, mi is implementáltuk magunknak a word2vec pótlékunkat a posztot követve. A szövegeket a modellbe téve a szokásos algebrai műveletek elvégezhetőek. Nézzük mely szavak állnak inkább a 'fiú' szóhoz közelebb:

fiú - lány

('ész_NOUN', 0.6413571868189918)

('ház_NOUN',  0.6394038735224673)

('mintha_SCONJ', 0.6356254038639404)

('kör_NOUN', 0.6347388228382129)

('fekete_ADJ',  0.6340567298146321)

És akkor nézzük mely szavak állnak közel a "lány"-hoz:

lány - fiú

('munka_NOUN', 0.13039697590585775),

('hagy_VERB',  0.10222601358418776),

('éppen_ADV',  0.09844298177559987),

('vesz_VERB',  0.09752982783571493)

('hát_ADV',  0.05191687249170514)

Nézzünk egy példát analógiára: 

fiú ~ lány = kisfiú ~ X

pikkelyes_ADJ 1.4021871931471783
látva_ADV 1.3847004769180082
rió_NOUN 1.3657105563904626
andrea_PROPN 1.365663414523725
tánctér_NOUN 1.3635914156567344

Mi a kislányt vártuk volna, de hát a magyar underground nem adta! Viszont mint minden rendes szóbeágyazási modellt, ezt is be lehet varázsolni a TensorFlow csodás Embedding Projector alkalmazásába, szóval fel is tettük a modellt, itt lehet nézegetni.

alter01.png

Ha a Bookmarks résznél rákattintunk a tsne-re, akkor bejön az előre beállított kis vizunk is.

alter03.png

Jobb oldalon pedig lehet a szavakra keresni és legközelebbi szomszédaikra szűrni.

alter02.png

Hamarosan más szereplők megnyilvánulásaiból származó korpuszon részletesebben is bemutatjuk eredményeinket!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Big Data-konferencián jártunk

2017.12.14. 16:44 Szerző: Szabó Martina Katalin Címkék: konferencia adatbányászat szemantikus keresés big data Precognox emócióelemzés TAS Pécsi Tudományegyetem Szentágothai János Kutatóközpont

November 30-án egy szuper konferencián szerepeltünk, egy igazán szuper helyen!

kutatokozpont_4.jpg

 p_greypixel_science_1047-1048_bachman-balint_pte-szentagothai-janos-kutatokozpont.jpg

 

 

 

 

 

 

Bár ez nem tartozik szorosan a konferencia tárgyához, megjegyezzük, hogy teljesen lenyűgözött minket a  a Pécsi Tudományegyetem Szentágothai János Kutatóközpontja, mind a technikáját, mind az építészeti sajátságait illetően.

sb2.jpg

A Big Datára idén 160-an regisztráltak! 

A plenáris előadásokra a "Kavics" előadóban került sor.

 

 

 

 

 

 

 

 

20171130_100504.jpg

Polyák Gábor (PTE BTK, SZKK, habilitált doktor, egyetemi docens) bemutatta a Szentágothai János Kutatóközpont Big Data kutatócsoportját. Botz Lajos (PTE GYTK, PhD, habil, egyetemi tanár, főgyógyszerész, intézetigazgató) a Big Data jelenségről az egészségügy szempontjából, a gyógyszerezéssel összefüggő adatelemzések lehetőségéről beszélt. Végül Feldmann Ádám (PTE Big Data kutatócsoport, ÁOK Magatartástudományi Intézet) tartott egy rendkívül érdekes előadást a Personogram projektről, amely személyiségvonások kinyerését célozza strukturálatlan szövegekből. 

Ezután párhuzamos szekciók következtek. A precognoxos csapat a „Szövegbányászat, Duo-mining” szekcióban adott először elő.
Magam a magyar és orosz nyelvű írott szövegek alapján végzett érzelemkivonatolási projektjeinkről beszéltem, Tavali Gábor kollégám pedig a strukturálatlan adatok kezelésének a kérdéséről a Solvonak végzett közbeszerzési témájú feladatunk kapcsán, valamint röviden bemutatta cégünk TAS nevű feldolgozó rendszerét.

20171130_113730.jpg

20171130_115748.jpg

 

 

 

 

 

 

A szekció vezetői Feldmann Ádám (PTE Big Data kutatócsoport, ÁOK Magatartástudományi Intézet) és Kruzslicz Ferenc (PTE Big Data kutatócsoport, KTK egyetemi docens) voltak.

Köszönjük a sok érdeklődőnek, aki meghallgatott bennünket, és izgalmas dolgokat kérdezett tőlünk :)

 20171130_121603.jpg

Az előadások után standoltunk és beszélgettünk.

20171130_124450.jpg

 20171130_124432.jpg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dálután, az ún. Big Data Labor” workshopot Gazdag András és Katona Richárd kollégáink vezették. És hogy miről volt szó, arról a következő rövid összefoglaló ad képet:

„Mind az újságírás, mint a tudományos munkák, kutatások területén igen fontos szerepe van manapság az Internetnek. Rengeteg releváns információ érhető el a világhálón, de ezek megtalálása, begyűjtése és rendszerezése nem is olyan egyszerű feladat. Ezt a területet célozza meg az adatbányászat, melynek eszközeit és módszertanát egy készülő projektünkön keresztül szeretnénk bemutatni. A project az atlatszo.hu Közhasznú Nonprofit Kft. megbízásából készül és a 2003. évi XXIV. törvény ("Üvegzseb törvény") végrehajtásának monitorozását tűzte ki célul.” 

20171130_144427.jpg

20171130_145208.jpg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Nagyon szuper és eredményes napot zártunk!
Hálásan köszönjük a rendezvényt és a meghívást a szervezőknek!

20171130_152539.jpg

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre