HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Hogy hivatkoznak egymásra a magyar politikai blogok és híroldalak?

2015.05.19. 08:31 Szerző: zoltanvarju Címkék: politikai blogok tartalomelemzés hálózatelemzés szentimentelemzés emócióelemzés

Budapest Science Meetup előadásunk megtekinthető:

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Brainy Solutions - NLP meetup május 20-án

2015.05.18. 09:32 Szerző: zoltanvarju Címkék: meetup NLP meetup deep learning cortical.io cortical learning

Május 20-án évadot is zárunk, ennek megfelelően eltérünk a szokásos programtól. Továbbra is hatkor kezdünk a Colabs-Budában (Bp, Krisztina körút 99.) és továbbra is ingyenesek vagyunk, de előzetes regisztráció kérnénk mindenkitől itt. A szokásoktól eltérően viszont most angolul meetupolunk és csak egy vendégünk lesz (ha más addig nem jelentkezik), de megéri! Címszavakban; deep learning, cortical learning, startup.

letoltes.jpg

Francisco Webber: Semantic Fingerprinting: Democratising NLP

cortical.io’s Semantic Fingerprinting technology originates in a new, fundamentally different machine learning approach: it is based on a statistics-free processing model that uses similarity as a foundation for intelligence. The cortical.io Retina converts any kind of text into  a numeric representation, a Semantic Fingerprint, that encodes meaning explicitly with all contained senses and contexts. The system "understands" the relatedness of two items by simply measuring their overlap. As a result, it is very fast, reliable and easy to implement - a breakthrough technology that leverages the intelligence of the brain to enable the Natural Language Processing of Big Text Data. 

Francisco Webber, inventor and co-founder at cortical.io

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kisvilágunk, a nyelv

2015.05.15. 07:06 Szerző: zoltanvarju Címkék: nyelvészet nyelv kisvilág korpusznyelvészet hálózatelemzés Zipf

Watts és Storgatz kisvilág gráfjait már 2001-ben alkalmazta a(z angol) nyelvre Ferrer i Cancho és Solé. Sajnos azonban eredményük nem igazán ismert nyelvész körökben, pedig egyrészt túl tud mutatni a Zipf-féle hatványeloszláson, másrészt pedig alternatíváját nyújthatja a nyelvtechnológiában bevett hagyományos szózsák modellnek is, s talán a nyelvi rendellenességek magyarázatához is felhasználható. Nézzük meg magyar példán miről van szó!

graph_143_u.png

Adatok

A magyar Wikipedia oldalai közül random kiválasztottunk párat, majd begyűjtöttük a szövegeket. 463409 szóból áll korpuszunk, ami 46096 egyedi szótári elem között oszlik el, ahogyan a hagyományosan Zipf nevéhez kötött grafikonunk is mutatja, a gyakoriság szerint első 10-100 szó bizony kiteszi a korpuszunk javát!

zipf.png

Tudjuk, a Zipf-eloszlás elején a funkciószavak és további, pár nagyon gyakori szó található. De hogy viszonyulnak ezek egymáshoz? 

Hogy készítsünk kisvilág-gráfot szövegekből?

Mielőtt megvizsgálnánk gráfunkat, nézzük meg hogyan készült. Vegyük az alábbi gyógypéldát.

Zoli nagyon örül, mert Nóri elvitte végre krumplilángost enni. A krumplilángos Zoli számára a legfinomabb kaja a világon és reméli, hogy Nórinak is ízlett. Zoli és Nóri legközelebb nem krumplilángost fog enni, hanem elmennek megnézni az új Avengers filmet.

Ez szótövezve és minden nem-betűtől megtisztítva, csupa kisbetűsen így néz ki kb.:

zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos fog enni hanem menni nézni az új avengers film

 

Ebből trigramokat készítünk.

zoli nagyon örül

nagyon örül mert

örül mert nóri

stb.

A gráfot a trigramokból készítjük. Két szó akkor kapcsolódik, ha együtt előfordul egy trigramban, a fenti példából az alábbi éleket kapjuk:

zoli - nagyon

zoli - örül

nagyon - örül

nagyon - mert

örül - mert

mert - nóri

stb.

Példánkból pedig az alábbi gráf generálható:

 

pelda_graf_1.png

Pontosan így készült a mi gráfunk is, egy kis megkötéssel. A trigramok elemeiből csak akkor lettek csomópontok és közöttük élek, ha mindhárom tagjuk szerepelt a leggyakoribb 1500 szó listáján. Ezzel kicsit eltértünk a tanulmányban leírt módszertől, de nem lényegesen. (A tanulmány szerzői egyrészt gyakorisági küszöböt alkalmaztak, másrészt pedig az n-gramok tagjainak együttes előfordulásának valószínűségét is nézték)

Jellemzők

A fent leírt módon generált gráf 1500 csomópontot tartalmaz, melyek között 87749 él található. A fokszámeloszlást az alábbi ábra mutatja.

fokszam.png

szomszedok.png

Jól látható, hogy egy kicsit eltérnek az adatok a klasszikus kisvilág-tulajdonságtól. Ennek oka, hogy a gráfban szerepel pár, a Wikipedia-ra jellemző szó (főleg a struktúra jelölésére használtak, ill. szerkesztéssel kapcsolatosak) melyeket nem szűrtünk ki. Ezek előfordulása gyakori, de általában ugyanolyan közegben fordulnak elő, ezért kevés szóhoz kapcsolódnak - emiatt vannak grafikonjaink "eltolva" a klasszikus kisvilágokat ábrázoló plotokhoz képest. 

Gráfunk átmérője kettő, ami megfelel Ferreri i Cancho és Solé eredményeinek. A klaszterezési együttható azonban lényegesen magasabb, 0.75, mint az általuk mért 0.69 és 0.48. Ennek oka, hogy mi erősen szerkesztett, tudományos(abb) szövegeket használtunk, még az eredeti cikk a British National Corpus-ra támaszkodott. A teljes gráf valahogy így néz ki:

full.png

Ezen a gráfon már szürke csomópontok is vannak, ezek a Zipf-görbe hosszú farkán tanyázó szavak, melyek gyakorisága alacsony, elemben sok van belőlük. Reméljük látható, hogy ezek egy-egy piros, tehát közepes gyakoriságú szó körül "csomósodnak", ez lenne a kisvilágok egyik fő jellemzője.

Fokszámra (237 vagy nagyobb) szűrtünk az alábbi ábra elkészítéséhez, hogy csak központi elemeit mutathassuk meg gráfunknak.

graph_143_l.png

Az eredeti tanulmányban ezt nevezik „core kernel”-nek, azaz központi magnak. Mi is azt tapasztaljuk, hogy a funkciószavak (itt kékkel jelölve látható többségük, nagyságuk pedig fokszámuk függvénye) alkotta rész felel a többi szóval való összeköttetésért. Aki nagyon sasol, az észreveheti, hogy a piros-kék felosztás nem fedi teljesen a funkció- és tartalomszavak felosztást, de semmi sem lehet tökéletes.

Spekuláció

Ferrer i Cancho és Solé rámutattak arra, hogy a funkciószavak nem csak összekötik az egyes szavakat, hanem tulajdonképpen a különféle szótári osztályok között ezek létesítenek kapcsolatokat. A lexikon bővülése nem esetleges, hanem a kisvilágokra jellemzően egy-egy elem köré csoportosulva történik, ezért "fürtösödik" a hálózat, ez párhuzamba állítható a nyelvelsajátítással. Amennyiben a grammatikai funkciókat ellátó funkciószavak hálózata és a tartalommal rendelkező szavak lexikonja önálló rendszerek, melyek valahogy össze lettek huzalozva, érthető hogy milyen drasztikus következményekkel járhat valamelyik alrendszer sérülése, kiesése. Habár a kisvilágok (különösen a skálafüggetlen hálózatok, mint pl. az internet) a véletlen támadásokat viszonylag jól tolerálják, a célzott, központi elemeket kiiktató hibák súlyos következményekkel járhatnak rájuk nézve. Sajnos a tanulmány nagyon érintőlegesen foglalkozik csak ezzel a kérdéssel, de a felvetés nagyon érdekes.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogy hivatkoznak egymásra a magyar politikai blogok és híroldalak? - prezentáció

2015.05.14. 19:00 Szerző: zoltanvarju Címkék: politikai blogok tartalomelemzés hálózatelemzés szentimentelemzés emócióelemzés

Ma a Budapest Science Meetupon beszéltem politikai blogokkal foglalkozó projektünkről.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kontextus és a hivatkozások ereje - Media Hungary prezentáció

2015.05.13. 15:15 Szerző: zoltanvarju Címkék: politikai blogok tartalomelemzés Media Hungary szentimentelemzés emócióelemzés

Politikai blogokat vizsgáló projektünkről ma a Media Hungary konferencián adtam elő, a kapcsolódó prezentáció pedig itt található.

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre