HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Kisvilágunk, a nyelv

2015.05.15. 07:06 Szerző: Zoltán Varjú Címkék: nyelvészet nyelv kisvilág korpusznyelvészet hálózatelemzés Zipf

Watts és Storgatz kisvilág gráfjait már 2001-ben alkalmazta a(z angol) nyelvre Ferrer i Cancho és Solé. Sajnos azonban eredményük nem igazán ismert nyelvész körökben, pedig egyrészt túl tud mutatni a Zipf-féle hatványeloszláson, másrészt pedig alternatíváját nyújthatja a nyelvtechnológiában bevett hagyományos szózsák modellnek is, s talán a nyelvi rendellenességek magyarázatához is felhasználható. Nézzük meg magyar példán miről van szó!

graph_143_u.png

Adatok

A magyar Wikipedia oldalai közül random kiválasztottunk párat, majd begyűjtöttük a szövegeket. 463409 szóból áll korpuszunk, ami 46096 egyedi szótári elem között oszlik el, ahogyan a hagyományosan Zipf nevéhez kötött grafikonunk is mutatja, a gyakoriság szerint első 10-100 szó bizony kiteszi a korpuszunk javát!

zipf.png

Tudjuk, a Zipf-eloszlás elején a funkciószavak és további, pár nagyon gyakori szó található. De hogy viszonyulnak ezek egymáshoz? 

Hogy készítsünk kisvilág-gráfot szövegekből?

Mielőtt megvizsgálnánk gráfunkat, nézzük meg hogyan készült. Vegyük az alábbi gyógypéldát.

Zoli nagyon örül, mert Nóri elvitte végre krumplilángost enni. A krumplilángos Zoli számára a legfinomabb kaja a világon és reméli, hogy Nórinak is ízlett. Zoli és Nóri legközelebb nem krumplilángost fog enni, hanem elmennek megnézni az új Avengers filmet.

Ez szótövezve és minden nem-betűtől megtisztítva, csupa kisbetűsen így néz ki kb.:

zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos fog enni hanem menni nézni az új avengers film

 

Ebből trigramokat készítünk.

zoli nagyon örül

nagyon örül mert

örül mert nóri

stb.

A gráfot a trigramokból készítjük. Két szó akkor kapcsolódik, ha együtt előfordul egy trigramban, a fenti példából az alábbi éleket kapjuk:

zoli - nagyon

zoli - örül

nagyon - örül

nagyon - mert

örül - mert

mert - nóri

stb.

Példánkból pedig az alábbi gráf generálható:

 

pelda_graf_1.png

Pontosan így készült a mi gráfunk is, egy kis megkötéssel. A trigramok elemeiből csak akkor lettek csomópontok és közöttük élek, ha mindhárom tagjuk szerepelt a leggyakoribb 1500 szó listáján. Ezzel kicsit eltértünk a tanulmányban leírt módszertől, de nem lényegesen. (A tanulmány szerzői egyrészt gyakorisági küszöböt alkalmaztak, másrészt pedig az n-gramok tagjainak együttes előfordulásának valószínűségét is nézték)

Jellemzők

A fent leírt módon generált gráf 1500 csomópontot tartalmaz, melyek között 87749 él található. A fokszámeloszlást az alábbi ábra mutatja.

fokszam.png

szomszedok.png

Jól látható, hogy egy kicsit eltérnek az adatok a klasszikus kisvilág-tulajdonságtól. Ennek oka, hogy a gráfban szerepel pár, a Wikipedia-ra jellemző szó (főleg a struktúra jelölésére használtak, ill. szerkesztéssel kapcsolatosak) melyeket nem szűrtünk ki. Ezek előfordulása gyakori, de általában ugyanolyan közegben fordulnak elő, ezért kevés szóhoz kapcsolódnak - emiatt vannak grafikonjaink "eltolva" a klasszikus kisvilágokat ábrázoló plotokhoz képest. 

Gráfunk átmérője kettő, ami megfelel Ferreri i Cancho és Solé eredményeinek. A klaszterezési együttható azonban lényegesen magasabb, 0.75, mint az általuk mért 0.69 és 0.48. Ennek oka, hogy mi erősen szerkesztett, tudományos(abb) szövegeket használtunk, még az eredeti cikk a British National Corpus-ra támaszkodott. A teljes gráf valahogy így néz ki:

full.png

Ezen a gráfon már szürke csomópontok is vannak, ezek a Zipf-görbe hosszú farkán tanyázó szavak, melyek gyakorisága alacsony, elemben sok van belőlük. Reméljük látható, hogy ezek egy-egy piros, tehát közepes gyakoriságú szó körül "csomósodnak", ez lenne a kisvilágok egyik fő jellemzője.

Fokszámra (237 vagy nagyobb) szűrtünk az alábbi ábra elkészítéséhez, hogy csak központi elemeit mutathassuk meg gráfunknak.

graph_143_l.png

Az eredeti tanulmányban ezt nevezik „core kernel”-nek, azaz központi magnak. Mi is azt tapasztaljuk, hogy a funkciószavak (itt kékkel jelölve látható többségük, nagyságuk pedig fokszámuk függvénye) alkotta rész felel a többi szóval való összeköttetésért. Aki nagyon sasol, az észreveheti, hogy a piros-kék felosztás nem fedi teljesen a funkció- és tartalomszavak felosztást, de semmi sem lehet tökéletes.

Spekuláció

Ferrer i Cancho és Solé rámutattak arra, hogy a funkciószavak nem csak összekötik az egyes szavakat, hanem tulajdonképpen a különféle szótári osztályok között ezek létesítenek kapcsolatokat. A lexikon bővülése nem esetleges, hanem a kisvilágokra jellemzően egy-egy elem köré csoportosulva történik, ezért "fürtösödik" a hálózat, ez párhuzamba állítható a nyelvelsajátítással. Amennyiben a grammatikai funkciókat ellátó funkciószavak hálózata és a tartalommal rendelkező szavak lexikonja önálló rendszerek, melyek valahogy össze lettek huzalozva, érthető hogy milyen drasztikus következményekkel járhat valamelyik alrendszer sérülése, kiesése. Habár a kisvilágok (különösen a skálafüggetlen hálózatok, mint pl. az internet) a véletlen támadásokat viszonylag jól tolerálják, a célzott, központi elemeket kiiktató hibák súlyos következményekkel járhatnak rájuk nézve. Sajnos a tanulmány nagyon érintőlegesen foglalkozik csak ezzel a kérdéssel, de a felvetés nagyon érdekes.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr167452966

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása