Barangolások a szemantikai térben

2017.04.19. 12:10 Szerző: Zoltán Varjú Címkék: adatvizualizáció R Python t-sne threejs word2vec gensim

Arra voltunk kíváncsiak, hogyan viszonyulnak egymáshoz a korábbi posztunkhoz begyűjtött korpuszban az egyes szavak, milyen szemantikai teret rajzolnak ki. Aki ismer minket, tudja, nem igazán szeretjük a puszta szógyakoriságon alapuló szófelhőket és helyettük inkább a kulcsszavakat és szógráfokat részesítjük előnyben (l. korábbi posztunkat, melyben Orbán Viktor évértékelő beszédeit elemeztük). Most azonban úgy gondoltuk, a korpusz word2vec modelljének 3D t-sne projekcióján értelmesen meg tudjuk mutatni az 1500 leggyakoribb szót és a közöttük lévő viszonyokat. Szimpla pontokból álló interaktív 3D vizunk itt érhető el, a szavakat is megjelenítő verzió pedig itt. UPDATE: Mivel a vizuk zabálják a memóriát, készítettünk egy csupán 360 szavat tartalmazó verziót is belőlük, ennek dot változata itt érhető el, a szavas változata pedit itt, 1000 szavas dot verzió, ami mutatja az adott szót ha rámegyünk egérrel pedig itt. (A nyájas olvasó figyelmét szeretnénk felhívni, hogy a vizuk nem mobilbarátok! A szófelhős verzió Windowson nem minden esetben működik. Ha túl nagy méretben jelennek meg a szavak, akkor ez az az eset.)

A korpusz magyarlánccal lemmatizált verzióján a gensim segítségével tréneltünk egy word2vec modellt, ennek 3D t-SNE projekcióját az sklearn használatával készítettük el. A szólistában végül csak mellék- és főneveket, illetve a nem azonosított elemeket hagytuk. A 3D vizukat az R threejs könyvtárával készítettük.

Az egér jobb gomját lenyomva tartva mozgatni, a bal gombot lenymva tartva pedig forgatni lehet a vizut, zoomolni pedig scrollozással lehet.

UPDATE:

1500 szó pozíciójának megjelenítése zabálja a memóriát, ezért készítettünk egy felhasználóbarátabb verziót is a vizukból. A négy oldal (444, index, origo, 888) szógyakorisági tábláiból a top 200 elemet vettük és csak ezek pozíciója kerülhetett fel. Külön színnel jelöltük a közös, illetve egy-egy oldal elemeit. Azt vettük észre, hogy így a 888 és az origo között nincs különbség, azaz nagyon egyforma szókincsük van.

A vizuk az alábbi linkeken érhetőek el:

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr1412436667

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Barangolások a szemantikai térben

2017.04.19. 12:10 Szerző: Zoltán Varjú Címkék: adatvizualizáció R Python t-sne threejs word2vec gensim

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Barangolások a szemantikai térben

2017.04.19. 12:10 Szerző: Zoltán Varjú Címkék: adatvizualizáció R Python t-sne threejs word2vec gensim

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: