Topik modellek és word2vec

2017.05.30. 07:18 Szerző: Zoltán Varjú Címkék: tartalomelemzés lda topik modellek deep learning word2vec lda2vec

Egy korpuszunkon kipróbáltuk az lda2vec algoritmust, mert már nem bírtuk tovább. Jelentjük, nem is olyan rossz az eredmény! Itt meg is lehet nézni!

Christopher E. Moody Mixing Dirichlet Topic Models and Word Embeddings to Make lda2vec tanulmányát megjelenése óta imádjuk és párszor már használtuk is az általa implementált változatát. Most egy kicsit belekontárkodtunk a kódba (pl. Chainer helyett mi Keras-t használunk), hogy a tüntetések, és a CEU-ügy kapcsán megjelent cikkeket tartalmazó korpuszunkat elemezhessük.

De miért?

Itt már megírtuk, hogy az LDA két külön topikba pakolta az jobb- és baloldali lapokban ugyanazon témában megjelenő cikkeket. A korpuszon trénelt word2vec modell azonban azt mutatja, hogy az eltérő kifejezések, mint pl. CEU és a Soros-egyetem nagyon hasonló helyet foglalnak el a szemantikai térben. Nem gondoljuk, hogy az LDA rossz, mert a két eltérő narratíva bezavarta. Ellenben arra voltunk kíváncsiak, hogy a word embeddings-re alapozott topik modell képes-e ezen túllépni. Számításunk bejött! Habár még sokat kell pofozni a modellen, de a prototípusra kapott pyldaviz vizu megtekinthető itt.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr3612549489

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Topik modellek és word2vec

2017.05.30. 07:18 Szerző: Zoltán Varjú Címkék: tartalomelemzés lda topik modellek deep learning word2vec lda2vec

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Topik modellek és word2vec

2017.05.30. 07:18 Szerző: Zoltán Varjú Címkék: tartalomelemzés lda topik modellek deep learning word2vec lda2vec

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: