Hackathon: Tweet-klasszifikáció

2016.04.14. 11:42 Szerző: jvenczeli Címkék: twitter ml gépi tanulás Twitter klasszifikáció Python hackathon machine learning scikit-learn sklearn

A hackathon keretében kísérletet tettünk a scikit-learn python package klasszifikációs eszközeinek felderítésére.
A scikit-learn lehetőséget ad arra, hogy egészen kevés kódolással gyorsan implementálhassunk gépi tanulási eszközöket pythonban. Jópár szövegklasszifikációra is alkalmas algoritmust tartalmaz, úgy mint naive bayes, maxent, SVM, decision tree, etc. A package használata viszonylag egyszerű a beépített vektorizáló függvényeknek köszönhetően, amik az adott korpusz nyers sztringjeit automatikusan az összes classifier számára emészthető formába tudják alakítani. A választott classifier ezután a kapott adat és a használt algoritmus alapján felépít egy modellt, amit újabb adatok automatikus klasszifikációjára lehet használni.

Mi a naive bayes és maximum entropy classifiereket használtuk, arra, hogy a korábban szentiment kalsszifikációhoz gyűjtött magyar twitter korpusz elemeit a posztolók neme szerint válogassuk szét. Ezután egy voter segítségével összegeztük az egyes classifierekből származó outputokat. Ez azért hasznos, mert az egyes algoritmusok más-más elven működnek, így más-más gyengeségeik és erősségeik vannak, viszont több különböző classifier használata esetén kiszűrhetjük a hibás klasszifikációkat, ha mindegyik classifier szavaz egy adott adatpontról, és a végleges outputot a szavazás eredménye határozza meg.

A kísérlethez a nyers korpuszt használtuk, minden előfeldolgozás nélkül, ami az egyes classifiereken meglepően jó, 65-70% körüli pontossággal állapította meg a tweetelők nemét. A voter használata ezt még kb. 25%-kal emelte.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr928525914

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Hackathon: Tweet-klasszifikáció

2016.04.14. 11:42 Szerző: jvenczeli Címkék: twitter ml gépi tanulás Twitter klasszifikáció Python hackathon machine learning scikit-learn sklearn

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Hackathon: Tweet-klasszifikáció

2016.04.14. 11:42 Szerző: jvenczeli Címkék: twitter ml gépi tanulás Twitter klasszifikáció Python hackathon machine learning scikit-learn sklearn

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: