Nyelvazonosítás

2014.08.11. 07:33 Szerző: Zoltán Varjú Címkék: nyelvtechnológia R Python nyelvazonosítás

A nyelvazonosítás problémája elsőre nem tűnik nehéznek. Az ember egyszerűen felismeri hogy különböző nyelveket hall vagy éppen olvas, még akkor is, ha nem ismeri ezen nyelveket. De mi a helyzet a gépekkel? Mivel politikai blogokat elemző projektünk során felmerült a magyar tartalmak azonosításának problémája alaposabban megvizsgáltuk az elérhető eszközöket az R és Python nyelvekben is.

A fenti számban tökéletesen el tudjuk különíteni a francia és a bambara nyelvet, de hogy miért, azt már nagyon nehezen tudjuk megmagyarázni. A nyelvre - legnagyobb sajnálatunkra - jellemző, hogy tudása ösztönösen, magától jön, ezért a nyelvtechnológus sokszor inkább valamilyen gyors megoldást keres és nem a nyelvtudást modellezi. A nyelvazonosítás során is így járnak el a modern eszközök, melyek a TextCat program köpönyegéből bújtak ki.

A TextCat elsők között szakított azzal, hogy bármilyen nyelvészeti információt próbáljon megtudni az elemzett szövegről. Ehelyett ún. n-gram karakter modellekkel dolgozott, azaz egy-egy nyelvből korpuszok segítségével előállították az n hosszúságú karaktersorok eloszlását. A kapott nyelvmodellhez hasonlít a program minden inputot és megpróbálja megtalálni melyik eloszláshoz közelít.

textcat - a state-of-the-art algoritmus R-ben van implementálva

A textcat (így csupa kisbetűvel) a jelenleg elérhető legjobb nyelvazonosító könyvtár. A hagyományos karakter alapú nyelvmodellek készítését gondolták újra megalkotói, illetve a korral haladva jelentősen megnövelték a modell nagyságát is, s evvel igen nagy hatékonyságot értek el. A textcat mögötti elméleti megfontolásokról a készítők tanulmányából lehet többet is megtudni, mi itt csak azt emeljük ki, hogy viszonylag nehéz "megfektetni" az eszközt. Miképp az alábbi ábra is mutatja, külön nyelvtudományi vita tárgya lehetne hogy a szerb-horvát-bosnyák hármas keverése hibának tekinthető-e, vagy hogy a skandináv nyelvekkel mit kezdjünk.

2014-08-10 18.31.07.png

A szerzők hierarchikusan klaszterezték hogy a modellek összevetése során miképp alakulnak a tippek, ebben látható hogy a valenciai és a katalán pl. nagyon hamar kerül egymás mellé. A tudománytalan nyelvrokonítási kísérletek híveinek pedig ajánlom a magyar-breton és magyar-baszk rokonság megfontolását, karakter n-gramokra alapozva lehet mellette érvelni!

2014-08-09 19.32.34.png

langid.py - a pythonisták válasza a nyelvazonosításra

A langid.py alkotói a hagyományos megoldást választották, de nagy gondot fordítottak a tréningadatokra és arra, hogy sok nyelvet legyen képes felismerni eszközük.

2014-08-10 18.44.26_1.png

A kiértékelés során nagyon szép eredményeket ért el a langid.py Az, hogy 97 nyelvet képes felismerni, igazi, rögtön bevethető könyvtárrá teszi, amit minden pythonista tud használni, előzetes nyelvtechnológiai ismeretek nélkül is. Akit érdekel hogyan készült az eszköz, az mindenképpen olvassa el megalkotóinak tanulmányát!

Verdiktet nem mondunk. Mindkét eszköz nagyon jó - hogy ki melyiket használja, az ízlés és megszokás kérdése.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr976592859

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

¿Qué tapas hay? 2014.08.12. 19:45:37

Értem én, hogy villanymozdony, de mi hajtja?

A szerző valószínűleg ért a szakmájához, de a fogalmazás nem az erőssége. Szakdolgozatban ez elégtelent érne.

Válasz erre

HellsAngel 2014.08.13. 00:43:45

@¿Qué tapas hay?: Egy blogbejegyzesen a szakdolgozatisagot szamon kerni szerintem hiba. Foleg, ha a nagykozonsegnek keszul, abbol a celbol, hogy a cimlapra repitse az alkotojat. Ebben az esetben csupan lehengerlonek kell lennie, hogy az olvaso kapkodja a fejet, hogy hu, mik vannak, de gondolkodnia nehogy kelljen, mert attol butanak erzi magat es megharagszik. Minden erdekes megfigyeles csupan bosszanto uri huncutsag, minden leirt keplet csupan felvagas.

Válasz erre

pythonozok · http://visszabeszelo.blog.hu 2015.03.02. 16:33:28

Ha a szerző ide tévedne... minap valamelyik ismeretterjesztő csatornán arról folyt a szó, hogy matematikai módszerrel ki lehet mutatni egy szövegről, hogy értelmes szöveg vagy halandzsa.
Sajnos csak annyit kaptam el belőle, hogy a szavak gyakoriságát elemzik valami viszonylag primitív algoritmussal és ha az így kapott értékekből grafikont készítenek, akkor értelmes szöveg esetében egy 45 fokos egyenes lesz az eredmény.
Ismerős a módszer? Hol lehetne ennek utánanézni, hogy mennyi a valóság alapja, hogy működik stb.?

Válasz erre

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Nyelvazonosítás

2014.08.11. 07:33 Szerző: Zoltán Varjú Címkék: nyelvtechnológia R Python nyelvazonosítás

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

¿Qué tapas hay? 2014.08.12. 19:45:37

HellsAngel 2014.08.13. 00:43:45

pythonozok · http://visszabeszelo.blog.hu 2015.03.02. 16:33:28

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Nyelvazonosítás

2014.08.11. 07:33 Szerző: Zoltán Varjú Címkék: nyelvtechnológia R Python nyelvazonosítás

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek:

¿Qué tapas hay? 2014.08.12. 19:45:37

HellsAngel 2014.08.13. 00:43:45

pythonozok · http://visszabeszelo.blog.hu 2015.03.02. 16:33:28