HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Szövegbányászat a Kürt Akadémián

2016.01.29. 14:07 Szerző: zoltanvarju Címkék: tartalomelemzés szövegbányászat emoji Python lda szenitmentelemzés

Ma a Kürt Akadémia Data Science képzésén megpróbáljuk bevezetni a hallgatóságot a szövegbányászat alapjaiba. Diáinkat lent lehet megtekinteni, a kapcsolódó Ipython notebookok, adatok és egyéb szkriptek pedig itt érhetőek el.

 

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ismét MSZNY-eztünk

2016.01.26. 10:30 Szerző: Szabó Martina Katalin Címkék: konferencia nyelvtechnológia Szeged számítógépes nyelvészet MSZNY

Az elmúlt héten, Szegeden, a Szegedi Tudományegyetem Informatikai Intézete ismét megrendezte a Magyar Számítógépes Nyelvészeti Konferenciát.

Természetesen mi is ott voltunk. 

Az MSZNY igazi kuriózum a hazai tudományos és szakmai konferenciák palettáján, hiszen ez az egyetlen olyan nagyszabású platform, ahol kifejezetten a nyelvtechnológiai kutatásoké és fejlesztéseké a terep. Ennek következtében az MSZNY-en évről évre összegyűlik mindenki, aki prezentálni szeretné a már elvégzett, vagy épp folyamatban lévő számítógépes nyelvészeti munkájának legaktuálisabb eredményeit, vagy éppen információkat szeretne gyűjteni a legújabb futó projektekről, ipari alkalmazásokról. 

Az idei MSZNY-t a Meltwater Kutató - Fejlesztő Kft. támogatta. A kft. magyarországi ügyvezetője, Pécsy Gábor rengeteg érdekes dolgot mesélt nekünk, többek között a cég alapításának történetéről és a jelenlegi projektjeikről. 

20160121_102148_1.jpg

 

Poszterükről azt is megtudtuk, mi a Meltwater sikerének a titka:

20160122_121333_1.jpg

 

Megfigyeltük, hogy rengetek kávé fogyott a konferencián... :)

20160122_121355_1.jpg

 

Az előadások alapvetően a gépi fordítás, a morfológiai elemzés, a beszédtechnológia, a szemantika, valamint a szentimentelemzés problémáihoz kapcsolódtak. Magunk, az Informatikai Tanszékcsoporttal kooperációban, az aspektusszinten annotált szentimentkorpuszunk létrehozásáról számoltunk be: Aspektusszintű annotáció és szentimentet módosító elemek egy magyar nyelvű szentimentkorpuszban (Szabó Martina Katalin, Vincze Veronika, Hangya Viktor). A prezentációnk írásos változata megtalálható a konferencia kötetében

A konferencián, a hagyományoknak megfelelően poszterszekció, valamint laptopos bemutatók is helyet kaptak. Az alábbi fotókat ott készítettük.

20160121_165551_1.jpg
20160121_162259_1.jpg

20160122_144759_1.jpg

20160122_144818_1.jpg

20160122_144702_1.jpg

 

A konferenciát az ún. INFRA panel keretében egy a kutatók számára szabadon hozzáférhető, komplex szövegelemző rendszer bemutatása zárta. A rendszer egy nagyszabású projekt keretében készül, több jelentős hazai kutatóhely összefogásával. Már nagyon várjuk az eredményt!

20160122_164018_1.jpg

 20160122_163914_1.jpg

 

Mi biztosan ott leszünk jövőre is!

20160122_171826_1.jpg

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kézírással Androidon

2016.01.19. 11:02 Szerző: zoltanvarju Címkék: kézírás Android Google Google Handwrite Nuance Swype MyScript MyScript Calculator Squid

A mobil eszközök életünk részévé váltak, annak ellenére, hogy a szövegbevitel elég körülményes rajtuk. Persze akadnak olyanok, akik rendkívül gyorsan képesek írni a hagyományos érintőképernyős billentyűzeteken, de ezek a szövegek főleg nem szerkesztett, amolyan írott beszélt nyelvi megnyilatkozások. Sokak számára megoldást jelentenek a swype technikát prediktív bevitellel ötvöző megoldások, melyeket korábban már teszteltünk. Most a legkézenfekvőbb megoldást, a kézírást mobilra átültető eszközök közül mutatunk be párat.

maxell_stylus_pen.jpg

Habár a legtöbb alkalmazás arra buzdít minket, hogy az ujjunkat használva írjunk a képernyőre, azt ki kell mondani, hogy ez nem működik, kényelmetlen, pontatlan és nekem az ujjam is elkezdett egy idő után fájni. A megoldás egy olcsó (500 - 1000 forint körüli) stylus jelentheti. Én 740 forintért vettem egy Maxell Stylus Pen-t és rögtön el is kezdtem értékelni a kézírás lehetőségét. Tényleg jó móka kézzel írni, csak nem minden esetben lehetséges, pl. a metrón félkézzel kapaszkodva, a másik kézzel a mobilt tartva a stylus elővételére sincs lehetőség. Ellenben otthon, vagy hosszabb utazás során, sokkal kényelmesebb kézzel írni leveleket, tweeteket, csetelni meg jó értelemben fura, kicsit olyan érzés, mint amikor az osztályban leveleztünk a pad alatt.

 

Google Handwrite

Messze a legjobb kézírás felismerő ma a piacon! Magyarra is elérhető, és habár az angol verziónál kicsit rosszabb, egész használható. Nekem valahogy nem ment az emojik rajzolása és a szmájlikon túl nem tudtam még felismerhetőt rajzolni neki, de elvileg ezzel is megbirkózik.

 

Swype Keyboard

A Swype-on átválthatunk kézírásra is. Az angol verzió egész jól működik, de a magyar egyszerűen még használhatatlan. Elvileg ha sokan használnák és megosztanák az adataikat, akkor javulhatna az alkalmazás által használt modell, de amíg ilyen gyatra, addig nem fogják sokan használni...

 

MyScript Stylus

Elvileg intuitív kezelőfelületével a kézírás felismerést forradalmasító appról van szó. A gyakorlatban szerintem nagyon nehézkes használni, ha hibát vétünk, akkor percekbe is telhet a javítás.

 

MyScript Calculator

Milyen menő lenne, ha a papíron végzett számításaink maguktól oldódnának meg? Kb. erre gondolhattak a MyScript Calculator megalkotói. Milyen lenne, ha ahogy leírom hogy 122 x 34 = akkor hirtelen felugrana az eredmény? Ez az app pont ezt csinálja, csak kell egy kérdőjel neki az egyenlőségjel jobb oldalára. A probléma az, hogy pl. az általam írt kérdőjelet (ahogy a videón is látszik) képtelen felismerni ez az alkalmazás. Ha hosszabb kifejezést vinnénk be, akkor a MyScript néha egyszer úgy gondolja, hogy neki ennyi elég, ad nekünk most egy eredményt és nem vár tovább. A koncepció nagyon jó, sajnos a kivitelezésen még van mit javítani.

 

Squid

A Squid a kézírásos alkalmazás. Ahhoz, hogy igazán használható legyen, a zsebünkbe kell nyúlni a bővítményekért (a pdf annotálás és a felhős szinkronizálás sajnos egyáltalán nem olcsó), de ha ezt megtesszük, akkor remek eszközt kapunk. Kifejezetten ajánlom azoknak, akik papírfecnikre jegyzetelnek és szeretik kinyomtatni az aktuálisan olvasott tanulmányokat hogy tudjanak firkálni a lapokra.

 

Október óta tesztelgetve a különböző kézírás felismerő appokat azt tudom mondani, van helye ennek a beviteli módnak. A Squid tkp. az olvasó eszközömmé vált és nyugodt körülmények között gyakran átváltok Google Handwrite beviteli módra. Ugyanakkor nem hiszem, hogy a megszokott pötyögést le tudja váltani ez a módszer, maximum hasznos kiegészítője lehet annak.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kenny Baker a Star Wars Kevin Baconje? Minden film happy enddel zárul?

2015.12.17. 10:52 Szerző: morvaygergo Címkék: Star Wars hálózatelemzés szenitmentelemzés

Mi kell egy hálózattudományi elmélet megszületéséhez? Nem több, mint hogy egy viharos téli estén a televízió egymás után levetítse a Gumiláb és az Afrika csúcsai című filmeket, és hogy három amerikai egyetemista megnézve ezeket elkezdjen azon spekulálni, hogy Kevin Bacon annyi filmben szerepelt már, hogy talán nincs is olyan hollywoodi színész, akivel ne játszott volna együtt. Ez persze nem igaz, de egy kis kutatást és matematikát téve az ötlet mögé az Erdős-szám mintájára megszületett a Bacon-szám.

 

 

 

Az Erdős-számot Casper Goffmann definiálta 1969-es „And what is your Erdős number?” című cikkében, és egy hasonló megfigyelésen alapul, mégpedig azon, hogy a legendásan termékeny magyar származású matematikus, Erdős Pál oly sokat publikált élete folyamán (kb. 1525 cikk) és olyan sokféle területen alkotott, hogy lehetséges és érdemes a matematikusokat és a többi természettudóst az alapján osztályozni, hogy milyen messze állnak Erdőstől egy publikációs láncolatban. Ez alapján Erdős Pál Erdős-száma 0, hiszen ő az elmélet origója. Azok a tudósok, akik publikáltak közösen Erdőssel, 1-es Erdős-számot kapnak, azok, akik egy olyan tudóssal publikáltak, akik publikáltak Erdőssel, a 2-est, és így tovább. Általánosítva, mindenkinek eggyel nagyobb az Erdős-száma, mint a legkisebb Erdős-számú szerző, akivel együtt publikált.

 

Kevin Bacon és a hollywoodi színészek esetében ez ugyanígy működik, csak ebben az esetben természetesen az számít, hogy ki kivel játszott egy filmben. Az már csak egy tudománytörténeti esetlegesség, hogy a számot pont Bacon-számnak hívják, mert míg Erdős a matematikatörténet legtermékenyebb szerzője, aki közel kétszer annyit publikált, mint a második helyezett Euler, Kevin Bacon nem a legközpontibb figurája a Hollywoodnak. Ha a színészek egymástól való távolságát nézzük, Kevin Bacon a 2,79-es értéket kapja, amivel a 876. helyet érdemli csak ki, míg az első helyezett Rod Steiger átlagos távolsága a többi színésztől 2,53.

 

De hogy jön ide Kenny Baker? Hát úgy, hogy kollégáinkat érdekelte, hogy ki a Star Wars-univerzum Kevin Baconje, ezért összegyűjtötték a régi és az új trilógia szereplőgárdáját és ábrázolták azokat egy gráfon. Hogy ne legyen átláthatatlanul sok csomópont, itt csak azokat jelenítettük meg, akik legalább két filmben szerepeltek. Két színész között akkor jön létre kapcsolat, ha ugyanabban a Star Wars filmben játszottak, és minél több közös filmben szerepeltek, annál erősebb az él közöttük. Az így létrejövő gráfon világosan látszik, hogy eléggé elkülönül egymástól a két trilógia stábja (ami annyira nem is meglepő annak a fényében, hogy a VI. és az I. epizód bemutatása között 16, a IV. és a III. epizód bemutatása között pedig 28 év telt el). Vannak azonban összekötő kapcsok, ha nem is sok. Ők azok a csomópontok, akik középen állnak és a legnagyobbak, ezzel jelezve, hogy nekik van a legtöbb kapcsolatuk a többi csomóponttal.

 

 

degree8.png

A legalább két Star Wars filmben szereplő színészek hálózata, csúcsok nagysága PageRank szerint

 

 

Összesen négy olyan karakter van, aki az eddigi mind a hat filmben megjelent: Anakin Skywalker, Obi-Wan Kenobi, C-3PO és R2-D2. (Ez a tény egyébként számos kérdést felvet, például azt, hogy miként lehetséges az, hogy a két droid, akik már gyerekkorától kezdve ismerik Anakint és végigasszisztálták a szerelmét Padméval, a gyermekeik születését és az ő Darth Vaderré válását, ezt a tényt mintha csodálatos módon elfelejtenék a régi trilógia idejére, és nem figyelmeztetik erre szegény Luke-ot és Leiát.) Anakint és Obi-Want azonban más-más színészek játsszák fiatalon és öregen, így ők nem tudnak ilyen központi helyet elfoglalni ezen az ábrán. A két droidot viszont mind a hat (sőt, lasan már hét!) filmben ugyanazok a színészek keltették életre: Anthony Danielst rejti C-3PO, Kenny Bakert pedig R2-D2 valószínűleg roppant kényelmetlen fémkosztümje. Kenny Baker ráadásul még Paploot, az ewokot is eljátssza a VI. részben, így kis csalással (hiszen szempontunkból ez irreleváns), de őt hoztuk ki győztesként, aki megérdemli a Star Wars-univerzum Kevin Baconje megtisztelő címet. A valóságban azonban ez Anthony Danielst is ugyanolyan joggal megilleti, hiszen mindketten játszottak egy filmben a Star Wars hexalógia összes létező szereplőjével.

 

A második helyen természetesen a Yodát játszó Frank Oz és a Palpatine szenátort játszó Ian McDiarmid osztozik, akik mindketten öt filmben jelentek meg a hatból (mindkettejüket a IV. részből kell hiányolnunk) utóbbi azzal a megszorítással, hogy az V. résznek csak a DVD-kiadásában szerepel. Őket követi a Chewbaccát alakító Peter Mayhew és a Jango Fettet, és így a klónokat is játszó Temuera Morrison. Utánuk azonban már meglepőbb neveket láthatunk: összekötő kapocsként szerepel, mivel mindkét trilógiában megjelenik például Ben Burtt, a filmek hangmérnöke, Lorne Peterson bábkészítő vagy Rick McCallum producer. Ők mindannyian egy-egy cameot kaptak az I. és a IV. epizódban, ami ugyebár csak két film, ám ebben a hálózatban mégis központibb helyre kerültek ezáltal, mint a trilógiák olyan központi szerepeit játszó színészek, mint például Carrie Fisher vagy Samuel L. Jackson.

 

Ezekből a példákból egyértelműen látszik, hogy a Star Wars filmek hálózatában nem a vásznon töltött idő, a szerep nagysága vagy a színészi kvalitások számítanak, csupán az, hogy az ember megjelenjen legalább egy filmben a régi és az új trilógiában is. A többi szereplő trilógiánként elkülönülve áll egymással sűrű összeköttetésben, mintha külön filmekről lenne szó. Pedig az univerzum egy, a történet is folytatólagos, csupán a filmek készítése között telt el néhány évtized. Feszülten várjuk, hogy a legújabb trilógia vajon miként fogja átrendezni ezeket az erőviszonyokat, és bár azt nem tartjuk valószínűnek (vagy talán csak a gondolatától is félünk), hogy R2-D2 vagy C-3PO ne lenne továbbra is központi figurája a filmeknek, a második-harmadik helyekre még bejelentkezhetnek visszatérő szereplők akár a régi, akár az új trilógiából.

 

A leguniverzálisabb szereplője a hálózatnak azonban kétségkívül a Padmét játszó Natalie Portman, akinek a Baker-száma természetesen 1, a Bacon-száma 2, az Erdős-száma pedig 5, mivel a Harvardon pszichológia PhD-t szerezve számos tudományos publikációt írt, amivel kiérdemelt egy, a tudományos körökben egyáltalán nem rossznak számító eredményt (a 134 ezer matematikus között, akik Erdős-számmal rendelkeznek, a mediánérték 5).

 

Az IMSDb adatbázisában található forgatókönyveket automatikusan jelenetekre bontottuk, majd Hu és Liu szentimentszótárával elemeztük is. Az alábbi hat ábrán az egyes epizódok jeleneteinek szentimentértékét mutatjuk. Az ábrákat Szűcs Krisztina készítette egy másik (hamarosan megjelenő!) projektünkhöz amolyan előtanulmányként. Minden egyes kis oszlop egy jelenetet jelöl. A rózsaszín oszlopok a negatív szentimentű jeleneteket mutatják, a kék oszlopok pedig a pozitívakat. Minél mélyebbre nyúlik egy rózsaszín oszlop, annál negatívabb, és minél magasabbra egy kék, annál pozitívabb az adott jelenet. A semleges jeleneteknél nem emelkedik ki semmilyen oszlop.

eeg_ep1.png

I. epizód jeleneteinek szentimentértékei

 

eeg_ep2.png

II. epizód jeleneteinek szentimentértékei

 

eeg_ep3.png

III. epizód jeleneteinek szentimentértékei

 

eeg_ep4.png

IV. epizód jeleneteinek szentimentértékei

 

eeg_ep5.png

V. epizód jeleneteinek szentimentértékei

 

eeg_ep6.png

VI. epizód jeleneteinek szentimentértékei

 

Általánosságban elmondható, hogy a Star Wars epizódokat inkább a negatív szentiment jellemzi, ami különösen igaz a régi trilógia epizódjaira (IV., V. és VI. epizód). A legnegatívabbnak az V. és a VI. epizód, a legpozitívabbnak pedig a II. epizód mondható. A happy end nyomai után keresgélve azt találjuk, hogy az I., III. és V. epizód zárul pozitív vagy semleges jelentekkel, bár mindegyik film vége felé találhatunk pozitív jeleneteket is, azaz legalább az epizódok fele zárul "happy enddel" a szkriptelemzés alapján.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Emotikonok a magyar tweetekben

2015.12.10. 10:31 Szerző: jvenczeli Címkék: twitter emotikon Twitter emoji Zipf törvény power-law

A twitteren zajló kommunikációnak fontos kiegészítői az emotikonok, hiszen kevés karakterrel, viszonylag komplex, szavakkal nehezen megragadható jelentéstartalmakat lehet velük közvetíteni. Emiatt fontos szerepük lehet a tweetek automatizált feldolgozásában is, például ha érzelmi töltés szerint szeretnék klasszifikálni az egyes posztokat. De mégis milyen emotikonokat használnak a magyar twitterezők? Mielőtt megválaszolnánk ezt a kérdést, gyorsan tisztázzuk, hogy mi mindenre gondolhatunk, amikor emotikonokról beszélünk!

emoticon.jpg

Az emotikonok (emotion + icon) valamilyen arckifejezés reprezentációi különböző betűkből és más írásjelekből felépítve. A nyugaton elterjedt emotikonok általában kilencven fokban elfordítva értelmezendők - pl :c vagy ;-) - és sok felületen automatikusan kis képekre, “emojik”-ra cserélődnek, amiknek külön unicode karakterek felelnek meg. Az emoji szó egyébként japán eredetű, és csak véletlenül hasonlít az emoticonra, eredetileg kb. “kép-karakter”-t jelent. A legtöbb emoji nem is hordoz különösebb érzelmi töltést.
A keleti online kommunikáció szülöttei a “kaomoji”-k (kb. “arc-karakter”), amik elfordítás nélkül értelmezhetőek és általában sokkal több karakterből állnak, mint a nyugati emotikonok. A kaomojik szemantikai elemzése nem egyszerű feladat, mivel meglehetősen nagy teret engednek a felhasználók kreativitásának, és gyorsan fejlődnek. Egyelőre a nyugati online életben csak kevés honosodott meg, a magyar twitterezők pedig csak elvétve használnak kaomojikat, és akkor is csak egyszerűbbeket. (“⌒◞౪◟⌒”)/♫•*¨*•.¸¸♪

A twitter megjeleníti az emojikat, de egyik emoticont sem változatatja át automatikusan, ezért a felhasználók kedvükre váltogathatnak az emotikon típusok közt. Íme a 30 leggyakoribb emoji és nem-emoji emoticon, ~55000 magyar tweet alapján:

           

* (A számlálásnál azonosnak tekintettem azokat az emotikonokat, amiknek az utolsó karaktere kétszer, vagy annál többször szerepelt. Ezeket jelzi a három pont.)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Nagy korpuszok különös tulajdonsága, hogy a bennük előforduló szavak gyakorisága egy jellegzetes eloszlást követ. Függetlenül attól, hogy milyen nyelvet tekintünk, minden szó összes előfordulása fordítottan arányos azzal, hogy hányadik leggyakoribb a szó a korpuszban. Például a második leggyakoribb szó fele annyiszor fordul elő, mint az első, a tizedik leggyakoribb pedig tized annyiszor. A jelenséget Zipf-törvénynek, vagy Zipf-eloszlásnak nevezzük George Kingsley Zipf után, aki nyelvészként tevékenykedett a huszadik század elején. Zipf úgy vélte, ez a törvényszerűség valamilyen módon az emberi természetből fakad, de talán túlzás ezt feltételezni, mivel azóta számos más, kevésbé humán-spcifikus területen is megfigyelték. Többek között véletlenszerűen generált betűsalátákban.

De mi köze van mindennek az emotikonokhoz? A fenti két táblázatban látszik, hogy az egyes emotikonok gyakorisága ütemesen csökken, ahogy a sorszámok növekednek. Felmerül a kérdés, hogy itt is megfigyelhető-e Zipf-törvénye. A Zipf-eloszlást követő adatok egy log-log skálán jellemezően egy egyenes mentén rendeződenk. Valahogy így:

 

Az ábrákon az látható, hogy adott gyakoriság-oszályba tartozó emotikonok összesen hányszor fordultak elő, osztva az összes emotikon-előfordulással. Bár a pontok nem illeszkednek tökéletesen egy egyenesre, úgy tűnik az emotikonok gyakoriságeloszlása meglehetősen hasonlít a normál szavakéra.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre