HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A Hackathon GATE-es projektje

2016.03.18. 09:36 Szerző: Szabó Martina Katalin Címkék: tartalomelemzés adatelemzés szentimentelemzés emócióelemzés named entity recognition hackathon GATE

A Kaposváron rendezett céges Hackathonon az egyik részprojektünk volt, hogy a cégünk által készített magyar GATE plugint a szentiment- és emóciószótárainkkal kiegészítsük, biztosítva ezzel a magyar nyelvű szövegek automatikus szentiment- és emócióelemzését a GATE-en keresztül. Emellett arra is kísérletet tettünk, hogy az elemzést névelemek automatikus felismertetésével (named entity recognition) is kiegészítsük, gazetteerek alapján. A jelen posztban az izgalmas vállalkozás menetéről és tapasztalatairól számolunk be röviden.

Azok, akik szeretnének többet megtudni a GATE nyílt forrású nyelvfeldolgozó eszközről, tekintsék meg a szoftver honlapját itt.  

A projektet egy kisebb csapatban végeztük, a csapat munkáját Kulcsár Ádám kollégámmal hangoltuk össze. Minden csapattag nagyon kooperatív és ügyes volt, ezúton is köszönet a hatékony együttműködésért!

preview_10.jpg  

A projekthez a tesztszövegeinket először a magyarlánc eszköz segítségével mondatra bontottuk és tokenizáltuk. 

A teszteléshez olyan szövegeket kerestünk, amelyek benyomásunk szerint sok szentimentet és emóciót tartalmaznak (pl. blogszövegek). 

Ezt követően betettük a GATE-be a szentiment- és az emóciószótárainkat, majd azokat a mondatra bontott és tokenizált szövegeken működésre bírtuk. 

Ezúton jeleznénk, hogy a szótárainkat a közeljövőben szabadon elérhetővé szeretnénk tenni kutatási célokra. A szentimentszótárunk egy negatív és egy pozitív szentimentkifejezéseket tartalmazó, összesen közel 10 ezer elemből álló lexikon. Az emóciószótárunk jelenleg két verzióban létezik. Az első változatot az arcon megfigyelhető hat alapemócióra építve hoztuk létre, míg a másodikban az emóciókorpuszunk manuális annotálásának tapasztalatai alapján nyolc érzelemkategóriába rendeztük a kifejezéseket. A publikálás során mindkét változatot szeretnénk nyilvánossá tenni. 

Alább azt láthatjuk, hogyan elemezhető egy szöveg a szentimentszótárunkkal...

 

... Itt pedig az, mi történik, ha a nyolcas kategóriarendszerű emóciószótárunkat használjuk, például a bánat, a harag és az öröm kifejezéseinek megtalálására:

 

A névelem-felismerést még tovább szeretnénk fejleszteni, ugyanis a tesztelések során nem várt problémákat tapasztaltunk. Remélhetőleg azonban ez az eszköz is hamarosan bekerülhet a pipeline-ba.

 

 

 

 

   

 

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Precognox Hackathon Kaposváron

2016.03.11. 08:58 Szerző: Zoltán Varjú Címkék: adat Precognox hackathon

Kedden céges hackathont tartottunk kaposvári irodánkban. Munkatársaink négy csapatba szerveződtek és az alábbi feladatokon dolgoztak:

  • a Receptkereső legnépszerűbb receptjeinek klaszterezése a hozzávalók szerint
  • Twitter felhasználók gender klasszifikációja
  • A tanártüntetés és a választási iroda előtt tartott tüntetések Facebook oldalainak elemzése
  • A cégünk által fejlesztett magyar GATE plugin kiegészítése szentiment- és emóciószótárakkal és magyar nyelvű named entity recognition gazetteerekkel.

preview.jpg

preview_1.jpg

preview_10.jpg

preview_12.jpg

preview_13.jpg

preview_14.jpg

preview_2.jpg

preview_3.jpg

preview_4.jpg

preview_5.jpg

preview_6.jpg

preview_7.jpg

preview_9.jpg

preview_8.jpg

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szövegbányászat a Kürt Akadémián

2016.01.29. 14:07 Szerző: Zoltán Varjú Címkék: tartalomelemzés szövegbányászat emoji Python lda szenitmentelemzés

Ma a Kürt Akadémia Data Science képzésén megpróbáljuk bevezetni a hallgatóságot a szövegbányászat alapjaiba. Diáinkat lent lehet megtekinteni, a kapcsolódó Ipython notebookok, adatok és egyéb szkriptek pedig itt érhetőek el.

 

 

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ismét MSZNY-eztünk

2016.01.26. 10:30 Szerző: Szabó Martina Katalin Címkék: konferencia nyelvtechnológia Szeged számítógépes nyelvészet MSZNY

Az elmúlt héten, Szegeden, a Szegedi Tudományegyetem Informatikai Intézete ismét megrendezte a Magyar Számítógépes Nyelvészeti Konferenciát.

Természetesen mi is ott voltunk. 

Az MSZNY igazi kuriózum a hazai tudományos és szakmai konferenciák palettáján, hiszen ez az egyetlen olyan nagyszabású platform, ahol kifejezetten a nyelvtechnológiai kutatásoké és fejlesztéseké a terep. Ennek következtében az MSZNY-en évről évre összegyűlik mindenki, aki prezentálni szeretné a már elvégzett, vagy épp folyamatban lévő számítógépes nyelvészeti munkájának legaktuálisabb eredményeit, vagy éppen információkat szeretne gyűjteni a legújabb futó projektekről, ipari alkalmazásokról. 

Az idei MSZNY-t a Meltwater Kutató - Fejlesztő Kft. támogatta. A kft. magyarországi ügyvezetője, Pécsy Gábor rengeteg érdekes dolgot mesélt nekünk, többek között a cég alapításának történetéről és a jelenlegi projektjeikről. 

20160121_102148_1.jpg

 

Poszterükről azt is megtudtuk, mi a Meltwater sikerének a titka:

20160122_121333_1.jpg

 

Megfigyeltük, hogy rengetek kávé fogyott a konferencián... :)

20160122_121355_1.jpg

 

Az előadások alapvetően a gépi fordítás, a morfológiai elemzés, a beszédtechnológia, a szemantika, valamint a szentimentelemzés problémáihoz kapcsolódtak. Magunk, az Informatikai Tanszékcsoporttal kooperációban, az aspektusszinten annotált szentimentkorpuszunk létrehozásáról számoltunk be: Aspektusszintű annotáció és szentimentet módosító elemek egy magyar nyelvű szentimentkorpuszban (Szabó Martina Katalin, Vincze Veronika, Hangya Viktor). A prezentációnk írásos változata megtalálható a konferencia kötetében

A konferencián, a hagyományoknak megfelelően poszterszekció, valamint laptopos bemutatók is helyet kaptak. Az alábbi fotókat ott készítettük.

20160121_165551_1.jpg
20160121_162259_1.jpg

20160122_144759_1.jpg

20160122_144818_1.jpg

20160122_144702_1.jpg

 

A konferenciát az ún. INFRA panel keretében egy a kutatók számára szabadon hozzáférhető, komplex szövegelemző rendszer bemutatása zárta. A rendszer egy nagyszabású projekt keretében készül, több jelentős hazai kutatóhely összefogásával. Már nagyon várjuk az eredményt!

20160122_164018_1.jpg

 20160122_163914_1.jpg

 

Mi biztosan ott leszünk jövőre is!

20160122_171826_1.jpg

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kézírással Androidon

2016.01.19. 11:02 Szerző: Zoltán Varjú Címkék: kézírás Android Google Google Handwrite Nuance Swype MyScript MyScript Calculator Squid

A mobil eszközök életünk részévé váltak, annak ellenére, hogy a szövegbevitel elég körülményes rajtuk. Persze akadnak olyanok, akik rendkívül gyorsan képesek írni a hagyományos érintőképernyős billentyűzeteken, de ezek a szövegek főleg nem szerkesztett, amolyan írott beszélt nyelvi megnyilatkozások. Sokak számára megoldást jelentenek a swype technikát prediktív bevitellel ötvöző megoldások, melyeket korábban már teszteltünk. Most a legkézenfekvőbb megoldást, a kézírást mobilra átültető eszközök közül mutatunk be párat.

maxell_stylus_pen.jpg

Habár a legtöbb alkalmazás arra buzdít minket, hogy az ujjunkat használva írjunk a képernyőre, azt ki kell mondani, hogy ez nem működik, kényelmetlen, pontatlan és nekem az ujjam is elkezdett egy idő után fájni. A megoldás egy olcsó (500 - 1000 forint körüli) stylus jelentheti. Én 740 forintért vettem egy Maxell Stylus Pen-t és rögtön el is kezdtem értékelni a kézírás lehetőségét. Tényleg jó móka kézzel írni, csak nem minden esetben lehetséges, pl. a metrón félkézzel kapaszkodva, a másik kézzel a mobilt tartva a stylus elővételére sincs lehetőség. Ellenben otthon, vagy hosszabb utazás során, sokkal kényelmesebb kézzel írni leveleket, tweeteket, csetelni meg jó értelemben fura, kicsit olyan érzés, mint amikor az osztályban leveleztünk a pad alatt.

 

Google Handwrite

Messze a legjobb kézírás felismerő ma a piacon! Magyarra is elérhető, és habár az angol verziónál kicsit rosszabb, egész használható. Nekem valahogy nem ment az emojik rajzolása és a szmájlikon túl nem tudtam még felismerhetőt rajzolni neki, de elvileg ezzel is megbirkózik.

 

Swype Keyboard

A Swype-on átválthatunk kézírásra is. Az angol verzió egész jól működik, de a magyar egyszerűen még használhatatlan. Elvileg ha sokan használnák és megosztanák az adataikat, akkor javulhatna az alkalmazás által használt modell, de amíg ilyen gyatra, addig nem fogják sokan használni...

 

MyScript Stylus

Elvileg intuitív kezelőfelületével a kézírás felismerést forradalmasító appról van szó. A gyakorlatban szerintem nagyon nehézkes használni, ha hibát vétünk, akkor percekbe is telhet a javítás.

 

MyScript Calculator

Milyen menő lenne, ha a papíron végzett számításaink maguktól oldódnának meg? Kb. erre gondolhattak a MyScript Calculator megalkotói. Milyen lenne, ha ahogy leírom hogy 122 x 34 = akkor hirtelen felugrana az eredmény? Ez az app pont ezt csinálja, csak kell egy kérdőjel neki az egyenlőségjel jobb oldalára. A probléma az, hogy pl. az általam írt kérdőjelet (ahogy a videón is látszik) képtelen felismerni ez az alkalmazás. Ha hosszabb kifejezést vinnénk be, akkor a MyScript néha egyszer úgy gondolja, hogy neki ennyi elég, ad nekünk most egy eredményt és nem vár tovább. A koncepció nagyon jó, sajnos a kivitelezésen még van mit javítani.

 

Squid

A Squid a kézírásos alkalmazás. Ahhoz, hogy igazán használható legyen, a zsebünkbe kell nyúlni a bővítményekért (a pdf annotálás és a felhős szinkronizálás sajnos egyáltalán nem olcsó), de ha ezt megtesszük, akkor remek eszközt kapunk. Kifejezetten ajánlom azoknak, akik papírfecnikre jegyzetelnek és szeretik kinyomtatni az aktuálisan olvasott tanulmányokat hogy tudjanak firkálni a lapokra.

 

Október óta tesztelgetve a különböző kézírás felismerő appokat azt tudom mondani, van helye ennek a beviteli módnak. A Squid tkp. az olvasó eszközömmé vált és nyugodt körülmények között gyakran átváltok Google Handwrite beviteli módra. Ugyanakkor nem hiszem, hogy a megszokott pötyögést le tudja váltani ez a módszer, maximum hasznos kiegészítője lehet annak.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása