HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Dec. 18. Évadzáró NLP meetup

2014.12.15. 07:25 Szerző: zoltanvarju Címkék: Neticle NLP meetup Precognox Kilgray

Évadzáró meetupunkat csütörtökön (december 18-án) tartjuk, a szokott helyen (Colabs-Buda) 18:00-tól. Érdemes eljönni, mert februárig kell várni a következőre! A részvétel továbbra is ingyenes, de arra kérünk mindenkit, hogy regisztráljon az esemény oldalán.

logo9_final.jpg

Az évad utolsó rendezvényén nyelvtechnológiai cégek mesélik el hogyan indultak, milyen nehézségekkel kellett szembenézniük és képet kaphatunk arról milyen is az az igazán nagybetűs élet ebben a világban. A bemutatkozók:

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

NLP nap a Precognoxnál - avagy mit is csinálunk mi?

2014.12.12. 21:35 Szerző: zoltanvarju Címkék: nyelvtechnológia Precognox

Ma kutatói napot tartottunk, amin megbeszéltük az aktuális projekteket és jövő évi terveinket. Sokan szokták kérdezni, hogy mivel is foglalkozunk, hogyan dolgozunk - ami ebből nyilvános, azt megtaláljátok alábbi diáinkban (ígérjük, idén már nem lesz több slideos poszt!).

nlp_team.jpg

Az idei év legfontosabb változása az, hogy immár egy komplett csapat foglalkozik NLP és gépi tanulás K+F projektekkel, őket láthatjátok a fenti képen (balról jobbra Szabó Martina, Kása Károly, aki a fejlesztési vezetőnk, Varjú Zoltán, Balogh Kitti, Morvay Gergő). A kutatói napon munkatársaink összefoglalták hogy milyen projekteken dolgoznak éppen.

 

Szabó Martina nyelvész szakértőnk 2014 márciusában csatlakozott csapatunkhoz és azóta már több projektünkben is aktívan részt vett. Fő kutatási területe a szentiment- és emócióelemzés , amiben Morvay Gergő gyakornokunk segíti őt. Martinának köszönhetően cégünk egyre gyakrabban jelenik meg tudományos konferenciákon és a szakma publikációiból is megismerheti ezen projektünket.

 

Balogh Kitti statisztikusunk 2014 márciusában csatlakozott csapatunkhoz és több projektben is bizonyított már cégünknél. Amennyire fontos a tesztelés a szoftverfejlesztésben, legalább annyira fontos a gépi tanulási algoritmusok kiértékelése. Célunk, hogy munkánk része legyen a kiértékelés és minden olyan projektünk esetében a használt modellek kiválasztásától kezdve a végtermék kiértékeléséig szigorú metodológia mentén járjunk el, Kitti ebben segíti munkánkat.

 

A politikai blogokkal kapcsolatos sorozatunkat lelkes olvasóink már ismerhetik. Kitti a tartalomelemzés és a linkanalízis összekapcsolását kitűző projektünkkel kapcsolatos terveit is ismertette.

 

2015-ben izgalmas feladatok várnak ránk, ígérjük mindenről beszámolunk majd (ami nyilvános).

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A LingDokKonf 18. diái

2014.12.09. 08:26 Szerző: Szabó Martina Katalin Címkék: konferencia szentimentelemzés LingDok

A Szegedi Tudományegyetem Nyelvtudományi Doktori Iskolája minden évben meghirdeti a Nyelvészdoktoranduszok Országos Konferenciáját. A tizennyolcadik LingDok konferenciára 2014. november 20-án és 21-én került sor, az SZTE Bölcsészettudományi Karának Konferenciatermében. 

A konferencián "A magyar nyelvű szövegek szentimentelemzésének dilemmái, különös tekintettel a szentimentsifterek kezelésére" címmel tartottam előadást, amelyben igyekeztem a szentimentelemzés NLP-feladatát a kardinális elméleti problémák felől is megvizsgálni.

Az előadás diáit ebben a posztban közzé is tesszük. Továbbra is örömmel fogadunk minden észrevételt, kérdést és ötletet azoktól, akik hozzánk hasonlóan rendkívül izgalmas és nagy kihívást jelentő kutatási témának tekintik a szentimentek kivonatolását a magyar nyelvű szövegekből! 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A novemberi NLP meetup diái

2014.11.29. 11:19 Szerző: zoltanvarju Címkék: meetup nyelvtechnológia NLP meetup

A csütörtöki meetupon valószínűleg rekord látogatottságot értünk el, köszönet Recski Gábor szervezőnek, az előadóknak és persze nektek kedves tagok! A diákat megtaláljátok alább:

Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei 

Simon Eszter: Szekvenciális elemzők: a hunner és a hunchunk

 

 

Miháltz Márton: Közösségimédia-szövegek feldolgozásához adaptált Hun* eszközök 

 

 

Orosz György: Egy adaptálható morfológiai egyértelműsítő rendszer

 

Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

 

 Farkas Richárd: Információk automatikus kiemelése magyar nyelvű szövegekből 

 

Pólya Tibor: Regresszív Képzeleti Szótár - Narratív kategorikus tartalomelemzés 

Szekeres Péter: Webes vélemények egyetlen grafikonba sűrítve 

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

NLP eszközök magyarra - Nov. 27. NLP meetup

2014.11.25. 07:42 Szerző: zoltanvarju Címkék: meetup NLP meetup

November 27-én tartjuk következő meetupunkat, 18:00 kezdéssel, a megszokott Colabs-ben. Továbbra is ingyenes a rendezvény, de arra kérünk mindenkit, regisztráljon és jelezze részvételét meetup oldalunkon. Mivel sokan kérték, hogy mutassuk be a magyar nyelvre elérhető eszközöket, Recski Gábor szervezőtársam összeszedte ezeket nektek és készítőik ötperces bemutatókon keresztül ismertetik is ezeket.

logo9_final.jpg

A program:

Simon Eszter (MTA Nyelvtudományi Intézet): 

A hun* eszközlánc szószintű feldolgozó eszközei
 

A hun* eszközláncot a BME MOKK fejlesztői hozták létre azzal a céllal, hogy segítségükkel természetes nyelvi szövegeket lehessen feldolgozni a legalapvetőbb lépésektől akár a magasabb szintű elemzésekig. Az előadásban bemutatjuk a huntokent, amely a bemenő szabad szöveget alapegységekre (szavakra és mondatokra) bontja. Aztán szó lesz a hunmorphról és a hunposról, amelyekkel a már szóként azonosított egységekhez komplett és egyértelmű morfológiai elemzést rendelhetünk, amely az olyan erősen ragozó nyelveknél, mint a magyar a következő nyelvfeldolgozó lépések fontos előfeltétele. 

Szekvenciális elemzők: a hunner és a hunchunk 

A címben szereplő eszközök a hun* eszközláncnak olyan elemei, amelyek nem szószintű elemzést hajtanak végre, hanem nyelvi elemek szekvenciáit azonosítják be. A háttérrendszer ugyanaz minden szekvenciális címkézési feladathoz, de eddig két területre alkalmaztuk: tulajdonnév-felismerésre (named entity recognition) és sekély szintaktikai elemzésre (chunking). Az előadásban elsősorban azt mutatjuk be, hogy a rendszer hogyan használható erre a két feladatra. 


Miháltz Márton (MTA Nyelvtudományi Intézet): 

Közösségimédia-szövegek feldolgozásához adaptált Hun* eszközök
 

A Facebookon publikusan elérhető posztok és kommentek szövegei remek forrást nyújtanak véleményelemzéshez, viszont a sztenderd írott nyelvtől eltérő nyelvezet kihívás elé állítja az elérhető magyar NLP eszközöket. Bemutatjuk a huntoken, hunmorph és hunpos eszközökhöz készült, SM nyelvezetet támogató, szabadon bővíthető open source kiegészítéseinket. 

Orosz György (PPKE Információs Technológiai és Bionikai Kar):

Egy adaptálható morfológiai egyértelműsítő rendszer
 

Magyar nyelv esetén szavak szófaji címkéinek megállapításán túl egy másik fontos előfeldolgozó lépés a szótövek meghatározása. Az előadásban ismertetjük a nyílt forráskódú PurePos rendszert, mely ezt az összetett feladatot oldja meg nagy pontossággal. Bemutatjuk még az eszköz rugalmas felépítését, mely által alkalmassá válhat különleges domének elemzésére is. 


Vincze Veronika   (MTA-SZTE Mesterséges Intelligencia Kutatócsoport): 

Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések
 

A magasabb rendű nyelvtechnológiai alkalmazások számára alapvető fontosságú a szövegek nyelvi (morfológiai és szintaktikai) elemzése. Ezen felül hasznos a tulajdonnevek felismerése és az ún. többszavas kifejezések azonosítása, melyek sajátos jelentésük és viselkedésük miatt speciális kezelést kívánnak meg számos alkalmazásban, például információkinyerésben vagy gépi fordításban. Előadásunkban bemutatjuk a szegedi NLP-csoport nyelvi elemző eszközeit: a magyarlanc nevű morfológiai és függőségi elemzőt, angol és magyar nyelvű tulajdonnév-azonosító rendszerünket, továbbá többszavas kifejezéseket több nyelven azonosító rendszerünket.


Farkas Richárd (SZTE Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék): 

Információk automatikus kiemelése magyar nyelvű szövegekből
 

Röviden bemutatjuk az információkinyerő rendszerünket, amely képes nagy méretű szöveghalmazokból automatikusan bizonyos célinformációkat (pl. ki, mikor, mit csinált) egy strukturált adatbázisba kiemelni. A feladat csak mély szintaktikai elemzés felhasználásával oldható meg. 


Pólya Tibor (MTA Természettudományi Kutatóközpont, Kognitív Idegtudományi és Pszichológiai Intézet, KRE BTK Pszichológiai Intézet): 

Regresszív Képzeleti Szótár
 

A Regresszív Képzeleti Szótárt Colin Martindale dolgozta ki a szöveg keletkezésekor domináló gondolkodási mód azonosítására. Az elemzési eljárás pszichológiai validitását empirikus kutatások sora igazolja. A magyar változatot Pólya Tibor és Szász Levente Péter készítette el (MTA TTK KPI). 

Narratív kategorikus tartalomelemzés 

A NarrCat a történetek tartalmának és szerkezetének automatikus elemzésére kidolgozott eljárás. A NarrCatot számos kutatásban alkalmaztuk a személyes és a szociális identitás vizsgálatára. A NarrCatot az MTA TTK KPI Narratív Pszichológiai Kutatócsoportja és a PTE Pszichológiai Intézete dolgozta ki a Morphologic Kft., az MTA Nyelvtudományi Intézet Nyelvtechnológiai Kutatócsoportja és a SZTE Mesterséges Intelligencia Kutatócsoportja közreműködésével. 


Szekeres Péter (Neticle): 

Webes vélemények egyetlen grafikonba sűrítve
 

A bemutatkozásban megnézzük, hogy hogyan lehet a social tartalomgyűjtés és az NLP ötvözésével 1 gombnyomásra legenerálható üzleti kimutatásokat készíteni a Neticle rendszerben. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre