HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

NLP eszközök magyarra - Nov. 27. NLP meetup

2014.11.25. 07:42 Szerző: zoltanvarju Címkék: meetup NLP meetup

November 27-én tartjuk következő meetupunkat, 18:00 kezdéssel, a megszokott Colabs-ben. Továbbra is ingyenes a rendezvény, de arra kérünk mindenkit, regisztráljon és jelezze részvételét meetup oldalunkon. Mivel sokan kérték, hogy mutassuk be a magyar nyelvre elérhető eszközöket, Recski Gábor szervezőtársam összeszedte ezeket nektek és készítőik ötperces bemutatókon keresztül ismertetik is ezeket.

logo9_final.jpg

A program:

Simon Eszter (MTA Nyelvtudományi Intézet): 

A hun* eszközlánc szószintű feldolgozó eszközei
 

A hun* eszközláncot a BME MOKK fejlesztői hozták létre azzal a céllal, hogy segítségükkel természetes nyelvi szövegeket lehessen feldolgozni a legalapvetőbb lépésektől akár a magasabb szintű elemzésekig. Az előadásban bemutatjuk a huntokent, amely a bemenő szabad szöveget alapegységekre (szavakra és mondatokra) bontja. Aztán szó lesz a hunmorphról és a hunposról, amelyekkel a már szóként azonosított egységekhez komplett és egyértelmű morfológiai elemzést rendelhetünk, amely az olyan erősen ragozó nyelveknél, mint a magyar a következő nyelvfeldolgozó lépések fontos előfeltétele. 

Szekvenciális elemzők: a hunner és a hunchunk 

A címben szereplő eszközök a hun* eszközláncnak olyan elemei, amelyek nem szószintű elemzést hajtanak végre, hanem nyelvi elemek szekvenciáit azonosítják be. A háttérrendszer ugyanaz minden szekvenciális címkézési feladathoz, de eddig két területre alkalmaztuk: tulajdonnév-felismerésre (named entity recognition) és sekély szintaktikai elemzésre (chunking). Az előadásban elsősorban azt mutatjuk be, hogy a rendszer hogyan használható erre a két feladatra. 


Miháltz Márton (MTA Nyelvtudományi Intézet): 

Közösségimédia-szövegek feldolgozásához adaptált Hun* eszközök
 

A Facebookon publikusan elérhető posztok és kommentek szövegei remek forrást nyújtanak véleményelemzéshez, viszont a sztenderd írott nyelvtől eltérő nyelvezet kihívás elé állítja az elérhető magyar NLP eszközöket. Bemutatjuk a huntoken, hunmorph és hunpos eszközökhöz készült, SM nyelvezetet támogató, szabadon bővíthető open source kiegészítéseinket. 

Orosz György (PPKE Információs Technológiai és Bionikai Kar):

Egy adaptálható morfológiai egyértelműsítő rendszer
 

Magyar nyelv esetén szavak szófaji címkéinek megállapításán túl egy másik fontos előfeldolgozó lépés a szótövek meghatározása. Az előadásban ismertetjük a nyílt forráskódú PurePos rendszert, mely ezt az összetett feladatot oldja meg nagy pontossággal. Bemutatjuk még az eszköz rugalmas felépítését, mely által alkalmassá válhat különleges domének elemzésére is. 


Vincze Veronika   (MTA-SZTE Mesterséges Intelligencia Kutatócsoport): 

Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések
 

A magasabb rendű nyelvtechnológiai alkalmazások számára alapvető fontosságú a szövegek nyelvi (morfológiai és szintaktikai) elemzése. Ezen felül hasznos a tulajdonnevek felismerése és az ún. többszavas kifejezések azonosítása, melyek sajátos jelentésük és viselkedésük miatt speciális kezelést kívánnak meg számos alkalmazásban, például információkinyerésben vagy gépi fordításban. Előadásunkban bemutatjuk a szegedi NLP-csoport nyelvi elemző eszközeit: a magyarlanc nevű morfológiai és függőségi elemzőt, angol és magyar nyelvű tulajdonnév-azonosító rendszerünket, továbbá többszavas kifejezéseket több nyelven azonosító rendszerünket.


Farkas Richárd (SZTE Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék): 

Információk automatikus kiemelése magyar nyelvű szövegekből
 

Röviden bemutatjuk az információkinyerő rendszerünket, amely képes nagy méretű szöveghalmazokból automatikusan bizonyos célinformációkat (pl. ki, mikor, mit csinált) egy strukturált adatbázisba kiemelni. A feladat csak mély szintaktikai elemzés felhasználásával oldható meg. 


Pólya Tibor (MTA Természettudományi Kutatóközpont, Kognitív Idegtudományi és Pszichológiai Intézet, KRE BTK Pszichológiai Intézet): 

Regresszív Képzeleti Szótár
 

A Regresszív Képzeleti Szótárt Colin Martindale dolgozta ki a szöveg keletkezésekor domináló gondolkodási mód azonosítására. Az elemzési eljárás pszichológiai validitását empirikus kutatások sora igazolja. A magyar változatot Pólya Tibor és Szász Levente Péter készítette el (MTA TTK KPI). 

Narratív kategorikus tartalomelemzés 

A NarrCat a történetek tartalmának és szerkezetének automatikus elemzésére kidolgozott eljárás. A NarrCatot számos kutatásban alkalmaztuk a személyes és a szociális identitás vizsgálatára. A NarrCatot az MTA TTK KPI Narratív Pszichológiai Kutatócsoportja és a PTE Pszichológiai Intézete dolgozta ki a Morphologic Kft., az MTA Nyelvtudományi Intézet Nyelvtechnológiai Kutatócsoportja és a SZTE Mesterséges Intelligencia Kutatócsoportja közreműködésével. 


Szekeres Péter (Neticle): 

Webes vélemények egyetlen grafikonba sűrítve
 

A bemutatkozásban megnézzük, hogy hogyan lehet a social tartalomgyűjtés és az NLP ötvözésével 1 gombnyomásra legenerálható üzleti kimutatásokat készíteni a Neticle rendszerben. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Data is everywhere - nov. 25. BOK meetup

2014.11.24. 07:29 Szerző: zoltanvarju Címkék: meetup ePSIplatform opendata.hu vs.hu Budapest Open Knowledge meetup

November 25-én 18:30-kor indul a novemberi Budapest Open Knowledge meetup a Colabs-ben. Rendezvényünk a European Public Sector Infromation Platform Tour állomása is egyben, ennek keretében Martin Alvarez (ePSI advisory board) PSI reuse in Europe előadásával indul az este. Martin előadása után rövid szünetet tartunk, majd magyarul folytatjuk a programot. A részvétel ingyenes, de arra kérünk mindenkit, hogy regisztráljon meetup oldalunkon.

okfnlogo.png

A program:

Martin Alvarez (ePSI Platform, W3C Spain): PSI Reuse in Europe  

This talk will present different successful (and not too successful) Open Data and PSI reuse initiatives around Europe, exploring the opportunities and challenges for public bodies, organizations and individuals.

Lebhardt Olviér - VS.hu 

Lebhardt Olivér, VS.HU főszerkesztő arról fog beszélni, hogyan lehet nagy adattömegekből sztorit csinálni. 

Varjú Zoltán: Open Knowledge Meetup és opendata.hu

A magyar open data hub, az opendata.hu mellett szeretném felhívni a figyelmeteket arra, hogy rengeteg lehetőség van csatlakozni hozzánk. Ha van adatod, vagy szeretsz írni, szeretnél programozói tudásoddal hozzájárulni az ügyhöz vagy véredben van a szervezés, akkor köztünk a helyed!

Az esemény a Norvég Civil Támogatási Alap támogatásával valósul meg.  

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Színtelen zöld eszmék dühödten rappelnek - előadás @ conTEXT

2014.11.20. 07:35 Szerző: zoltanvarju Címkék: konferencia nyelvtechnológia szentimentelemzés emócióelemzés conTEXT

Ma a conTEXT - szöveganalitika magyarul konferencián adok elő, a slide-okat megtaláljátok alább.

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

NLP és termékfejlesztés előadás @ CEU MicroData

2014.11.18. 08:45 Szerző: zoltanvarju Címkék: termékfejlesztés nyelvtechnológia Java R Python CEU funkcionális programozás Clojure CEU MicroData

Ma a CEU MicroData kutatócsoport ebédjén veszek részt és a termékfejlesztés meg az NLP kérdéseiről  fogok beszélni. A csoporttal nagyon élveztük a közös munkát a kozbeszerzes.ceu.hu mögötti adatbázis elkészítésén és vendégeink voltak a szeptemberi meetupon is. Az általuk jegyzett Defacto blogot minden, a köz ügyei iránt érdeklődő olvasónknak ajánljuk. Fejlesztői blogjukat pythonisták és programozók fogják örömmel olvasni.

 

 

Előadásomban Hírelemző projektünkön keresztül szemléltetem hogyan néz ki egy rendes NLP termék, majd arról beszélek mi hogyan próbáljuk meg áthidalni a kutatók és fejlesztők eltérő szemléletmódját és a jövőben hogyan szeretnénk még jobbá tenni munkánkat. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nyelv, kultúra, társadalom konferencia előadás slide-ok

2014.11.11. 08:46 Szerző: Szabó Martina Katalin Címkék: konferencia szentimentelemzés emócióelemzés

A korábbi beharangozónknak megfelelően november 4-én, a Nyelv, kultúra, társadalom címmel rendezett alkalmazott nyelvészeti konferencián két előadás keretében beszámoltunk a szentiment- és emócióelemzési projektjeink első eredményeiről. Az előadások prezentációs anyagait az alábbiakban tesszük közzé.

Köszönjük mindenkinek, aki részvételével megtisztelte az előadásainkat, és továbbra is örömmel fogadunk minden kérdést és észrevételt! 

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre