HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatok (12) adatújságírás (16) adatvizualizáció (16) AI (7) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (45) bing (14) CEU (6) clustering (6) conTEXT (7) dashboard (6) data science (8) deep learning (14) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (30) Facebook (9) facebook (8) gépi tanulás (10) Google (23) google (57) gyűlöletbeszéd (7) hackathon (9) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (35) könyvajánló (20) korpusznyelvészet (13) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) lda (10) LDA (9) live (13) magyar kereső (9) marketing (8) meetup (39) mesterséges intelligencia (9) metafora (6) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (27) nyelvtechnológia (70) open data (11) open knowledge (7) Pennebaker (6) politikai blogok (22) Precognox (42) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (6) szemantikus keresés (17) szemantikus kereső (9) szentimentelemzés (32) szövegbányászat (14) tartalomelemzés (53) tartalomjegyzék (6) tematikus kereső (19) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (11) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

10 éves a Kereső Világ

2017.09.11. 10:06 Szerző: zoltanvarju Címkék: évforduló Precognox Kereső Világ

Tíz éve jelent meg az első poszt blogunkon. A kezdetek a keresőkről szóltak, azóta viszont kibővítettük témáinkat, megjelent a nyelvtechnológia, a mesterséges intelligencia és a gépi tanulás, meg minden más. Az alapító Jóföldi Endre mellett az évek során tizenketten csatlakoztak rövidebb vagy hosszabb időre rendszeres szerzőnek és számtalan vendégposztot is kaptunk. A blogban azt szeretjük a legjobban, hogy kapcsolatba kerülhetünk veletek, kedves olvasókkal; az idők során számtalan konferenciára jutottunk el, öt éve elindítottuk az NLP meetupot, rendszeresen együttműködünk a Nyelv és Tudománnyal, ott vagyunk a K-Monitor minden hackathonján. Köszönjük, hogy olvastok minket! Nem tudjuk kellően megköszönni kollégáink munkáját, akik nélkül nem tudnánk izgalmas projekteken dolgozni, melyek nélkül nem tudnánk nektek miről írni. Minden posztban, minden konferencia-előadásban ott van a Precognox csapatának munkája, köszönjük nektek!

05.jpg

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

A migráció arcai @ nyest.hu

2017.09.04. 19:39 Szerző: zoltanvarju Címkék: tartalomelemzés képfeldolgozás adatvizualizáció AI

A nyest.hu-n elérhető legújabb tartalomelemzésünk melyben a migrációs válság során a magyar nyelvű online médiában megjelent képeket vizsgáltuk. A projekt során korábban már elemeztük a szöveges tartalmakat és beszámoltunk a képekkel kapcsolatos vizsgálódásaink előzetes eredményeiről itt. 

facesofmigration.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az elméleti minimum...

2017.09.01. 11:50 Szerző: zoltanvarju Címkék: statisztika matek könyvajánló logika AI elmefilozófia machine learning

... azoknak, akik szeretnének a gépi tanulás és a mesterséges intelligencia alapjairól többet tudni.

img_20170901_103335.jpg

Morris Kline: Mathematics for the Nonmathematician

Talán a legtöbbünknek az a baja az absztrakt matematikával, hogy nem tudjuk mire is találták ki. Kline könyve a matematika főbb területeit történeti kontextusba ágyazva mutatja be, ami rendkívül izgalmassá teszi az olvasást. Persze vannak feladatok dögivel, ezeken érdemes végigmenni, ami viszont nem minden esetben annyira szórakoztató. Senki nem válik egy könyvtől egy terület szakértőjévé, de Kline segítségével kaphat az olvasó egy kis térképet, ami segít tájékozódni.

Bertrand Russel: Introduction to Mathematical Philosophy

A 19. század végére a matematika válságba került. Persze ezt a válságot csak pár ember élte meg igazi válságként, ők dolgozták ki a modern logika alapjait. Russel könyve érthetően, minden formalizmustól mentesen foglalja össze röviden mi okozott problémát és hogyan is oldották ezt meg.

Charles Petzold: Code: The Hidden Language of Computer Hardware and Software

A matematika válsága megoldódott, de megannyi nyitott kérdést hagyott maga után. Ilyen pl. az Entscheidungsproblem, azaz a eldöntésprobléma, azaz annak megállapítása, hogy egy adott kijelentés bizonyítható. Ennek megoldására Turing és Church vállalkozott, aminek eredménye a modern számítógépek megjelenése lett. Shannon megírta minden idők legjelentősebb MSc tézisét, amiben a logikai műveleteket áramköri kapcsolók segítéségével modellezte megnyitva ezzel az utat a modern számítástudomány előtt. Petzold könyve nem lebutítva, nagyon okosan és didaktikusan mutatja be, hogyan juthatunk el az egyszerű logikai kapuktól a számítógépekig és a rajtuk futó programokig. 

Charles Wheelan: Naked Statistics

Tudjuk, a statisztika megkerülhetetlen. Wheelan könyve annyira alaposan mutatja be a statisztika alapjait, amennyire csak lehetséges ez képletek nélkül. Aki a fenti videót bírja, annak a szerző stílusa be fog jönni és képletek hiánya ellenére is értékes tudásra tehet szert.

David Salsburg: The Lady Tasting Tea

Ahogy az absztrakt matematikával is sokszor az az átlagember problémája, hogy nem tudja elképzelni mire is lehet használni az eredményeit, a statisztikával sem más a helyzet. Salsburg könyve sem az elméleti háttérben erős, ellenben megtudhatjuk belőle, hogy nagyon szorító kérdés tud lenni a jövő évi termés megtippelése, vagy egy sörfőzdében is alakulhatnak úgy a dolgok, hogy kell egy brilliáns statisztikus.

Rudolf Carnap: An Introduction to the Philosophy of Science

Hogyan találkoznak össze a szigorú deduktív rendszerek és statisztika? Ez a tudomány világa, de ennek modellezésével foglalkozik a gépi tanulás is. A tudományfilozófia klasszikus korában nagyon sokat foglalkozott a valószínűségszámítás elméleti hátterével, az empirikus mérésekre alapozott következtetések természetével és ezekre épített rendszerek konzisztenciájával. A kötet eredeti címe Philosophy of Physics volt, mivel a legtöbb benne található példa a fizika világából való, de ettől nem kell félni, ez egy bevezető könyv, amiben a formalizmus a minimálisra van szorítva.

Pedro Domingos: The Master Algorithm

Ezt a könyvet korábban már bemutattuk itt, továbbra is csak azt tudjuk mondani róla, hogy alap.

Tim Crane: The Mechanical Mind

Ha valaki szeretne túllépni a közhelyszerű "a gépek majd egyszer ellenünk fordulnak" és "a gépek mindig hülyék maradnak" toposzokon, annak érdemes elgondolkoznia az elme és a tudatosság fogalmán. Megannyi kérdés merül fel, amire az elmefilozófusok évszázadok óta keresik a választ. Mit jelent tudni valamit? Hogyan reprezentáljuk a tudás különböző fajtáit? Milyen problémákat vet fel, ha szimbolikusan reprezentáljuk az információt, vagy ha éppen elosztottan? Az elme függ a hordozójától, vagy tök mindegy hogy egyes funkcióit sejtek, másokat meg áramkörök valósítják meg? Vigyázat! A filozófia természeténél fogva nem ad feltétlenül végleges válaszokat, hanem egy-egy megközelítési módot jár körül, annak pozitívumait és negatívumait bemutatva - de nincs ennél jobb szórakozás és egyáltalán nem haszontalan (legalábbis szeretnénk ezt hinni....)

 

Bónusz

Az Elméleti mimimum (The Theoretical Mimimum) Leonard Susskind fizikus előadásai a matematikailag nem kezdő érdeklődőknek szólnak, melyek rendkívül népszerűek. Az előadások anyagából készül könyvek magyarul is megjelentek (I. és II.). Mivel a gépi tanulás (meg a deep learning) eszközkészletének egy jelentős része a statisztikus mechanikából jött, ezért nem haszontalan ezt az elméleti minimumot elsajátítani valamennyire.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

The Mathematical Corporation

2017.08.18. 08:42 Szerző: zoltanvarju Címkék: könyvajánló big data AI machine learning

Új szóval jöhetnek elő azok, akik szerint a big data annyira 2010, az AI meg 2016, hogy izé! Itt a post-analytics era, amiben a gépi intelligencia és az emberi találékonyság a lehetetlent is meg tudja valósítani a megfelelő keretek között. Ez a megfelelő keret nem más, legalábbis Sullivan és Zutavern szerint, mint a matematikai szervezet.

download.jpg

A könyv fő üzenete az alábbi ábra:

img_20170818_074620.jpg

Igen, jönnek a gépek! Nem kell keseregni, át kell nekik adni a terepet abban amiben jók és arra kell fókuszálnunk, amiben mi emberek jók vagyunk. Ez egy új szervezeti formát követel meg a for- és non-profit szervezetektől, ez lenne a "mathematical corporation", ami a tudományos módszer üzleti alkalmazását jelenti. Szerzőink a 49. oldalon el is jutnak erre a következtetésre, ezután jön kétszáz oldal, ami ezt kontextusba helyezi különböző sztorikon keresztül. Továbbá kapnak a cégek szép tanácsokat, pl. jó nyílt adatokat közölni, hackathont szervezni civilekkel és nem árt etikusan játszani. A tudományos módszerről, Kantról vagy éppen Arisztotelészről olvasni üzleti könyvben üdítően hat. Akit érdekel, milyen következményekkel járhat ha ezen a területen dolgozik, vagy egy kicsit is tudatos társadalmilag, ez inkább az itt ajánlott könyveket forgassa.

Persze nincs itt semmi mélység, a "big picture" a lényeg az üzletben. Ennek ellenére, ha rajtam múlna minden kedves jelenlegi és leendő ügyfelünknek adnák egy példányt ebből a könyvből szemléletformálás céljából. Nekünk is fájó tapasztalatunk, hogy sokan nem értik, nem szállít rögtön kész megoldást egy adatos projekt. Kísérletekkel indítunk, amik jelentős része zsákutca, de ez szükséges ahhoz, hogy az ügyféllel együtt kialakítsunk egy olyan mentális modellt a problémáról ami segíti a további munkát és valószínűbbé teszi, hogy jó megoldást találjunk. Ezt a legtöbben nagyon nehezen, vagy egyáltalán nem tudják elfogadni, remélhetően előbb vagy utóbb a könyv mondandója eljut hozzájuk. Addig pedig jó lenne egy könyv, ami az eladói oldalnak ad tippeket, hogyan lehetne áttörni a falakat, de ilyet még nem találtunk.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Építsünk korpuszt!

2017.08.07. 11:22 Szerző: Szabó Martina Katalin Címkék: adatbázisok gépi tanulás korpuszok korpusznyelvészet annotáció annotálás nyelvi erőforrások fejlesztése manuális feldolgozás

Az alkalmazott nyelvészeti kutatási és nyelvtechnológiai fejlesztési munka egyik legfontosabb eszközét az ún. szövegkorpuszok jelentik. Bár létrehozásuk - különösen manuális módszerrel - elég költséges, hasznuk mind a kutatásban, mind a fejlesztésben kimagasló jelentőséggel bír. Lássuk a korpuszokat most közelebbről is!

Mi a korpusz?

A korpusz fogalmának a meghatározását illetően a szakirodalom nem egységes. A Magyar Nemzeti Szövegtár honlapja a következőképpen definiálja a korpuszt:

„A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat)”.

A definícióban megfogalmazottakon túl fontos rámutatnunk, hogy a szövegkorpuszok a legtöbb esetben valamilyen manuális vagy automatikus feldolgozási folyamaton esnek át, és ennek a feldolgozási folyamatnak (másképpen: annotációnak) a sajátságait gyakorta a korpusz jövőbeli felhasználási céljai határozzák meg.

Az alábbi ábra például (hogy tematikában a korábbi poszthoz kapcsolódjunk) egy névelem-annotált korpusz részletét mutatja be:

ne.png

A korpuszokban az egyes elemeken kívül az azok közötti, különböző típusú kapcsolatokat, összefüggéseket is annotálhatjuk. Erre mutat példát az alábbi ábra, amely egy orosz nyelvű metafora-korpuszból közöl részletet:

russian_metaphor-small.png

A korpuszok tehát mindig valamilyen céllal készülnek, és ennek nem mond ellent az sem, ha az adott korpusz nem egy bizonyos jelenség vizsgálatához jön létre, hanem például egy adott nyelv reprezentatív korpusza kíván lenni (mint amilyen például a Magyar Nemzeti Szövegtár). Ilyenkor ugyanis a készítők úgy válogatják össze a korpusz szöveganyagát, hogy az éppen ennek az igénynek tudjon megfelelni.

Bár a korpusz definíciójába nem tartozik bele elengedhetetlen kritériumként, fontos említést tenni arról is, hogy a korpuszok legtöbbször digitalizált formájúak, ugyanis csupán ez teszi lehetővé a gépi elemzést. A korpusznyelvészet egyik legfontosabb célja az, hogy a nyelvi jelenségeket empirikusan, kvalitatív és kvantitatív szempontból egyaránt vizsgálja, ehhez pedig nagy mennyiségű szöveg elemzésére van szükség, ami manuálisan kivitelezhetetlen feladat. A korpusz szövegeinek tehát digitalizált formájúnak, ezáltal géppel olvashatónak kell lennie.

Egy kicsit a korpuszok történetéről...

Annak ellenére, hogy a korpuszalapú kutatások számítógépes támogatottság hiányában nehezen kivitelezhetőek, a korpuszok alkalmazásának kezdetleges formáival a számítógépek elterjedését megelőző időben is találkozunk. Már ekkor alkalmaztak ugyanis szövegkorpuszokat grammatikák és szótárak szerkesztésére.

simon2.jpg

Egy doboznyi cédula a Nagyszótárhoz (A magyar nyelv nagyszótára) forrás: http://www.matud.iif.hu/2016/07/06.htm

Mivel ezeket az adatbázisokat nem elektronikus formában tárolták, számítógéppel támogatott elemzésük értelemszerűen nem is volt lehetséges. Egy szövegkorpusz papíron, kézzel végzett elemzése ugyanakkor rendkívül időigényes és fáradságos feladat, s már néhány száz mondat manuális vizsgálata is nehezen hajtható végre.

Nem véletlen tehát, hogy az elektronikus szövegkorpuszok megjelenése új távlatokat nyitott az egyes nyelvek, illetve nyelvi jelenségek tanulmányozásában. Automatikus módszerrel gyorsabban, egyszerűbben és pontosabban végezhető el jelentős mennyiségű szöveg feldolgozása, ami egyben arra is lehetőséget ad, hogy általános érvényű, empirikusan igazolt megállapításokat tehessünk a vizsgált jelenség vonatkozásában. 

mnsz2_1.png

Részlet a blog szótő kollokációiból a szót követő pozícióban az MNSZ2 adatai alapján forrás: http://clara.nytud.hu/mnsz2-dev/

A korpuszok alkalmazása ma már nélkülözhetetlen a különböző nyelvészeti munkák során. Többek között a lexikográfia is nagymértékben épít rájuk, hiszen a segítségükkel könnyedén vizsgálható a szavak jelentése és kollokációs mintája, valamint a különböző regiszterekhez kötött szógyakoriság is. Hazánkban a Magyar Tudományos Akadémia 1984-ben határozatban döntött arról, hogy a nagyszótár munkálatainak folytatását elektronikus szövegkorpusz alapján kell végezni. A lexikográfia mellett jelentős szerepet töltenek be a korpuszok a fordításkutatásban és a fordítóképzésben is. Emellett sokszor alkalmazzák őket az anyanyelv és idegen nyelv elsajátításának vizsgálatában, valamint az idegen- és szaknyelvoktatás területén.

A korpuszok szerepe a fejlesztésben

A korpuszok nem kisebb szerepet játszanak a kutatás mellett a fejlesztési oldalon is. A különböző nyelvfeldolgozó algoritmusok fejlesztése és tesztelése ugyanis legtöbbször kézzel annotált korpuszok alapján történik. Ez azt jelenti, hogy azokat a nyelvi jelenségeket, amelyeket jelenleg géppel nem tudunk kezelni, manuális munkával feldolgozzuk, létrehozva ezáltal egy a gép számára olvasható, megfelelő méretű tanító adatbázist. E korpusz segítségével azután már lehetővé válhat egy olyan feldolgozó eszköz fejlesztése, amely az addig automatikus módszerrel elvégezhetetlen feladatot képes lesz kivitelezni. 

A kézzel annotált korpuszok jól alkalmazhatóak többek között a jelentésegyértelműsítésben, amely számos nyelvtechnológiai feladat egyik kulcsproblémája. Így fontos támogatói lehetnek az anaforák kezelésének, a szintaktikai elemzésnek vagy a gépi fordításnak is. 

A korpuszannotáció típusai

A korpuszok tipizálásának egy lényegi szempontja, hogy bennük a szövegeket milyen annotációval látták el a korpusz építői. Az annotáció olyan annotációs jelek (számítógépes nyelvészeti terminussal: tagek) alkalmazását jelenti, amelyeket a korpuszban levő különböző elemekre, kifejezésekre visznek fel. Ezek a jelek hivatottak explicitté tenni a nyelvi adatokban már meglevő, azonban addig implicit formájú információt, ahogy azt már a poszt elején közölt ábrákon is láttuk. 

Az annotációt tipizálhatjuk aszerint, hogy a korpuszban levő szövegekben milyen mélységig „hatol le”, tehát, hogy mit tekint a feldolgozás egységének. Eszerint megkülönböztetünk szöveg-, mondat-, valamint tokenszintű elemzést. 

Az annotálási feladat automatikus, félautomatikus, valamint manuális munkával is megvalósítható. Számos feldolgozási munka (pl. a lemmatizálás vagy a szófaji egyértelműsítés) ma már olyan hatékonyággal végezhető el automatikus módszerrel, hogy ezekben a feladatokban nem szükséges humán annotátorokat alkalmazni. 

A legtöbb annotálási munka azonban – mint már emíltettük – automatikusan nem végezhető el kielégítő eredményességgel, illetve a különböző elemző eszközök fejlesztéséhez is gyakorta kézzel annotált korpuszokra van szükség. Ezekben az esetekben tehát nélkülözhetetlen a manuális feldolgozó munka. Amennyiben az annotálás egy része automatikus módszerrel elvégezhető olyan hatékonysággal, hogy az már támogatni tudja az emberi munkavégzést, úgy először géppel elemeztetik a korpusz szövegeit, amelyet humán ellenőrzés és korrekció követ. Ezt nevezzük félautomatikus megoldásnak. Amennyiben azonban az annotálás – annak jellege miatt – automatikus módszerrel egyáltalán nem támogatható, úgy a teljes munkát humán annotátoroknak kell elvégezniük. Az alábbi ábra a GATE nevű eszközben végzett humán annotációból mutat egy példát:

gateshot2.png

Forrás: http://mpqa.cs.pitt.edu/annotation/

Az annotátorok a feldolgozói munkát legtöbbször egy a fentebbihez hasonló, specifikusan erre a célra kialakított felületen végzik. Az eszköz lehetőséget ad nekik arra, hogy a feldolgozás során a korpuszban ne magukat az annotációs tageket, azok nyitó- és zárótagjeit kelljen alkalmazniuk, hanem egyszerű, kijelöléses megoldással tudjanak a megfelelő elemekhez annotációt kapcsolni. Ez a megoldás azon túl, hogy a munkavégzést jelentősen megkönnyíti és gyorsítja, az annotálási hibák esélyét is csökkenti. 

A minőségbiztosítás jelentősége

Az annotátorok közötti egyetértés mérése rendkívül fontos. Ez ugyanis már a munka első szakaszában megmutatja, ha a feladat tulságosan szubjektív, vagy éppen az annotálási útmutató vagy az annotátorok betanítása nem volt megfelelően eredményes. Ily módon lehetőséget ad a korrekcióra még azelőtt, hogy egy nagy méretű, ám rossz minőségű adatbázis születne. 

Az annotátorok közötti egyetértés mérése úgy történik, hogy a korpusz egy bizonyos részét (lehetőség szerint a 10%-át) a korpusz összes annotátora feldolgozza, majd az annotációt valamely, erre a célra fejlesztett algoritmus segítségével összevetik egymással. Ilyen mérési eszköz például az ún. Cohen’s Kappa-statisztika (angolul: Cohen’s Kappa statistic). A méréssel kapott értékek (annotátorok közötti egyetértési ráta, angolul: inter-annotator agreement rate) megmutatja, hogy az annotátorok hány esetben látták el valamilyen taggel a korpusz bizonyos egységeit, valamint azt is, hogy hány alkalommal használták rájuk ugyanazt a taget. Ennek köszönhetően a Cohen’s Kappa-statisztika komplex, a minőség javítására jól alkalmazható mutatónak tekinthető.

A minőség mérése során értelemszerűen nem várunk el 100%-os egyezést, hiszen humán annotátorok dolgoznak, megengedhető valamennyi szubjektív döntés és némi pontatlanság. A munka minőségét a Kappa-statisztika alapján is ún. Kappa-sávok alapján értékeljük. 80%-os vagy afölötti egyetértés esetén például már kiválónak tekintjük a súlyozott Kappa értékét.

images_2.jpg 

A korpusz mint a nyelvtechnológia motorja

Végezetül, érdemes rámutatni arra a tendenciára, amely a szövegkorpuszok és a szövegfeldolgozó algoritmusok keletkezését jellemzi. Azt láthatjuk ugyanis, hogy minél több, nagyobb méretű és jobb minőségű annotált korpusz áll a rendelkezésünkre, annál több és jobb minőségű feldolgozó eszköz fejlesztésére nyílik lehetőségünk. Ez pedig értelemszerűen újabb, még nagyobb méretű és még jobb minőségű annotált korpuszok létrehozását segíti elő. A folyamat tehát öngerjesztő, és a nyelvtechnológia egyre nagyobb ütemben zajló fejlődését eredményezi.   

 

IRODALOM

Cohen, J. 1960. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement 20. 37–46.

Gábor K.–Hája E.–Kuti J.–Nagy V.–Váradi T. 2008. a lexikon a nyelvtechnológiában. In Kiefer F. szerk. Strukturális magyar nyelvtan 4. A szótár szerkezete. Budapest, Akadémiai. 853–895.

Károly K. 2003. Korpusznyelvészet és fordításkutatás. Fordítástudomány 5(2). 18–26.

Klaudy K. 2005. Párhuzamos korpuszok felhasználása a fordításkutatásban. In Lanstyák I.–Vanconé Kremmer I. szerk. Nyelvészetről változatosan. Dunaszerdahely, Gramma. 153–185.

Krug, M.G. 2000. Emerging English Modals: A Corpus-Based Study of Grammaticalization. Topics in English Linguistics 32. Berlin and New York, Walter de Gruyter.

McEnery, T. 2005. Corpus Linguistics. In Mitkov, R. 2005. The Oxford Handbook of Computational Linguistics. Oxford, Oxford University Press. 448–463.

Nikunen, A. 2007. Different approaches to word sense disambiguation. Language technology and applications Essay. University of Helsinki, Department of Computer Science. 

Péch O. 2007. A lexikai kohézió vizsgálata a fordításkutatásban – új távlatok a korpusznyelvészeti módszernek köszönhetően. Fordítástudomány IX(1). 79–96.

Prószéky G.–Olaszy G.–Váradi T. 2003. Nyelvtechnológia. In Kiefer F. szerk. A magyar nyelv kézikönyve. Budapest, Akadémiai.

Szabó M.K–Nyíri Zs.–Lázár B. 2017c. Negatív emotív szemantikai tartalmú fokozó elemek vizsgálata az angol–orosz és orosz–angol fordítás tükrében. In XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia konferenciakötete. Megjelenés előtt.

Szirmai M. 2005. Bevezetés a korpusznyelvészetbe. Budapest, Tinta.

Vincze V. Előadásjegyzet. (http://www.inf.u-szeged.hu/~vinczev/oktatas.html)

Копотев, М.В.–Гурин, Г.Б. 2006. Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО. In Копотев, М.В.– Гурин, Г.Б. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог-2006». Москва, РГГУ. 280–284.

Шаров С. А. 2003. Представительный корпус русского языка в контексте мирового опыта. In Шаров, С.А. Научно-техническая информация (НТИ) 2(6). 9–17.

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre