HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Magyar politikai blogszféra - webkonf slide-ok

2014.11.08. 17:34 Szerző: zoltanvarju Címkék: politikai blogok tartalomelemzés nyelvtechnológia hálózatelemzés webkonf

Ma a Magyarországi Web Konferencián adtam elő a politikai blogokkal foglalkozó projektünkről.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

November 20. conTEXT - szöveganalitika magyarul

2014.11.04. 07:22 Szerző: zoltanvarju Címkék: konferencia Clementine Consulting conTEXT szöveganalitika

A Clementine idén is megrendezi a conTEXT szöveganalitikai konferenciát, ezt ajánljuk minden olvasónk figyelmébe. A programból külön kiemelném hogy az IBM Watson Group-tól is hallhatunk majd előadást! Természetesen a hazai szöveg- és hanganalitika java képviseli magát a konferencián, no meg mi is. Érdemes mindenkinek gyorsan megnézni a programot, azután pedig regisztrálni.

clementine_2.PNG

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Legyél hatékony (ipari) kutató!

2014.11.02. 14:16 Szerző: zoltanvarju Címkék: kutatás

A rendes kutató naprakész, gyorsan és hatékonyan reagál az új eredményekre, az ipari kutató pluszban még rögtön tudja is alkalmazni az újdonságokat. A feladat nehéz és egyszerűen lehetetlen neki teljesen megfelelni. Ellenben lehet törekedni arra, hogy az ideális állapothoz közel jussunk.

 

1. Időgazdálkodás és projektmenedzsment

A legfontosabb dolog az, hogy ne vesszünk el a részletekben. Egy rendes kutató tudja, egy életet leélhetne egy könyvtárban hogy egy terület ici-pici kis részproblémájának alapjait megismerhesse. Ez nem lehetséges, a feladatok mindig jönnek, konferenciák, céges kötelezettségek és egyéb elfoglaltságok szabdalják szét a munkaidőt, arról már ne is beszéljünk hogy vannak ünnep- és szabadnapok, amikor illik egy kicsit kiszakadni a munkából. A maradék idővel meg kell tanulni gazdálkodni. 

Pomodoro-Technique.jpg

Pomodoro módszer - a legegyszerűbb időgazdálkodási módszer a világon, az ember segítségével megtanulja, hogy egy adott feladatra koncentráljon 25 percig, azután pihenjen, majd folytassa a munkát. Gagyinak tűnik elsőre, de ha az ember használja egy ideig, annyit biztosan megtanul segítségével, hogy megtervezze a napjait, a feladatokat értelmes részfeladatokra bontsa, mérje és kövesse hogyan halad a munkával, megtanulja az új feladatok elvégzéséhez szükséges időt reálisan megbecsülni. A módszer a csoportos munkára is bevethető, sőt a szoftverfejlesztés agilis iskolájában is sokan alkalmazzák.

personal_kanban_board.jpg

Personal kanban - a feladatok megtervezése és nyomon követése a legegyszerűbben az ún. kanban táblával lehetséges. Elsőre nekem idióta dolognak tűnt felírni egy táblára hogy mivel is foglalkozom, de nagyon jó eszköz arra, hogy folyamatos visszajelzést kapjunk hogyan állunk a futó feladatokkal. Igazán akkor hasznos, ha hirtelen beesik valami és el kell döntenünk, hogy várunk-e az új feladattal, vagy valami mást teszünk félre.

2. Források kezelése

zotero.jpg

Az olvasott tanulmányok, könyvek, posztok, videók stb. forrásait kezeld rendesen! Én a Zotero-t ajánlom erre, de a Mendeley-t is sokan használják. Nincs idegesítőbb annál, amikor az ember bibliográfiai adatok miatt túrja a netet! Maximum egy percet kell rászánni arra, hogy szépen elmentsük és a megfelelő metaadatokkal felcímkézzünk minden forrást, amit hasznosnak találtunk.

3. Jegyzetelj okosan!

Akár gépen, akár telefonon, akár papíron, de jegyzetelj! A jegyzeteket érdemes archiválni és kezelni. A papír alapú jegyzeteket be lehet szkennelni, vagy telefonnal egy képet lehet készíteni róluk, így digitálisan is megőrizhetjük őket. Valamilyen eszközök közötti fájlmegosztó alkalmazással - pl. Dropbox - bárhol elérhetjük jegyzeteinket. De még jobb kifejezetten jegyzetek kezelésére létrehozott alkalmazást használni, az Evernote ebben nagyon jó, a lefotózott kézi jegyzeteket képes karakterfelismerés segítségével kereshetővé tenni (a fizetős változata persze), sőt a Moleskine szerelmeseinket külön papír jegyzetfüzeteket fejlesztettek ki erre.

 

4. Olvass okosan!

A neten rengeteg forrás van, szakmai oldalak, blogok stb. Érdemes ezeket felkutatni és követni. Rendes ember ehhez RSS-olvasót használ. Sajnos sokan azt se tudják mi az az RSS, de aki sok forrást szeretne követni, az könnyen belátja, nehézkes minden oldalt egyesével felkeresni és megnézni milyen új infó került fel. Az RSS-olvasó megteszi ezt helyettünk és egy helyre összegyűjti az általunk követni kívánt oldalak új tartalmait. Én a feedly-t ajánlom, minden platformon (PC, tablet, mobil) szép a felülete, egyszerűen és logikusan használható. Az új tartalmak leader szövegeit könnyen átfuthatjuk, az érdekeseket elmenthetjük. Nagyon fontos, hogy az új tartalmakat szűrjük, ne akarjunk mindent elolvasni rögtön! Minden nap pár perc alatt átfuthatjuk az új leader szövegeket és elmenthetjük mi érdekel minket és a hétvégén az elmentet tartalmak közül elolvashatjuk azt, ami igazán lényeges.

 

5. Használd a közösség erejét!

Meetup.com - Keresd meg a téged érdeklő meetupokat a környezetedben! Nem kell eljárnod minden eseményre, de az előadók neveivel megismerkedve megtudhatod kik a jelentősebb arcok a szakmában. Ha el tudsz jutni néha egy-egy meetupra, akkor személyesen is megismerkedhetsz a kollégáiddal és hidd el, könnyebb lesz az életed!

Twitter - A legjobb közösségi média platform ipari arcoknak! Keresd meg a területed meghatározó figuráit és kövesd őket! Mivel használsz forrásmenedzsment alkalmazást és RSS-olvasót, oszd meg az általad érdekesnek talált tartalmakat! Előbb-utóbb lesznek követőid a világ minden szegletéből! Kövess vissza minden olyan embert, aki releváns a területeden és bekövetett téged! A Twitteren nagyon hamar megjelenik egy-egy új hír, konferencia felhívás, vagy egy tanulmány draft verziója! Nem kell minden nap órákon át lógni rajta, de heti két-három alkalommal pörgesd végig a feededet, ossz meg pár érdekes tartalmat! Szakmai beszélgetésre is jó a Twitter! Ha kialakul egy beszélgetés és érdemben hozzá is tudsz szólni, akkor ne fogd vissza magad! Merj kérdezni is!

Legyenek kérdéseid, vannak rá válaszok! - A programozók kedvence a Stackoverflow oldal, ahol kérdéseket tehetünk fel és a kollégák megválaszolják ezt nekünk. Nagy valószínűséggel már valaki feltette a minket érdeklő kérdést, s eleve megtaláljuk azt a megfelelő válasszal az oldalon. A programozók mellett mára szinte minden területnek van hasonló oldala, pl én a Cross Validated oldalt szeretem, ahol statisztikai kérdésekre találunk minőségi válaszokat. Hasonló oldal, de minden területet igyekszik lefedni a Quora.

Közösségi média - Érdemes lehet akár Facebook-on is követni egy-egy konferenciát vagy szakmai oldalt, csatlakozni egy szakmai csoporthoz. Az Academia.edu a kutatók Facebook-ja, érdemes létrehozni rajta egy profilt és bekövetni területünk kutatóit - ha másért nem, akkor azért mert sokan megosztják tanulmányaikat pdf formátumban az oldalon!!!! A LinkedIn is hasznos lehet, ha szakmai kapcsolati hálónkat akarjuk online menedzselni.

 

A fentiek persze csak tippek, nem biztos receptek! Saját tapasztalatom szerint a legfontosabb az időgazdálkodás és a projektmenedzsment kérdése, különösen ipari környezetben, ahol szoros határidőkkel kell dolgozni. Ha van tipped, kedvenc eszközöd, kommentben oszd meg velünk!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Valószínűleg valószínű vagy valószínűtlen a nyelv

2014.10.30. 06:49 Szerző: zoltanvarju Címkék: statisztika nyelvészet tudományfilozófia big data Chomsky Norvig generatív grammatika

"But it must be recognized that the notion of "probability of a sentence" is an entirely useless one, under any known interpretation of this term." (Chomsky)

Az elmélet vége

pb_theory_f.jpg

Chomsky manapság legtöbbet idézett mondatai mind a valószínűség ellen szólnak. Mindenki szereti idézni ezeket, mert hát annyira bejött az élet a statisztikai nlp-nek, hogy érthetetlen miért is gondolnánk arra, hogy generatív elméletekkel, vagy egyáltalán elméletekkel égessük magunkat. Chris Anderson híres The End of Theory cikkében olyan megállapításokra jut, hogy a tudományos módszernek vége:

But faced with massive data, this approach to science  — hypothesize, model, test — is becoming obsolete.

Ami helyette van az tkp. adatgyűjtés és korreláció az adatpontok között:

Petabytes allow us to say: "Correlation is enough." We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

Mit mondott az öreg Chomsky?

shr0511h.jpg

Chomsky annyi mindent mondott már, hogy rajta kívül valószínűleg kevesen tudják követni elméletének fejlődését. Annyi azonban szinte bizonyos, hogy nem következetlen figura az öreg, pár nagyon alapvető elve már korai munkásságától kimutatható. Mivel mi nyelvtechnológiával foglalkozunk, ezért most kihagyjuk a szép szintaktikai fákat, alfát nem mozgatjuk, arra keressük a választ, miért idegenkedik annyira a valószínűségektől.

 

Kezdjük egy egyszerű kérdéssel: mi is egy nyelvelmélet?

WP_20141028_002.jpg

Az első, manapság egyre népszerűbb elképzelés szerint egy adott korpusz alapján kell megállapítani az adatokat generáló szabályokat (ez a fenti képen az első ábra). A másik elképzelés szerint egy nyelvelmélet célja, hogy egy szintaktikai szabályhalmazról egy korpusz segítségével ítéletet alkosson. Azonban Chomsky szerint ezen elképzelések túl ambiciózusak! Egy nyelvelmélet maximum arra jó, hogy egy korpusz segítségével eldöntse hogy két (vagy több) grammatika közül melyik bír nagyobb magyarázó erővel.

 

A grammatikák esetében a magyarázó erőt azonosíthatjuk azzal az egyszerű elvvel, hogy a helyes és helytelen mondatok közötti különbséget észleljük. A Mondattani szerkezetekben ezt így összegzi:

Tulajdonképpen mi alapján fogunk hozzá a nyelvtanilag helyes és helytelen sorozatok különválasztásához? [...] Először is, nyilvánvaló, hogy a nyelvtanilag helyes mondatok halmaza nem azonosítható a megnyilatkozások egyetlen, a nyelvész által terepmunka során megszerzett korpuszával sem. Egy nyelv valamennyi nyelvtana a megfigyelt megnyilatkozások véges, és bizonyos fokig esetleges korpuszának tulajdonságait vetíti rá a nyelvtanilag helyes megnyilatkozások (feltehetően végtelen) halmazára. E tekintetben a nyelvtan a beszélő eljárását tükrözi, a beszélőét, aki a nyelvvel kapcsolatos véges és esetleges tapasztalata alapján végtelen számú új mondatot képes létrehozni és megérteni.

Itt megjelenik az ún poverty of the stimulus, azaz az elégtelen mennyiségű inger érvelés. Minden embernek egy potenciálisan végtelen nyelvet kell véges időn belül elsajátítania és nagyon úgy tűnik, hogy negatív példák nélkül (magyarán nem szólunk a gyereknek hogy "figyelj, most mondok neked pár példát agrammatikus mondatokra"). Ezt szokás még Gold elméletével kiegészíteni, mely szerint a formális nyelvek nem tanulhatók meg negatív példa nélkül. Korpusznak itt nevezzünk egy egyszerű karaktersorozatot. Tanulónk egy gép, aminek ki kell találni hogy a szabályok egy halmazából melyek generálták a karaktersorozatot. Gold bebizonyította, hogy negatív példák bemutatása nélkül ez a feladat megoldhatatlan. (Johnson Gold's Theorem and Cognitive Science tanulmányát ajánlom az érdeklődő olvasóknak a témában!)

Ebből a szempontból lényegtelen, hogy az egyes szabályok kategorikusak, vagy rendelünk hozzájuk valamilyen valószínűségi értéket! A lényeg az, hogy valahogy eleve adottnak kell lenniük a szabályoknak, méghozzá úgy, hogy nagyon hamar megtalálja egy gyermek az anyanyelvét generáló grammatikát. Gondoljunk bele, a nyelvelsajátítás ún. kritikus periódusa alatt 2-5 éves kor között kell megtalálni a korpuszhoz tartozó grammatikát! Chomsky ezért Occam borotváját használva a lehető legegyszerűbb elmélet mellett dönt, a nyelvelsajátítás képessége innát (velünk született) kell hogy legyen. Ezzel párhuzamosan érvel a valószínűségek ellen is. Korlátozott, gyakran ellentmondásos adatokból kellene következtetnünk egy általános rendszerre, ez felveti az indukció problémáját. Az adatok ellentmondásossága felveti annak problémáját is, hogy egy inkonzisztens halmazból bármi következhet, azaz ha egy korpuszban (igaz különböző frekvenciával) de találhatunk adatokat grammatikus és agrammatikus szerkezetekre is, akkor nagyon sokat kellene számolnunk a nyelvtanulás során. 

 

A modern nyelvészet legnagyobbjához illő huszáros vágással intézi el Chomsky a fenti kérdést. A korpusz a nyelvhasználat, azaz a performancia lenyomata. E mögött ott van a kompetencia, azaz "helyes és helytelen sorozatokat" elválasztó grammatika, ami kategorikus és nem hibázik. A performancia tökéletlenségét a zavaró külső tényezők (pl. hogy elfáradunk, megoszlik figyelmünk, véges az elménk, stb.) okozzák. A nyelvelméletek számár a kompetencia az igazi terep, ott a valószínűségeknek nincs helye.

Jungle Theory Never Dies!

Nézzük meg Bog és tsai Probabilistic Linguistic-je (a valószínűség nyelvészeti alkalmazásának első hullámában megjelent tanulmánykötet) hogyan érvel a hagyományos nyelvészet ellen.

1) A variancia a nyelv minden szintjén jelen van

2) A nyelvi jelenségek frekvenciája (eloszlása) hatással van a nyelvre

3) Elmosódott határok a nyelvi kategóriák, a jólformáltság stb. területén

4) A nyelvek elsajátíthatósága

Mielőtt elveszítenénk nem nyelvész olvasóinkat, inkább egy példával élnénk a az 1)-3) pontokra. Hallgassunk egy kis zenét!

 

Vessünk egy pillantást a dal szövegére is! Amennyiben az olvasó ismeri a patois nyelvet, akkor gondoljon egy magyar népdalra inkább! Amennyiben nem ismeri, de tud angolul, akkor már talán érti hogy a nyelv nem egy egyszerű dolog. A szöveg nagyon angolos, kb. középszintű nyelvtudással is érhető. Ellenben nem kapna ötöst az, aki angol órán így beszélne vagy írna. A jamaikai patois nem ragadható meg egyszerűen, mert az ún. post-kreol kontinuum állapotában van, ami nagyon tudománytalanul azt jelenti, hogy egyes verziói nem érthetőek az angol beszélő számára, még a másik véglet szinte az English Grammar in Use szabályai szerint formált mondatokból áll. Persze ez egy kontinuum, azaz nincs egy patois A, ami nagyon nem angol, és egy patois Z, ami meg a tökéletes oxfordi angol lenne. Sőt, egy adott beszélő is váltogatja a kontinuumon belül a pozícióját. Azaz varianciával van tele a nyelv, a kiejtéstől kezdve a szintaxisig. Ezt a varianciát erősen befolyásolja a nyelvi jelenségek frekvenciája - pl. otthon inkább patois A, iskolában, hivatalban patois Z, barátokkal, kollégákkal valahol a kettő között beszélget valaki. A szülőhelyükről elkerülő tájszólásban beszélők általános élménye, hogy otthon, hazai közegben vissza szoktak állni a tájszólásra, de amúgy nagyon hamar asszociálódnak. Ennek csak részben oka a megbélyegzés, prózaibb ok az, hogy a standard változattal magasabb gyakorisággal találkoznak, ez pedig hatással van rájuk. A jólformáltság, azaz hogy mit fogadunk el grammatikusnak is hasonlóan viselkedik! A 'eztet jól megcsináltad' valószínűleg kiakasztana egy tanítónénit, ellenben én nagyon gyakran találkozom vele.

A 4) esetében már egy kicsit el kell merülnünk a korábban említett Gold-tételben. Láttuk, hogy ennek értelmében negatív példa nélkül nem tanulható meg egy nyelv. Ha az eredeti kritériumot egy kicsit enyhítjük s csak azt kérjük elméleti tanulónktól, hogy egy adott korpuszhoz tartozó grammatikákból zárja ki azokat, melyek tutira nem működnek, akkor viszont azt láthatjuk, bizony negatív evidencia nélkül is megtanulhatók a probabilisztikus grammatikák, mert ahogy Manning tömören összefoglalja (a Probabilistic Linguistics-ben):

- egy probabilisztikus grammatika velejárója, hogy minden mondatnak van egy valószínűségi értéke, ha korpuszunkat egy ilyen grammatika generálta, akkor a mondatok frekvenciájában ez tükröződni fog

- ez a valószínűségi eloszlás tkp. tekinthető negatív evidenciának is, minél kisebb a frekvencia, annál kisebb valószínűséget kell tulajdonítani az őt generáló szabálynak

Mielőtt örülnénk! A fentiek feltételezik, hogy a tanuló egy stacionárous ergodikus forrásból származó korpusszal találkozik! Maga Manning is megjegyzi azonban, hogy a nyelv nem ilyen. Evvel Chomsky is tisztában van, hiszen a Mondattani szerkezetekben hivatkozik Shannon-ra (aki szintén kimondja, a nyelv nem stacionárius ergodikus forrás). A kedves olvasó ne adja fel, ezeket a nagy szavakat következő posztunkban a helyére fogjuk tenni mindegyiket!

 

Így vagy úgy, de generatívvá kell válnunk 

Anderson víziója szerint az adatok majd mindent megoldanak. Nem véletlenül hivatkozik cikkében a Google-re, hiszen a keresőóriás kutatási igazgatója és két senior kutatója írta a big data programadó tanulmányát The Unreasonable Effectiveness of Data (sokak számára csak UED) címmel, ami máig a legolvasottabb írás a témában. A paper tkp. eseteket sorakoztat fel melyekben viszonylag "buta" statisztikai eljárások nagy adatmennyiségre ráeresztve jobban teljesítenek a szofisztikált modelleknél. 

 

Peter Norvig, a tanulmány egyik szerzője és a Google kutatási igazgatója, Chomsky kritizálásában is élen jár! Sajnos On Chomsky and the Two Cultures of Statistical Modeling című esszéje nem lett annyira sikeres, mint a UED, pedig érdemes lenne követni gondolatait.

 

Norvig egyrészt egyet tud érteni Chomskyval abban, hogy minden elmélet lényege egy jelenség magyarázó erővel történő leírása, ami megnyitja az utat a predikció felé. A statisztikai megközelítésben két iskolát különíthetünk el, az egyik tkp. leírja a vizsgált adathalmazt, még a másik megpróbálja modellezni és általánosítani azt. Norvig szerint Chomskynak az első iskolával van baja igazából, amit el is fogad. De mi ezzel a gond?

 

Vizsgáljuk meg a kNN algoritmust egy kicsit! A kNN tkp. "megeszi" az összes tréningadatot, szépen elraktározza azt úgy ahogy van. Az eljárás ún. "lazy learning" mert semmilyen absztrakció nem történik benne, minden példát összevetünk a tréningadatokkal, hogy megnézzük a vektortérben melyekhez van a legközelebb - és ennyi. Maga az eljárás sokszor nagyon hatékony, de erőforrás-igényes nagy adathalmazokon futtatni és nem túl flexibilis. A gépi tanulás lényege, hogy a tréningadatokból vagy az adatokra alapozva egy hatékony és flexibilis modellt alkossunk, ami képes predikcióra, ezért a legtöbb esetben az adatok mögött meghúzódó disztribúcióra vonatkozó feltételezésekkel kell élnünk. Így a modell egy elmélet arra vonatkozólag, hogy miképp jöhetett létre adathalmazunk, azaz egy generatív elmélet.

Győzött a statisztika?

Az algoritmikus modellezés tehát nagyon hasonlít Chomsky grammatikákkal kapcsolatos elképzelésére, habár ezt Norvig ügyesen elhallgatja írásában. Ellenben megjelenik egy nagyon hatásosnak tűnő érv, mely szerint a nyelvtechnológiában és úgy általában az informatika és a telekommunikáció területén nagyon hasznos dolog az információelmélet (ami az algoritmikus modellezés szinonimája néhol az esszében), ellenben szegény Chomsky és társai alacsony bérért tengetik életüket az egyetemek elzárt világában. Válasszuk ketté ezt az érvet. Először vizsgáljuk meg, hogy a gyakorlati használhatóság tényleg érv-e egy elmélet nagyobb magyarázó ereje és érvényessége mellett, majd nézzük meg, hogy volt-e hatása a generatív grammatikának máshol is.

 

Az első kérdésre nagyon egyszerű válaszolni. A gyakorlati alkalmazás nem jelentheti egy elmélet felsőbbrendűségét. Gondoljunk csak bele, a newtoni fizika ma is nagyon jól használható mérnökök számára, lehet vele épületeket tervezni, lövedékek röppályáját kiszámítani stb. A közoktatásban is általában a klasszikus newtoni fizikával ismerkedünk meg és a relativitáselmélet meg a kvantumfizika csak érintőlegesen szerepel a tantervekben. Ez azt jelenti, hogy mivel nagyobb üzlet a klasszikus fizika (gondoljunk bele, az ipari forradalom óta használja az ipar, azóta rengeteg értéket teremtettek már vele) ezért jobb mint a kvantummechanika?

 

A generatív grammatika hatását megkérdőjelezni manapság hülyeség. Az elmúlt hatvan évben alig akadt olyan produktuma a kognitív tudományoknak, mely ne foglalt volna állást Chomsky-t illetően. Őt egyszerűen szeretni vagy gyűlölni kell ezen szakmákban. A nyelvtechnológia és a mesterséges intelligencia sem kivétel a szabály alól, ezért nyugodtan elmondhatjuk, megtermékenyítően hatottak a generatív iskola gondolatai az alkalmazott kutatásokra is, még az ipar is szeret leállni veszekedni velük.

 

Az elméletek tökéletlenek - s ez így van rendjén

Korábban már írtunk arról, hogy az elméletek empirikusan aluldetermináltak, itt csak röviden szemléltetjük mit is jelent ez a gyakorlatban. Ha adott a megfigyeléseinket rögzítő adatok halmaza, akkor szeretnénk abból egy elméletet alkotni, ami lehetővé teszi, hogy predikciókat is tehessünk. Hiszen tök jó tudni pl. hogy eddig minden villámlást követett mennydörgés, de következik-e ebből az hogy, a következő viharban is lesznek villámok és dörögni fog az ég? Ez ismét az indukció problémája! Ahhoz, hogy túllépjünk adatainkon, fel kell vennünk olyan állításokat elméletünkbe, mely lehetővé teszi a még nem megfigyelt adatokra való állítások megtételét! Ezt tette Chomsky is és ezt teszi minden valószínűségi modellezéssel foglalkozó kutató. Jó okuk van erre, de be kell látni, hogy empirikusan sohasem igazolható minden elméleti előfeltevés, minden esetben ott a hiba lehetősége! Popper szerint azonban a tudomány lényege pontosan az, hogy artikulálni kell miképp bukhat el elméletünk, meg kell adni falszifikációs feltételeit. A tudomány lényege nem a megcáfolhatatlanság, hanem a nyíltság, a kritizálhatóság. Ennek rész, hogy egy elmélettel kapcsolatban felszínre kell hozni előfeltevéseit. Szerintünk Chomsky sokkal tisztességesebben jár el ezen a téren, mint Norvig. A Google kutatója ui. elfelejt két fontos dolgot:

- maga Shannon is csak egy eszköznek tartotta az információelméletet a nyelv modellezésére, mivel szerinte a nyelv nem egy stacionárius ergodikus forrás

- az algoritmikus modellezés nem lehet szigorúan empirista, mivel természete szerint egy absztrakt modell létrehozását célozva induktív lépést kell hogy tartalmazzon, ami pedig empirikusan aluldeterminált

A Probabilistic Linguistics érvei nagyon meggyőzőek, de Norvig esszéjének kritikája alapján be kell látnunk, a szigorú empirizmus nem lehetséges. A nyelvi modellek ebből kifolyólag nem rendezhetőek sorba értékességük szerint. El kell fogadnunk, hogy a nyelvvel kapcsolatos gondolkodás területén nincs uralkodó paradigma. Ennek inkább örüljünk, hiszen nagyon unalmassá válna a világ, ha csak egy kereten belül gondolkodhatnánk!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Data Analysis with R

2014.10.22. 11:28 Szerző: zoltanvarju Címkék: ismertető R Udacity data analysis

Manapság mindenki valamilyen MOOC kurzust hallgat éppen. Sokan már ún. verified certificate tracket választanak, azaz valamennyit áldoznak arra, hogy igazolva legyen, eredményesen elvégezték a kurzust. Szerencsés voltam és én ingyen vághattam bele a Udacity által kínált Data Analysis with R-ba, ennek tapasztalatait összegzem ebben a posztban.

udacity_logo.png

Az első és legfontosabb kérdés egy MOOC esetében, hogy miért fizetünk, ha már fizetünk. A Coursera, az EdX a FutureLearn és a Udacity (hogy csak a nagyobbakat említsem) egy dologban megegyezik; kurzusaik nem akkreditáltak! Mit jelent tehát az, ha verifikálják a tanulót? Azt, hogy megnézte a videókat, megcsinálta az online kvízeket és fizetett. A Udacity abban különleges, hogy habár együttműködik egyetemekkel, náluk a verified certificate teljesen mást jelent. Először szögezzük le, baromi drága, általában 200 USD/hó egy kurzus és minimum két hónap egy-egy MOOC elvégzése. Ellenben kötelező egyszer legalább Google Hangouts-on beszélni a tutorunkkal (mert kapunk ilyet), az egyes leckékben szereplő kvízek és feladatok nem számítanak bele a végső értékelésbe, a hitelesített "papír" megszerzéséhez egy projektet kell elkészítenünk, majd egy online interjú keretében beszélnünk is kell művünkről. Ha menet közben gondunk akad, akkor a tutorunkkal egyeztethetünk időpontot online beszélgetésre, vagy levelet küldhetünk, négy munkanapon belül köteles válaszolni. Ez a módszer szerintem sokkal gyakorlatiasabb és biztosítja, hogy a MOOC-on tanultakat legalább minimálisan képes használni a tanuló valós körülmények között is. A legtöbb Udacity kurzus érdekessége, hogy nem egyetemek ajánlják, de sok esetben nagy cégek (pl. Facebook, Cloudera, Google) kutatói vettek részt az anyag elkészítésében és ezek az arcok gyakran megjelennek a kurzusban is (általában amolyan pihenő videók formájában beszélnek a munkájukról két keményebb anyag között).

 

A Data Analysis with R nem egy hibátlan kurzus, de annak aki tanult már statisztikát és valamennyire ismeri az R-t ez egy remek anyag az ún. explorarory data analysis és a ggplot megismerésére. A videók mérte pont optimális, 30 másodperc és 10 perc között változik, ami nekem ideális volt, mert csak amolyan lopott percekben tudtam haladni vele. A feladatok már nem annyira jók. Gyakran tkp el kell olvasnunk egy-egy csomag, vagy függvény dokumentációját, a példákat módosítjuk és meg is oldottuk a feladatot. Sajnos általános feladattípus hogy fejezd be a kódot, majd nyomd meg a "Submit" gombot, de visszajelzést nem kapsz, a kódot nem futtathatod online, ha csak egy karaktert beír az ember, akkor is "Congratulations!" felkiáltással nyugtázza a Udacity ténykedésünket.

udacity_eda.PNG

A projekt igazán izgalmas dolog! Én a prosper dataset mellett döntöttem, mert érdekeltek a hitelek. A követelmények szerint egy felfedező részben pár változót kell megvizsgálni, majd többváltozós plotokkal a közöttük lévő összefüggéseket feltárni, végül három jellemző vizualizációval és egy rövid szöveges elemzéssel zárunk. Mindezt a nagyon egyszerű, kényelmesen használható knttr csomaggal kell végezni, ami egy remek kis html oldalba ágyazott riportot eredményez. Maga projekt kb 20-30 órát vesz igénybe, nem kell félni, ha visszadobják, akkor részletes megjegyzésekkel teszik és tkp. akárhányszor jelentkezhetünk a javított verzióval, a "bukásnak" nem marad semmi nyoma a Udacity-nál :D A projekt beküldése után hét munkanapon belül értesülünk eredményünkről és ha pozitív az értékelésünk, akkor foglalhatunk magunknak időpontot a projekt interjúra. A végső elbeszélgetés egyik célja, hogy igazoljuk, mi dolgoztunk a projekten, ezért nagyon kíváncsiak arra, hogy miért az adott adathalmazzal dolgozott az ember, hogy látja, mit lehetne javítani még a projekten stb. Ezután egy gyors elégedettségi kérdőív következik, mit szerettél a kurzusban, mit lehetne rajta javítani stb. Az egész nem több 25-30 percnél és a végén meg is mondják, hogy sikerült-e meggyőzni őket arról, hogy te dolgoztál a projekteden. Ezután kb. 5 perc és jön az email, hogy letöltheted a verified certificate-edet - papír nincs. Ellenben a ggplot alapjait, az eda alapelveit megtanulja az ember használni és még bizonyítani is tudja ezt a saját kis projektjével. Annak, aki megengedheti magának, csak ajánlani tudom a Udacity kurzusait, mivel ténylegesen használható tudást lehet megszerezni módszerükkel.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre