HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Október 15: Design és NLP

2014.10.09. 08:00 Szerző: zoltanvarju Címkék: design meetup NLP meetup opp.io

Októberi meetupunkat október 15-én, szerdán tartjuk a Colabsben (1016 Budapest, Krisztina krt. 99.) 18 órától. Két izgalmas előadást hallhatnak a résztvevők a design és az nlp kapcsolatáról, vagy éppen arról, hogy a józan ész segítségével a nyelvtechnológiai csodák alkalmazása is megspórolható. A részvétel továbbra is ingyenes, de arra kérünk mindenkit hogy regisztráljon az esemény oldalán.

logo9_final.jpg

Borgulya Gergely: http://opp.io 

Az opp.io egy alkalmazás, amely egybe gyúrja az üzenetküldést és a feladatszervezést. Hogyan oldjuk meg, hogy egy kötetlen üzenetből kiderüljön a tömör lényeg: ki mit tegyen? Hogyan adjunk nyelvi kontextusba illő tömör, feldolgozható választ, mint pl “megtettem”? Az előadás ezekre a kérdésekre keresi nyelvi és technológiai szemszögből a választ.


Borgulya Gergely az opp.io társalapítója és fejlesztője. Korábban az MTA SZTAKI kutatója volt, később a Graphisoft fejlesztője majd marketingeseként dolgozott. Okleveles építészmérnöki diplomáját 2006-ban szerezte a BME-n, MBA tanulmányait jelenleg fejezi be a Budapesti Corvinus Egyetemen. 

 

Rung András: Hangrobbanás - a következő nagy dobás az interface-ek világában

A magyar nyelvű gépi felolvasás és szövegértés is eljutott arra szintre, hogy beépíthető legyen alkalmazásokba. Ennek az áttörésnek köszönhetően az adatok akkor is kezelhetőek és áttekinthetőek lesznek, amikor felhasználónknak nem szabadak a kezei vagy nem tudja tekintetét a mobilképernyőn tartani. A hangvezérlés és a gépi felolvasás lehetővé teszi, hogy ilyen helyzetekben is használható legyen alkalmazásunk. 

Rung András előadásában megmutatja, hogy ha alkalmazásunkba hangvezérlést kívánunk beépíteni, akkor milyen kihívásoknak kell megfelelnünk. Hogyan tehetjük meg az első lépéseket, hogy megelőzzük konkurenciánkat és új piacokat érjünk el pl. ha a felhasználó. Ennek kapcsán kitér a legsikeresebb kezdeményezések bemutatására és ezek problémáira is. Az előadásban kitér a legfontosabb tervezési alapelvekre is. 

 

Rung András 2002 óta foglalkozik használhatósággal és felhasználói élmény tervezéssel. A Felhasználóbarát honlapoknak, az első magyar internethasználhatósággal foglalkozó könyvnek a társszerzője. Cikkei a nemzetközileg is jelentős Smashing magazinban is megjelentek. Kis- és nagyvállalatoknak tervez weblapokat és alkalmazásokat, hogy üzleti céljaikat hatékonyan elérhessék, és befektetett pénzüket jól kamatoztassák.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Pénzért mindent megkaphatunk? Egy kis politikafilozófia és nyelvtechnológia

2014.10.08. 08:00 Szerző: zoltanvarju Címkék: tartalomelemzés digitális bölcsészet R szógyakoriság politikafilozófia Sandel Google Ngram Ngram ngramr

Michael J. Sandel korunk egyik legmeghatározóbb politikafilozófusa What Money Can't Buy című könyvében a piacok határait járja körül. Mielőtt az olvasó megkérdezné, de mi köze ennek a nyelvtechnológiához, gyorsan eláruljuk, érvelésében a Google Ngram Viewer-re is hivatkozik, ezzel megvalósítva minden digitális bölcsész álmát, az új technológia az egyik leghagyományosabb bölcsész szakmát is elérte!

whatmoneycantbuy.jpg

Dióhéjban, Sandel elmélete szerint az utóbbi harminc évben a piaci kapitalizmust felváltotta a piaci társadalom. A közgazdaságtani érvelést az élet minden területére kiterjesztettük lassan és nem igazán beszélünk alapvető értékeinkről. Mielőtt bárki azt hinni, Sandel a "régen minden jobb volt" iskola híve és csak szidja a jelent, gyorsan eláruljuk hogy szerzőnk fő céljának inkább azt tekinti, hogy gondoljuk át mit teszünk, artikuláljuk a pro és kontra érveket, amikor valamit a piac logikájának vetünk alá és vegyük észre, hogy ez sokszor megváltoztatja azt, miképp viszonyulunk az adott dologhoz. Mindenkinek csak ajánlani tudjuk a kötetet, vagy a kötet alapjául szolgáló előadás ingyenesen elérhető változatát (de sajnos az 1998-as, ezért még nincs benne szó Google Ngram-okról).

 

Térjünk vissza a nyelvtechnológiához. Sandel a viselkedési közgazdaságtan (behavioral economics) és a modern ökonómia egyik kedvenc szavának, az "incentive", gyakoriságát megvizsgálva azt találta, hogy az a nyolcvanas években hirtelen megugrott a neoliberális fordulatnak köszönhetően. Nem bírtuk megállni, hogy az R ngramr csomagjának segítségével ne ellenőrizzük le Sandel állítását és ne gondolkozzunk el azon, hogy a technológia segítségével egy kicsit mélyebbre is nézhetünk-e egy-két jellemző szó gyakoriságánál.

incentive.png

Sandel az "incentive" mellett még az "incentivise/incentivize" szavakat is vizsgálta és az Ngram Viewer mellett a LexisNexis-t is bevetette és természetesen az eredmények igazolták elméletét. A kiváló politikafilozófus a trendről megállapítja, hogy azért veszélyes, mert a piac logikája racionálisnak, amorálisnak (de nem immorálisnak) tünteti fel magát, holott minden társadalmi kérdés egyben etikai is, s a közgazdasági gondolkodás elválaszthatatlan a morális problémáktól. Vajon mit mondanak erről az n-grammok?

 

A One Lookup segítségével könnyen megtalálhatjuk mely szavakhoz kapcsolódik leginkább egy adott kifejezés. A szolgáltatás hasonló a régen nagyon népszerű Google Sets-hez. Az "incentive"-re adott találatok közül teljesen önkényesen kiválasztottunk hatot, melyek saját (igen limitált) közgazdasági ismereteink szerint kötődnek a piacokkal kapcsolatos gondolkodáshoz napjainkban, majd megnéztük ezek gyakoriságát a Google Ngram korpuszon.

incentive_related.png

A "moral force" (motiváció, erkölcsi parancs) a One Lookup szótárakon alapuló korpusza alapján a "incentive" környezetében szokott előfordul a definíciókban, annak hiponímiája. De jelentése sokkal közelebb áll a motivációhoz, amihez nem tapad annyira a gazdasági ösztönzés képzete. A "moral force" gyakoriságának csökkenése amúgy párhuzamba állítható az "incentive" frekvenciájának emelkedésével is, illetve a "motivation" említésgyakorisága is egy időben ugrik meg vele valamikor a nagy gazdasági világválság idején. Ekkor még Keynes volt divatban, ám a nyolcvanas években látható hogy nem hiába volt Hayek Thatcher és sok más államfő egyik kedvenc szerzője.

Érdekes látni, hogy az eszmetörténeti érvelésben is teljesen természetesen jelenik ma már meg egy pár éve még nem is létező eszköz. Reméljük pár év és nem lesz külön digitális bölcsészet, csak szimpla bölcsészet ami használja a technológia lehetőségeit.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Beharangozó

2014.10.07. 08:00 Szerző: Szabó Martina Katalin Címkék: konferencia szentimentelemzés emócióelemzés

Kedves Szentimentális és Emocionális Olvasóink!

Nagy örömünkre szolgál hírül adni, hogy 2014. november 4-én bemutatkozunk a magyar nyelvű szövegek automatikus szentiment- és emócióelemzését célzó projektünk első eredményeivel.

Fáradhatatlanul dolgozunk, és a munka során számos elméleti nyelvészeti és nyelvtechnológiai problémával találtuk már szembe magunkat. Mindezeket a kérdéseket szeretnénk feltárni és megvitatni a Kodolányi János Főiskola, az ELTE BTK Alkalmazott Nyelvészeti Tanszéke és a Tinta Könyvkiadó által közösen szervezett Nyelv, kultúra, társadalom című tudományos konferencián (2014. november 3-4.) a Kodolányi János Főiskola budapesti épületében (Budapest XIII. Frangepán u. 50-56.), két előadás keretében,12 órai kezdettel. 

Előadásaink absztraktjaival igyekszünk kedvet csinálni a prezentációkhoz:

absztrakt1.jpg

 

absztrakt2.jpg

Minden érdeklődőt szeretettel várunk, és köszönjük, ha észrevételeikkel, javaslataikkal és kérdéseikkel támogatják a munkánkat. Találkozzunk november 4-én a Nyelv, kultúra, társadalom konferencián!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A szakítás koreográfiája a közösségi médiában

2014.10.06. 08:00 Szerző: zoltanvarju Címkék: tartalomelemzés Twitter Pennebaker pszichológiai profilozás

Ahogy arról már korábban is beszámoltunk, a Facebook tudja kivel kavarunk, akkor is ha nem jelöljük a profilunkon. A kutatók számára sajnálatos módon - ha nem a Facebook alkalmazottai - a személyes interakciók nem hozzáférhetőek, de szerencsére sokan a nyilvános Twitter-t használják személyes kommunikációra. Ez bepillantást enged abba, hogy a szakítás hogyan változtatja meg egy-egy felhasználó viselkedését a közösségi médiában.

 

Garimella és tsai From "I love you babe" to "leave me alone" - Romantic Relationship Breakups on Twitter című tanulmányukban 661 szakító és "kitartó" pár online életét követték nyomon 2013 novembere és 2014 áprilisa között. Kiindulási adatuk a Gnip ingyenes Twitter korpusza volt, ezt crowdsourcing segítségével elemezve azonosítottak heteroszexuális, angol nyelvterületen élő párokat. Fontos megjegyezni, az adatok nem reprezentatívak, a tinik aránya a mintában igen magas. Sietősök számára hat pontban összefoglaljuk mit találtak a kutatók.

 

1. Minél tovább járnak a párok, annál kisebb a szakítás valószínűsége 

2014-10-04 09.09.41.png

2. A profilok radikálisan megváltoznak a szakítás után

2014-10-04 09.10.00.png

Sokan szeretik Twitter profiljukban megemlíteni kedvesüket. Ám értelem szerűen a szakítás után a profil átalakításra szorul.

3. Az egymás közötti üzenetekben a szerelem kifejezését átveszi a másik kritizálása a szakítás után

2014-10-04 09.10.34.png

4. A szakítás előtt és után csökken az egymás közötti üzenetváltások száma és növekszik a másokkal folytatott beszélgetés aránya

2014-10-04 09.11.11.png

5. A szakítással a közös barátok egy részét is elveszítik a felhasználók

2014-10-04 09.11.22.png

A tanulmány szerzői szerint ez az egyik legmeglepőbb eredményük. Ha az említett Facebook tanulmányt is figyelembe vesszük, akkor azonban érthető, hiszen a az új kapcsolat általában két csoport között hoz létre ún. "weak tie"-t  és ez a szakítással megszűnik. Amúgy pedig az offline életből sokan rendelkezünk hasonló tapasztalatokkal... 

6. A depresszióra utaló nyelvhasználat a szakítás előtt megjelenik

2014-10-04 09.11.58.png

Pennebaker LIWC pszichológiai tartalomelemző szoftverét bevetve arra jutottak kutatóink, hogy a depresszív   szóhasználat megemelkedik a kapcsolat megromlásakor. Fontos megjegyezni, hogy a rendelkezésre álló adatok alapján nem lehet eldönteni, hogy ez oka vagy következménye a szakításnak!

 

Zseniális, hogy szabadon hozzáférhető adatokra alapozva, egyszerű eszközökkel végezték vizsgálatukat a tanulmány szerzői! A Facebook vizsgálatai etikai kérdéseket vetnek fel, hiszen sok felhasználó abban a hiszemben használja az oldalt, hogy személyes kommunikációja titkos. Ellenben a Twitteren mindenki tisztában van azzal, hogy alapból mindenki számára nyilvánosak üzenetei (vagy egy szűk kör számára hozzáférhetőek), így a csiripek elemzése nem veti fel a privát szféra megsértésének kérdését. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Könyvajánló: The Language of Food

2014.09.30. 18:27 Szerző: kittibalogh Címkék: könyvajánló

Hogyan lehet megmondani csak az étlap alapján, hogy olcsón megússzuk az ebédünket vagy mélyen a zsebünkbe kell nyúlni? Hogyan befolyásolják a választásunkat a chipses zacskón található feliratok? Mi köze a szexnek a sushi tekercsekhez? Miként terjedt el az Óperzsa Birodalomban kedvelt sikbāj nevű halétel az évszázadok alatt, milyen történelmi-kulturális folyamatok során lett belőle a spanyol escabeche, a francia aszpik, a dél-amerikai ceviche, a japán tempura és a brit fish and chips? Milyen hatással van ránk az ételmárkák hangszimbolikája? Dan Jurafsky, a Stanford Egyetem oktatója ilyen és hasonló kérdéseken töprengett az utóbbi években, és amire jutott, le is írta legújabb The Language of Food: A Linguist Reads the Menu c. könyvében.

the language of food.jpg

 

Dan Jurafsky sokak számára ismerős lehet, ugyanis James H. Martinnal közösen ők a népszerű Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics c. tankönyv szerzői. Jurafsky tudományos munkája során természetes nyelvfelismeréssel, társalgás- és párbeszédelemzéssel, valamint az NLP viselkedés- és társadalomtudományi alkalmazásaival foglalkozik. Emellett szabad- és munkaidejének egy részét évek óta egy speciális tudományos hobbijának, az ételek nyelvészetének szenteli. Az idén megjelent The Language of Food c. könyvében tizenhárom izgalmas történeten keresztül osztja meg ezt a szenvedélyét a nagyközönséggel.

A könyv műfajilag is eltér Jurafsky eddigi írásaitól, a The Language of Food ugyanis amolyan ételekről szóló szórakoztató tudományos ponyva a bestsellerré válás minden hajlamával. Jurafsky tudományos igénnyel mutatja be az „ételek nyelvét”, azonban nem viszi túlzásba a módszerek és elméletek ismertetését, ami mindenki számára fogyaszthatóvá és élvezhetővé teszi a könyvet. Arról nem is beszélve, hogy egy manapság közkedvelt témáról, az ételekről ír, amivel egy olyan társadalmi-kulturális közegben, ahol az emberekbe nap mint nap a tudatos és egészséges táplálkozás és életmód fontosságát sulykolják, nem hibázhat. (Ezt a fajta önreflexiót kicsit hiányolhatjuk is.)

De nem csak ezzel nyerheti el a könyv az emberek tetszését. Egy mit sem sejtő olvasó a cím alapján valószínűleg azt hinné, hogy egy kifejezetten nyelvészeti megközelítésű könyvet tart a kezében, azonban már az első fejezetnél kellemes meglepetés fogja érni. Jurafsky könnyedén vegyíti a nyelvészeti elemzést a történelmi, pszichológiai, szociológiai és kulturális antropológiai aspektusokkal. Különböző korokon, tájakon, kultúrákon keresztül utaztat minket a könyvben, miközben Grice maximáival, Bourdieu és Simmel fogyasztáselméletével, a Pollyanna elmélettel, Wolfgang Köhler pszichológus egyik alakkísérletével, Pennebaker és társainak funkciószavas vizsgálatával és sok egyéb érdekes dologgal ismerkedhetünk meg.

Az érintett tudományokban jártasabb személyeket talán nem elégíti ki a különböző tudományos elméletek és vizsgálatok szűkszavú ismertetése, azonban ennek orvoslásaként a könyv további olvasnivalóhoz irányítja át az érdeklődőket. Ami talán még zavarhatja az olvasókat, azok olyan stílusjellemzők, mint a bensőséges hangvétel, ami néhol furán keveredik a tárgyilagos tudományos részekkel, valamint a szájbarágós, a tanulságot a fejezet végén mindenáron összefoglalni akaró szentenciák. Ámde a sztorizgatás és a szájbarágás is sajátosságai ennek a műfajnak, amit mindenki el tud dönteni magának, hogy kedvel-e vagy sem.

Mindent egybevetve a könyv eléri a kívánt hatást. Fenntartja az érdeklődést, szórakoztat, olvastatja magát, sokféle új tudásmaggal lát el, és csak annyira, hogy az ne legyen túl megterhelő. Megfelelő olvasmány egy megerőltető nap után, mikor az ember már nem akarja tovább kínozni az agyát, de nem is akarja sorvadni hagyni.

Emellett olyan döbbenetes dolgokra lehet a könyv olvasása közben rájönni, minthogy a Star Trekes ételreplikátorból lehet, hogy nem csak az alkotók ötletszegénysége miatt kérhetik a dolgozók ugyanazokat az emberi ételeket, mint amit egy ma élő amerikai eszik, hanem az időn és téren átívelő kulturális hasonlóságok, valamint a közös szociális és kognitív emberi jellegzetességek miatt. Bár ez még nem oldja meg, hogy más fajok miért esznek a földihez nagyon hasonló ételeket.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre