A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.
Az alábbi keresődobozsegítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.
Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.
Precognox Blogkereső
Document
opendata.hu
Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.
A long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...
A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft.Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.
A "data science" vagy adattudomány napjaink egyik legdivatosabb szava IT körökben. Fontos azonban megjegyeznünk, hogy ez nem csupán a nagy mennyiségű adatok feldolgozásához szükséges infrastruktúrát és a statisztikát jelenti. Legalább annyira fontos az elméleti háttér is, hiszen az segít kérdéseket megfogalmazni és értelmezni a válaszokat. A társadalomtudományok számára a webkettes technológiák eddig soha nem látott mennyiségű adatot hoztak, melyek az adatfeldolgozás technikai megoldásain túl kutatásmódszertani kérdéseket is felvetettek. Ezek közül az egyik legjelentősebb az ún. terepkísérletek átültetése az online világra. A szinte minden statisztika tankönyvben fellelhető példa szerint, a francia falvakban a gólyafészkek száma és az újszülöttek száma között korreláció van. Egy bizonyos kor után szinte minden ember tudja, hogy nem a gólya hozza a babákat, ergo a korreláció nem jelent oksági (kauzális) kapcsolatot a két jelenség között. A gólyák és az újszülöttek esete egyszerűnek tűnik, de vannak sokkal bonyolultabb esetek is. Pl. a dohányzás és a daganatos megbetegedések megjelenése közötti viszony kimutatása nem volt éppen zökkenőmentes, de az afro-amerikaiak alacsony pontszámait az IQ-teszteken sokáig gazdasági hátterükkel korreláltatták míg rá nem jöttek, hogy a fehér középosztálybeli iskolázott férfiakra szabott kérdések rosszak. A kísérletek célja, hogy felfedje tényleg akad-e oksági kapcsolat ott, ahol korrelációt találunk, ill. rávilágítson az oksági lánc irányára. A CompSS előadásai laikusok számára is emészthető formában mutatják be mi mindenre jó az ilyen gondolkodás.
Jeff Heer: Interpretation and Trust
Jon Levin: Learning from Experiments in Online Markets
Hal Varian: Predicting the Present with Search Engine Data
Justin Grimmer: The Impression of Influence
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
A BBC Horizon dokumentumsorozatának egyik idei darabja a Big Data felfogásban rejlő lehetőségeket tárja elénk. A Különvélemény lehet ma már nem számítana sci-finek?
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Az adatújságírás nagyon színes terület. A Guardian Datablog talán a legismertebb projekt, ami szinte naponta közöl adatvezérelt cikkeket, melyek általában egy grafikonból és/vagy egyéb vizualizációból és egy rövid értelmező szövegből állnak s a cikk végén linket tartalmaznak az adatokhoz (amennyiben nyilvánosak). Szintén népszerűek a "hagyományos" cikkeket kiegészítő adatvizualizációk, mint pl. a Bloomberg Billionaires Index.
Az adatújságírás vicces és egyben hasznos kiegészítője a "komoly" írásnak, de van amikor sokkal nagyobb szerepet játszik mint gondolnánk. A mozgalom gyökerei egészen a detroit-i zavargásokig nyúlnak vissza, amikor Meyer és társai társadalomtudományi kutatásmódszertan segítségével próbálták rekonstruálni és megérteni a történteket. Az angliai zavargások idején a Guardian és a London School of Economics elevenítette fel ezt a hagyományt és szinte "élőben" követte tudományos adatokra alapozott beszámolókkal az eseményeket. (Bővebben Adatújságírás - vissza a gyökerekhez című posztunkban olvashatnak látogatóink.) Az ilyen írások sokak szerint "social science done on deadline", határidőre írt társadalomtudományi beszámolók. Azonban nem egészen ez a helyzet.
A nyugati világban általánosan az írni-olvasni tudás (igen, bármennyire is szeret mindenki azon siránkozni, hogy a fiatalok szinte analfabéták) és egyre magasabb az általános műveltség és az átlagos iskolázottsági is, de saját szakterületén kívül ma már senki sem szeret tudományos/szakmai szöveget olvasni, mivel a specializálódás miatt a sok szakkifejezés nagyon fárasztó. Az adatújságírás nagy riportjai itt játszanak fontos szerepet, segítenek tudományos eredmények alapján, de az újságírás eszközeivel bemutatni egy jelenséget. Ilyenek például a The Economist Intelligence Unit "Special Report"-jai, melyeket a The Economist-ban szoktak közölni.
A Reuters The Unequal State of America című riportja a legjobb példája a fent leírt módszernek. Közgazdászokkal és szociológusokkal együttműködve született a riport, amely végén egy metodológiai összefoglaló is található. Ugyanakkor a cikkek hangvétele egészen személyes, néha már-már szinte átmegy gonzó újságírásba, amikor hirtelen egy grafikonnal találkozva az olvasó visszazökken a tárgyilagosabb hangvételbe.
Habár a Bloomberg és a Reuters elsődlegesen az adatok összegyűjtéséből és továbbadásából termeli bevételei jelentős részét, egyre hangsúlyosabban jelennek meg saját adatvezérelt tartalommal is. Ez nem véletlen, hiszen a legelvetemültebb elemzőnek is szüksége van néha átfogó képre olyan területről, amivel nem, vagy csupán érintőlegesen foglalkozik. Úgy tűnik az adatok és száraz összefoglalók mellett egyre nagyobb piaca van az adatvezérelt riportoknak is.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Társadalmi kísérletek és big data című posztunkban bemutattuk, hogy a big data és a társadalomtudományok randomizált kísérletei hogyan járultak hozzá Obama választási győzelméhez. Habár sokkal kevesebb hírverést kapott, de George Lakoff és csapata is nagy szerepet játszott a politikai marketingben és az egyszavas "Hope" és "Change" szlogenek megalkotásában.
Lakoff kutatásait a Moral Politics, How Liberals and Conservatives Think című könyvében összegezte. A mű központi tézise szerint az amerikai politika nyelvét két metafora uralja, a kemény/szigorú (strict) és a gondoskodó (nurturant) apa és az Egyesült Államok történetét áthatja ez a kettősség, az alapító atyáktól kezdve. A gondoskodó apa metaforája a liberális nézeteket, még a keményé a konzervatívokat jellemzi. Egy adott egyént nem jellemez kizárólagosan egyik metafora sem, bizonyos kérdésekben az egyik, még másokban a másik dominálja gondolkodását. A politikai kommunikáció célja így az, hogy megerősítse valamelyik metaforát a választóban.
A Rockridge Institute egy liberális think tank volt, melyet maga Lakoff alapított és célja az volt, hogy a demokratáknak segítsen elérni a választókat megfelelő metaforákkal. Az intézet tagjainak többsége Lakoff köréből és/vagy a Berkeley nyelvészeti tanszékéről érkezett. Az első Obama kampány során rendkívül népszerűk lettek a Rockridge tanácsadói, de ekkor már más keretek között dolgoztak.
Lakoff a 2008-as választásokra "dobta össze" a Don't think of an elephant! című könyvecskét, amiben a Moral Politics-szal ellentétben már nem törekszik a tudományos távolságtartás látszatára sem. A könyv amolyan választási kiskáté, ami megpróbálja a fontosabb liberális politikai kérdések "helyes" metaforáit megadni, továbbá kísérletet tesz arra, hogy a konzervatív metaforákat rossznak bélyegezze. Ennek az összegzése a Whose Freedom? könyv lett, amit a tudóstársadalom erősen meg is kritizált. 2007-ben a Rockridge megszűnt, de a volt tagok több fronton is bevetették magukat.
A közérdekű egyesületek és alapítványok kampányát segítő Fenton Communications lett az utóbbi években a Rockridge-ben kidolgozott kommunikációs módszerek egyik legfőbb felhasználója.
A Cognitive Policy Works vette át a szigorú értelemben vett politikai kommunikációt, de ügyfeleik között civil (általában demokrata kötődésű) és egyre inkább vállalati partnerek is akadnak.
Habár Lakoff mindinkább a politika és a politizálás felé fordul, hatalmas érdeme, hogy "kinyitott" egy új piacot a fiatal nyelvészek előtt. Tőlünk szerencsésebb történelmi fejlődésű országokban egyre több marketing ügynökség alkalmaz kognitív nyelvészeket, a tartalomelemzésben is terjed a módszer használata, továbbá a nyelvtechnológia is egyre többet merít a területen felhalmozott tudásból.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Chris Anderson The End of Theory cikke szerint a big data önmagában szükségtelenné teszi az elméleteket. Mark Graham a Guardian hasábjain remekül érvelt amellett, hogy nem spórolható meg a rendes tudományos munka még a nagy adatokkal sem. Az adatokat valahogy elemezni kell, az elemzés eredményét pedig értelmezni szoktuk. A nyelvtechnológiában még inkább szükségünk van elméletekre ehhez, hiszen gyakran a nyelvi adatokból szeretnénk következtetni valami másra, pl. a felhasználó preferenciáira, várható viselkedésére, az általa közölt információ megbízhatóságára stb. Most röviden áttekintjük a nyelvtechnológiára alapozott vizsgálatok értelmezése terén legnagyobb hatást gyakorló három elméletet, melyek közös pontja, a kognitív tudomány (vagy megismeréstudomány).
James W. Pennebaker szociálpszichológus The Secret Life of Pronouns című könyve ma az egyik legnépszerűbb mű a szentimentelemzéssel foglalkozók körében. Pennebaker kutatásainak középpontjában az ún. funkciószavak állnak, melyek a nyelvtani, szerkezeti viszonyok jelölésére szolgálnak (pl. névmások, névelők, kötőszavak stb.) szemben a tartalomszavakkal (pl. főnevek, igék stb.) A nyelvtechnológiában alkalmazott szózsák modellben a funkciószavakat szeretjük stopszó listára tenni és kiszűrni, mivel túl sok "zajt" keltenek. Ellenben ezek használata sokat elárul a beszélő személyiségéről, vagy éppen arról, hogy igazat mond-e. Pennebaker elméletét sokan próbálják átültetni a gyakorlatba. Randioldalakon a profilok őszinteségét rangsorolják vele, egészségügyben a diagnosztikát segítik és terápiás céllal is bevetik. A SmogFarm startup pedig általános szentimentelemzésre és felhasználói bázis szegmentálására (a demográfiai adatok személyiségjegyekkel történő kiegészítésére) használja Pennebaker elméletét, aki nem mellesleg a cég tanácsadója is. Állandó időhiánnyal küzdő olvasóinknak ajánljuk Pennebaker Scientific American Mind&Brian Magazine interjúját és az alábbi TED előadását.
Geoffrey Millerevolúciós pszichológus szakterületét a manapság divatos viselkedés közgazdaságtanra alkalmazta. Spent: Sex, Evolution, and Consumer Behavior című könyve a konzumerizmus és a kapitalizmus ötletes bírálatát adja egy pszichológus szemszögéből. Miller szerint habár a marketing pszichológiai tankönyvek elavult elméletekre hivatkoznak (pl. Maslow piramisára) a gyakorlat azt mutatja, a reklámok az evolúció során kialakult öt nagy személyiségvonást (Big Five) veszik célba. Ennek oka egyszerűen az, hogy a szakemberek ösztönösen érzik ezen személyiségvonásokat, hiszen az evolúció során agyunk arra rendezkedett be, hogy nagy pontossággal azonosítsuk ezeket.
Kísérletek igazolták, hogy az emberek viszonylag nagy pontossággal képesek valakit besorolni az öt nagy jegy egyikébe. Viszonylag egyszerű és olcsó pszichológiai teszttel bárkit be lehet sorolni az egyik személyiségvonásba. Az egyes kategóriák - emocionalitás/neurocitás, extraverzió, nyitottság/intellektus, barátságosság/együttműködés és lelkiismeretesség - sokkal jobban korrelálnak a fogyasztási szokásokkal, mint a demográfiai jellemzők (kor, nem, lakóhely, státusz) s ezért jó kiegészítő adatai lehetnek egy marketingkampánynak. Ahogyan arról már a Tweet a lélek tükre(?) című posztunkban beszámoltunk, a nyelvi viselkedést és azon belül is a közösségi média nyelvhasználatát elemezve is elvégezhető a vonások elemzése. Az ún. szegmentálással, azaz a célcsoportok különböző kritériumok szerinti osztályozásával foglalkozó cégek körében egyre népszerűbb ez az elmélet. Érdemes elolvasni Miller könyvét, kedvcsinálónak pedig TED előadását ajánljuk.
A metaforák átszövik nyelvünket, nem csak az irodalmi nyelvhasználatban vagy az ünnepi beszédekben használunk metaforákat vagy metaforikus alakzatokat. George Lakoff és Mark JohnsonMetaphors We Live By című könyvükben fektették le a kognitív nyelvészet alapjait. Központi tézisük szerint a metafora segít egy elvontabb dolgot megérteni azzal, hogy leképezi azt egy konkrétabb esetre. Pl. a SZERELEM UTAZÁS, vagy a VITA HARC esetében a forrástartomány egy konkrét dolog, amit egy elvont, szellemi, lelki tevékenységgel állítunk párhuzamba. Pl. "kapcsolatunk új irányt vett", vagy "érveivel megsemmisítette ellenfelét". A metafora megértése nélkül lehetetlen a teljesen automatikus nyelvtechnológia. A DARPA Metaphor projektje megpróbálja listázni a forrás és céltartományokat, valamint feltérképezni a közöttük lévő szisztematikus viszonyokat. Ettől várják azt, hogy a szövegek automatikus elemzése során detektálni tudják a bűnözők és terroristák titkos kódjait (pl. az elnök nagy ember, a merénylet pedig ajándék néven szerepelhet összeesküvők levélváltásában). A metafora és a kognitív nyelvészet egyik legjelentősebb kutatója Kövecses Zoltán, az ELTE professzora, írta A metafora című lebilincselő bevezető tankönyvet (ami eredetileg angolul jelent meg az Oxford University Press gondozásában).
Az ipar számára a metafora megértése elsősorban a szarkazmus és a képletes beszéd felismerése miatt fontos. A szentimentelemzés területén gyakran okoz kellemetlen meglepetéseket, hogy egy szarkasztikus megjegyzést - pl. "Na ezt jól megcsinálta a cég!" - pozitívan értékelnek az algoritmusok, pusztán a bennük előforduló szavak miatt. A hírelemzés során is sokszor okoznak gondot a metaforák és a politikai PR áldozatául esett kifejezések értelmezése (pl. szárnyal a tőzsde, kemény landolás, megszorítás, reform, kiigazítás).
A Nyelv és Tudomány Jó a karosszériád! - avagy hol terem a metafora? című cikke röviden, de ugyanakkor alaposan összefoglalja a kognitív metafora elmélet alapjait. Az alábbi videóban maga az "iskola alapító", Lakoff meséli el, hogyan indult el kutatási programja.
Fontos megjegyezni, hogy a nyelvi adatok sem önmagukban, sem más adatokkal kiegészítve nem lennének képesek a fenti elméletek kiváltására. További érdekesség, hogy mindegyik kutatási irányzat harminc-negyven éve indult mint haszontalan bölcsészet és csak az utóbbi két-három évben vetették be őket alkalmazott és ipari kutatásokban. Ezen területek hazai művelői ténylegesen ott vannak a világ élvonalában, neves szaklapokban publikálnak, nagy tudományos kiadók adják ki könyveiket és nemzetközi kutatásokban vesznek részt. A magyar innovációs potenciált veszélyezteti, aki nem ismeri fel hasznosságukat és kiaknázatlanul hagyja képességeiket.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.