HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

CompSS ajánló

2013.07.15. 08:00 Szerző: Zoltán Varjú Címkék: társadalomtudomány big data data science adattudomány

Az Institute for Research in the Social Sciences immár második alkalommal rendezte meg Computational Social Science konferenciáját, ennek YouTube csatornájáról szemezgettünk.

A "data science" vagy adattudomány napjaink egyik legdivatosabb szava IT körökben. Fontos azonban megjegyeznünk, hogy ez nem csupán a nagy mennyiségű adatok feldolgozásához szükséges infrastruktúrát és a statisztikát jelenti. Legalább annyira fontos az elméleti háttér is, hiszen az segít kérdéseket megfogalmazni és értelmezni a válaszokat. A társadalomtudományok számára a webkettes technológiák eddig soha nem látott mennyiségű adatot hoztak, melyek az adatfeldolgozás technikai megoldásain túl kutatásmódszertani kérdéseket is felvetettek. Ezek közül az egyik legjelentősebb az ún. terepkísérletek átültetése az online világra. A szinte minden statisztika tankönyvben fellelhető példa szerint, a francia falvakban a gólyafészkek száma és az újszülöttek száma között korreláció van. Egy bizonyos kor után szinte minden ember tudja, hogy nem a gólya hozza a babákat, ergo a korreláció nem jelent oksági (kauzális) kapcsolatot a két jelenség között. A gólyák és az újszülöttek esete egyszerűnek tűnik, de vannak sokkal bonyolultabb esetek is. Pl. a dohányzás és a daganatos megbetegedések megjelenése közötti viszony kimutatása nem volt éppen zökkenőmentes, de az afro-amerikaiak alacsony pontszámait az IQ-teszteken sokáig gazdasági hátterükkel korreláltatták míg rá nem jöttek, hogy a fehér középosztálybeli iskolázott férfiakra szabott kérdések rosszak. A kísérletek célja, hogy felfedje tényleg akad-e oksági kapcsolat ott, ahol korrelációt találunk, ill. rávilágítson az oksági lánc irányára. A CompSS előadásai laikusok számára is emészthető formában mutatják be mi mindenre jó az ilyen gondolkodás.

Jeff Heer: Interpretation and Trust

Jon Levin: Learning from Experiments in Online Markets

Hal Varian: Predicting the Present with Search Engine Data

Justin Grimmer: The Impression of Influence

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A Big Data kora

2013.07.04. 10:17 Szerző: Kereso75 Címkék: big data

A BBC Horizon dokumentumsorozatának egyik idei darabja a Big Data felfogásban rejlő lehetőségeket tárja elénk. A Különvélemény lehet ma már nem számítana sci-finek?

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mire jó az adatújságírás?

2013.06.28. 08:00 Szerző: Zoltán Varjú Címkék: adatújságírás Reuters Bloomberg

Az adatújságírás nagyon színes terület. A Guardian Datablog talán a legismertebb projekt, ami szinte naponta közöl adatvezérelt cikkeket, melyek általában egy grafikonból és/vagy egyéb vizualizációból és egy rövid értelmező szövegből állnak s a cikk végén linket tartalmaznak az adatokhoz (amennyiben nyilvánosak). Szintén népszerűek a "hagyományos" cikkeket kiegészítő adatvizualizációk, mint pl. a Bloomberg Billionaires Index.

bloomberg03.PNG

Az adatújságírás vicces és egyben hasznos kiegészítője a "komoly" írásnak, de van amikor sokkal nagyobb szerepet játszik mint gondolnánk. A mozgalom gyökerei egészen a detroit-i zavargásokig nyúlnak vissza, amikor Meyer és társai társadalomtudományi kutatásmódszertan segítségével próbálták rekonstruálni és megérteni a történteket. Az angliai zavargások idején a Guardian és a London School of Economics elevenítette fel ezt a hagyományt és szinte "élőben" követte tudományos adatokra alapozott beszámolókkal az eseményeket. (Bővebben Adatújságírás - vissza a gyökerekhez című posztunkban olvashatnak látogatóink.) Az ilyen írások sokak szerint "social science done on deadline",  határidőre írt társadalomtudományi beszámolók. Azonban nem egészen ez a helyzet.

A nyugati világban általánosan az írni-olvasni tudás (igen, bármennyire is szeret mindenki azon siránkozni, hogy a fiatalok szinte analfabéták) és egyre magasabb az általános műveltség és az átlagos iskolázottsági is, de saját szakterületén kívül ma már senki sem szeret tudományos/szakmai szöveget olvasni, mivel a specializálódás miatt a sok szakkifejezés nagyon fárasztó. Az adatújságírás nagy riportjai itt játszanak fontos szerepet, segítenek tudományos eredmények alapján, de az újságírás eszközeivel bemutatni egy jelenséget. Ilyenek például a The Economist Intelligence Unit "Special Report"-jai, melyeket a The Economist-ban szoktak közölni.

reuters.png.png

A Reuters The Unequal State of America című riportja a legjobb példája a fent leírt módszernek. Közgazdászokkal és szociológusokkal együttműködve született a riport, amely végén egy metodológiai összefoglaló is található. Ugyanakkor a cikkek hangvétele egészen személyes, néha már-már szinte átmegy gonzó újságírásba, amikor hirtelen egy grafikonnal találkozva az olvasó visszazökken a tárgyilagosabb hangvételbe. 

Habár a Bloomberg és a Reuters elsődlegesen az adatok összegyűjtéséből és továbbadásából termeli bevételei jelentős részét, egyre hangsúlyosabban jelennek meg saját adatvezérelt tartalommal is. Ez nem véletlen, hiszen a legelvetemültebb elemzőnek is szüksége van néha átfogó képre olyan területről, amivel nem, vagy csupán érintőlegesen foglalkozik. Úgy tűnik az adatok és száraz összefoglalók mellett egyre nagyobb piaca van az adatvezérelt riportoknak is.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kognitív nyelvészet és (politikai) marketing

2013.06.27. 08:00 Szerző: Zoltán Varjú Címkék: marketing politika metafora kognitív nyelvészet Lakoff

Társadalmi kísérletek és big data című posztunkban bemutattuk, hogy a big data és a társadalomtudományok randomizált kísérletei hogyan járultak hozzá Obama választási győzelméhez. Habár sokkal kevesebb hírverést kapott, de George Lakoff és csapata is nagy szerepet játszott a politikai marketingben és az egyszavas "Hope" és "Change" szlogenek megalkotásában. 

220px-Barack_Obama_Hope_poster.jpg

George Lakoff a kognitív metafora elmélet alapítója vizsgálta először a hétköznapi nyelv metafora használatát, amiről bővebben Nekünk elmélet kell! című posztunkban már írtunk. Az öbölháború kitörésére reagálva fordult a politikai nyelv felé. Metaphor and War: The Metaphor System Used to Justify War in the Gulf című esszéjében elemezte az amerikai beavatkozás indoklására használt nyelvezetet.

moralpoliticsgeorgelakofflargewebview1.jpg

Lakoff kutatásait a Moral Politics, How Liberals and Conservatives Think című könyvében összegezte. A mű központi tézise szerint az amerikai politika nyelvét két metafora uralja, a kemény/szigorú (strict) és a gondoskodó (nurturant) apa és az Egyesült Államok történetét áthatja ez a kettősség, az alapító atyáktól kezdve. A gondoskodó apa metaforája a liberális nézeteket, még a keményé a konzervatívokat jellemzi. Egy adott egyént nem jellemez kizárólagosan egyik metafora sem, bizonyos kérdésekben az egyik, még másokban a másik dominálja gondolkodását. A politikai kommunikáció célja így az, hogy megerősítse valamelyik metaforát a választóban.

rockridge_institute_logo.png

A Rockridge Institute egy liberális think tank volt, melyet maga Lakoff alapított és célja az volt, hogy a demokratáknak segítsen elérni a választókat megfelelő metaforákkal.  Az intézet tagjainak többsége Lakoff köréből és/vagy a Berkeley nyelvészeti tanszékéről érkezett. Az első Obama kampány során rendkívül népszerűk lettek a Rockridge tanácsadói, de ekkor már más keretek között dolgoztak. 


elephant.jpg

Lakoff a 2008-as választásokra "dobta össze" a Don't think of an elephant! című könyvecskét, amiben a Moral Politics-szal ellentétben már nem törekszik a tudományos távolságtartás látszatára sem. A könyv amolyan választási kiskáté, ami megpróbálja a fontosabb liberális politikai kérdések "helyes" metaforáit megadni, továbbá kísérletet tesz arra, hogy a konzervatív metaforákat rossznak bélyegezze. Ennek az összegzése a Whose Freedom? könyv lett, amit a tudóstársadalom erősen meg is kritizált. 2007-ben a Rockridge megszűnt, de a volt tagok több fronton is bevetették magukat.

A közérdekű egyesületek és alapítványok kampányát segítő Fenton Communications lett az utóbbi években a Rockridge-ben kidolgozott kommunikációs módszerek egyik legfőbb felhasználója. 

fenton.PNG

A Cognitive Policy Works vette át a szigorú értelemben vett politikai kommunikációt, de ügyfeleik között civil (általában demokrata kötődésű) és egyre inkább vállalati partnerek is akadnak.

cognitivepolicy.PNG

Habár Lakoff mindinkább a politika és a politizálás felé fordul, hatalmas érdeme, hogy "kinyitott" egy új piacot a fiatal nyelvészek előtt. Tőlünk szerencsésebb történelmi fejlődésű országokban egyre több marketing ügynökség alkalmaz kognitív nyelvészeket, a tartalomelemzésben is terjed a módszer használata, továbbá a nyelvtechnológia is egyre többet merít a területen felhalmozott tudásból.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nekünk elmélet kell!

2013.06.26. 08:00 Szerző: Zoltán Varjú Címkék: szociálpszichológia evolúciós pszichológia metafora big data Miller kognitív nyelvészet szentimentelemzés emócióelemzés Pennebaker pszicholingvisztika Big Five Kövecses

Chris Anderson The End of Theory cikke szerint a big data önmagában szükségtelenné teszi az elméleteket.  Mark Graham a Guardian hasábjain remekül érvelt amellett, hogy nem spórolható meg a rendes tudományos munka még a nagy adatokkal sem. Az adatokat valahogy elemezni kell, az elemzés eredményét pedig értelmezni szoktuk. A nyelvtechnológiában még inkább szükségünk van elméletekre ehhez, hiszen gyakran a nyelvi adatokból szeretnénk következtetni valami másra, pl. a felhasználó preferenciáira, várható viselkedésére, az általa közölt információ megbízhatóságára stb. Most röviden áttekintjük a nyelvtechnológiára alapozott vizsgálatok értelmezése terén legnagyobb hatást gyakorló három elméletet, melyek közös pontja, a kognitív tudomány (vagy megismeréstudomány). 

pennebaker.jpg

James W. Pennebaker szociálpszichológus The Secret Life of Pronouns című könyve ma az egyik legnépszerűbb mű a szentimentelemzéssel foglalkozók körében. Pennebaker kutatásainak középpontjában az ún. funkciószavak állnak, melyek a nyelvtani, szerkezeti viszonyok jelölésére szolgálnak (pl. névmások, névelők, kötőszavak stb.) szemben a tartalomszavakkal (pl. főnevek, igék stb.) A nyelvtechnológiában alkalmazott szózsák modellben a funkciószavakat szeretjük stopszó listára tenni és kiszűrni, mivel túl sok "zajt" keltenek. Ellenben ezek használata sokat elárul a beszélő személyiségéről, vagy éppen arról, hogy igazat mond-e. Pennebaker elméletét sokan próbálják átültetni a gyakorlatba. Randioldalakon a profilok őszinteségét rangsorolják vele, egészségügyben a diagnosztikát segítik és terápiás céllal is bevetik. A SmogFarm startup pedig általános szentimentelemzésre és felhasználói bázis szegmentálására (a demográfiai adatok személyiségjegyekkel történő kiegészítésére) használja Pennebaker elméletét, aki nem mellesleg a cég tanácsadója is. Állandó időhiánnyal küzdő olvasóinknak ajánljuk Pennebaker Scientific American Mind&Brian Magazine interjúját és az alábbi TED előadását.

miller.jpg

Geoffrey Miller evolúciós pszichológus szakterületét a manapság divatos viselkedés közgazdaságtanra alkalmazta. Spent: Sex, Evolution, and Consumer Behavior című könyve a konzumerizmus és a kapitalizmus ötletes bírálatát adja egy pszichológus szemszögéből. Miller szerint habár a marketing pszichológiai tankönyvek elavult elméletekre hivatkoznak (pl. Maslow piramisára) a gyakorlat azt mutatja, a reklámok az evolúció során kialakult öt nagy személyiségvonást (Big Five) veszik célba. Ennek oka egyszerűen az, hogy a szakemberek ösztönösen érzik ezen személyiségvonásokat, hiszen az evolúció során agyunk arra rendezkedett be, hogy nagy pontossággal azonosítsuk ezeket.

Kísérletek igazolták, hogy az emberek viszonylag nagy pontossággal képesek valakit besorolni az öt nagy jegy egyikébe. Viszonylag egyszerű és olcsó pszichológiai teszttel bárkit be lehet sorolni az egyik személyiségvonásba. Az egyes kategóriák - emocionalitás/neurocitás, extraverzió, nyitottság/intellektus, barátságosság/együttműködés és lelkiismeretesség - sokkal jobban korrelálnak a fogyasztási szokásokkal, mint a demográfiai jellemzők (kor, nem, lakóhely, státusz) s ezért jó kiegészítő adatai lehetnek egy marketingkampánynak. Ahogyan arról már a Tweet a lélek tükre(?) című posztunkban beszámoltunk, a nyelvi viselkedést és azon belül is a közösségi média nyelvhasználatát elemezve is elvégezhető a  vonások elemzése. Az ún. szegmentálással, azaz a célcsoportok különböző kritériumok szerinti osztályozásával foglalkozó cégek körében egyre népszerűbb ez az elmélet. Érdemes elolvasni Miller könyvét, kedvcsinálónak pedig TED előadását ajánljuk.

kovecses.jpg

A metaforák átszövik nyelvünket, nem csak az irodalmi nyelvhasználatban vagy az ünnepi beszédekben használunk metaforákat vagy metaforikus alakzatokat. George Lakoff és Mark Johnson Metaphors We Live By című könyvükben fektették le a kognitív nyelvészet alapjait. Központi tézisük szerint a metafora segít egy elvontabb dolgot megérteni azzal, hogy leképezi azt egy konkrétabb esetre. Pl. a SZERELEM UTAZÁS, vagy a VITA HARC esetében a forrástartomány egy konkrét dolog, amit egy elvont, szellemi, lelki tevékenységgel állítunk párhuzamba. Pl. "kapcsolatunk új irányt vett", vagy "érveivel megsemmisítette ellenfelét". A metafora megértése nélkül lehetetlen a teljesen automatikus nyelvtechnológia. A DARPA Metaphor projektje megpróbálja listázni a forrás és céltartományokat, valamint feltérképezni a közöttük lévő szisztematikus viszonyokat. Ettől várják azt, hogy a szövegek automatikus elemzése során detektálni tudják a bűnözők és terroristák titkos kódjait (pl. az elnök nagy ember, a merénylet pedig ajándék néven szerepelhet összeesküvők levélváltásában). A metafora és a kognitív nyelvészet egyik legjelentősebb kutatója Kövecses Zoltán, az ELTE professzora, írta A metafora című lebilincselő bevezető tankönyvet (ami eredetileg angolul jelent meg az Oxford University Press gondozásában). 

Az ipar számára a metafora megértése elsősorban a szarkazmus és a képletes beszéd felismerése miatt fontos. A szentimentelemzés területén gyakran okoz kellemetlen meglepetéseket, hogy egy szarkasztikus megjegyzést - pl. "Na ezt jól megcsinálta a cég!" - pozitívan értékelnek az algoritmusok, pusztán a bennük előforduló szavak miatt. A hírelemzés során is sokszor okoznak gondot a metaforák és a politikai PR áldozatául esett kifejezések értelmezése (pl. szárnyal a tőzsde, kemény landolás, megszorítás, reform, kiigazítás).

A Nyelv és Tudomány Jó a karosszériád! - avagy hol terem a metafora? című cikke röviden, de ugyanakkor alaposan összefoglalja a kognitív metafora elmélet alapjait. Az alábbi videóban maga az "iskola alapító", Lakoff meséli el, hogyan indult el kutatási programja.

Fontos megjegyezni, hogy a nyelvi adatok sem önmagukban, sem más adatokkal kiegészítve nem lennének képesek a fenti elméletek kiváltására. További érdekesség, hogy mindegyik kutatási irányzat harminc-negyven éve indult mint haszontalan bölcsészet és csak az utóbbi két-három évben vetették be őket alkalmazott és ipari kutatásokban. Ezen területek hazai művelői ténylegesen ott vannak a világ élvonalában, neves szaklapokban publikálnak, nagy tudományos kiadók adják ki könyveiket és nemzetközi kutatásokban vesznek részt. A magyar innovációs potenciált veszélyezteti, aki nem ismeri fel hasznosságukat és kiaknázatlanul hagyja képességeiket.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása