HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Mindennapi metaforák

2013.08.12. 08:00 Szerző: Zoltán Varjú Címkék: marketing metafora politikatudomány nyelvtechnológia kognitív nyelvészet szentimentelemzés emócióelemzés

A nyelvtechnológia egyik legnagyobb kihívását jelentik a metaforák. George Lakoff és Mark Johnson Metaphors We Live By kötetének megjelenése óta az egyik legproduktívabb kutatási irányzat a kognitív nyelvészet, mely eredményeit sajnos nagyon nehéz automatizálni. Lera Boroditsky és tanítványa Paul H. Thibodeau ötletes kísérletekben mutatta ki, hogy döntéseinkre hatással van az, milyen metaforákat használunk. Hasznosíthatjuk ezt a tudást és képet alkothatunk arról, milyen metaforákat használnak az emberek, amikor közügyekről vagy éppen termékekről beszélnek?

Metafora nem csak versekben van?

Kövecses A metafora című könyvében az alábbi öt pontban összegzi Johnson és Lakoff legfontosabb eredményeit:

  1. a metafora elsősorban a fogalmak, és nem a szavak jellemző tulajdonsága
  2. a metafora funkciója az, hogy segítse bizonyos fogalmak megértését, és nem csupán művészi vagy esztétikai célokat szolgál
  3. a metafora gyakran nem hasonlóságon alapszik
  4. a metaforákat a köznapi emberek is a legkisebb erőfeszítés nélkül használják (anélkül, hogy ennek tudatában lennének)
  5. a metafora nem egy fölösleges, bár kellemes nyelvi díszítőeszköz, hanem az emberi gondolkodásnak és megértésnek elengedhetetlen kelléke.

images.jpg

 


A metaforák közös jellemzője, hogy egy absztrakt fogalmat megfeleltetnek egy konkrétnak. Pl.:

A vállalat egyre nő.

Elváltak útjaink.

Ellenérvei célba találtak.

Sándor révbe ért.

Egy absztrakt fogalmat (vállalati ciklus, életút, vitatkozás stb.) egy konkrét fogalom segítségével írunk le (utazás, növekedés stb.). Szakszavakkal fogalmazva a forrástartományt (konkrét fogalmak) leképezzük a céltartományra (absztrakt fogalmak). A metafora több formában is felbukkanhat, nem feltétlenül mondjuk ki, hogy "az élet egy utazás", gyakran metaforikus kifejezéseket használunk helyette "az élet olyan, mint egy nagy utazás", "a fiam elindult az életbe" stb.

girl-cloud_metaphor.png

Hogyan hatnak ránk a metaforák?

Thibodeau és Boroditsky Metaphors We Think With: The Role Of Metaphor in Reasoning című tanulmányukban azt vizsgálták, hogy egy előzetes keret (frame) bemutatása után, milyen megoldásokat vázolnak fel a kísérleti alanyok. Egy képzeletbeli kisvárost írtak le, ahol az egyik történet szerint felütötte fejét a bűnözés járványa, a másik szerint pedig a bűnözők prédájává  váltak a helyiek. Az, hogy melyik kerettel írták le a történetet (crime as a virus/epidemic, azaz a bűnözés mint járvány ill. crime as a beast, azaz a bűnözés mint vadállat) meghatározta, milyen megoldási javaslatokkal álltak elő a kísérleti személyek. A járvány metafora oktatási, szegénységellenes és egyéb preventív programok javaslatát hívta elő, még a vadállat metafora a kemény fellépést, a bűnözők levadászását stb. erősítette. Öt kísérletet is végeztek, hogy kizárják a demográfiai torzítást és az ún. lexikai előfeszítés (a metaforában használt szavak aktiválják a kapcsolódó szavakat, ezáltal megnövelik használatuk valószínűségét) hatását is, így arra következtethetünk, hogy a framing hatás nagyon erős. Külön érdekessége a kísérletnek, hogy vizsgálták mi befolyásolta a kísérlet részvevőit a válaszok megfogalmazásában. Az alanyok döntő többsége szerint a használt metaforának semmilyen hatása nem volt rájuk, sokkal inkább hivatkoztak a szövegben szereplő adatokra és tényekre - ennek azonban ellentmondanak a kísérlet szignifikáns eredményei.

A szerzőpáros Natural Language Metaphors Covertly Influence Reasoning tanulmányukban további kísérleteikről számolnak be, melyekben a vizsgálatokat próbálták életszerűbbé tenni. Az alapszituáció maradt a bűnözéssel sújtott kisváros története, két különböző frame használatával elmesélve. Az alanyoknak most azonban választaniuk kellett a megoldási javaslatok között. Az alábbi ábrán látható, hogy a vadállat metafora az erő alkalmazását előtérbe helyező megoldások helyeslését szignifikánsan megnöveli.

metaphor01.png

A további kísérletek is hasonló eredményekre vezettek.

metaphor02.png

A vizsgálat végén rákérdeztek az alanyok politikai beállítottságára is. Érdekes eredmény, hogy a konzervatív (republikánus) alanyok esetében a bemutatott frame hatása sokkal kisebb. A független és demokrata válaszadók esetében a metaforák hatása sokkal jelentősebb volt.

metaphor03.png

És mit kezd ezzel a nyelvtechnológia?

A metafora nagyon kemény diónak bizonyult, hiszen gyakran előkerül mint probléma, de máig nincs kielégítő algoritmikus megoldás azonosítására. A IARPA Metaphor projekt célja, hogy képes legyen azonosítani és értelmezni a metaforákat, hiszen a bűnözői és terror csoportok előszeretettel használnak sajátos nyelvet kommunikációjuk során.

metaphor04.PNG

Sokkal gyakorlatiasabb probléma a szentiment- és emócióelemzés. A metafora és metaforikus kifejezések használata itt egyre inkább az ún. szótáralapú rendszerek felé tolja el a fejlesztések irányát. Az ilyen rendszerek listába szedik a jellemzően pozitív, negatív, semleges szavakat, szófordulatokat, külön szabályokkal kezelik a tagadást (pl. a tagadás hatóköre, kettős tagadás jelentése stb.). Ezt egészítik ki olyan metafora szótárakkal, mint pl. a szabadon elérhető VU Amsterdam Metaphor Corpus, ami lehetővé teszi a metaforikus kifejezések azonosítását is. Így egy elemzés képet adhat arról, milyen frame-ben jelenik meg egy adott közügy vagy termék, ami hasznos információ lehet a döntéshozóknak arra nézve, hogy hatásos volt-e kampányuk, vagy kísérletet tehetnek a frame megváltoztatására is.

Ajánló

Kognitív nyelvészet és (politikai)marketing

Nekünk elmélet kell!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Serendip-o-matic - csodálkozz a bibliográfiádra

2013.08.09. 08:00 Szerző: Zoltán Varjú Címkék: kutatás módszertan bibliográfia nyelvtechnológia digitális bölcsészet Zotero

A One Week|One Tool a digitális bölcsészek számára készített eszközöket a nyáron. A George Mason University Roy Rosenzweig Center for History and New Media kezdeményezése nem csak hasznos, hanem vicces, elgondolkodtató eszközök kifejlesztését célozta meg. A SERENDIP-o-MATIC egy szöveghez vagy bibliográfiai gyűjteményhez kapcsolódó tartalmakat bányász elő a Digital Public Library of America, a Europeana és a Flickr Commons archívumaiból.

serendipomatic2.png

Az alkalmazás célközönségét kutatók alkotják. Amennyiben rendelkezik valaki Zotero (népszerű bibliográfiai és forráskezelő program) fiókkal, összekötheti bibliográfiai adatbázisát a SERENDIP-o-MATIC-kel. Esetünkben a következő eredményt kaptuk.

serendipomatic.png

A fejlesztőcsapat az alábbi videóban mutatta be az alkalmazás hátterét. Dióhéjban annyit érdemes kiemelni ebből, hogy a szövegeken entitásfelismerést végeznek (named entity recognition) a bibliográfiai adatokból pedig kinyerik a felhasználó által megadott címkéket és a Zotero adatbázisában előforduló gyakori tageket, s az így kibányászott adatok segítségével keresnek kapcsolódó tartalmakat a nyilvános archívumokban.

Nem tökéletes az alkalmazás, de nem is az a célja, hogy konkrét problémát oldjon meg. A nevében is sugallt rácsodálkozást viszont mindenképpen eléri, vagy azért mert teljesen idegen asszociációkat jelenít meg, vagy nagyon is találókat. Egy kis kikapcsolódásra mindenkinek csak ajánlani tudjuk az alkalmazást!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Új algoritmus a hálózatok jobb megismerésére

2013.08.08. 08:00 Szerző: Zoltán Varjú Címkék: hálózatkutatás sna

Az MIT kutatói olyan új algoritmust dolgoztak ki, amely segítségével feltérképezhető az egyes hálózatok valódi szerkezete. Amikor egy csoport (mely tagjai lehetnek emberek, állatok, gépek, vagy bármi más) tagjai közötti kapcsolatokat szeretnénk feltérképezni, megeshet, hogy a megfigyelés félrevezet minket. Például, ha a Foma 1-es csapatok közötti hálózatokra vagyunk kíváncsiak, akkor a megfigyelés során a csapattagokon kívül az egyes futamokra meghívott hírességek, a versenyzőkkel, mérnökökkel és szerelőkkel tartó családtagok, a gyakran feltűnő sajtósok is feltűnnek az adatokban. Az intuíció is azt sugallja, hogy a megfigyelt személyek közül sokan nem jelentenek tényleges kapcsolódási pontokat (pl. egy minden pilótával interjút készítő riporter a megfigyelés szerint központi eleme lehet a hálózatnak, a valóságban - jó esetben - nem folyik át rajta a csapatok közötti információ).

nbt.2635-F4.jpg

Soheil Feizi, Daniel Marbach, Muriel Médard és Manolis Kellis tanulmánya a Nature Biotechnology magazinban jelent meg Network deconvolution as a general method to distinguish direct dependencies in networks címmel (sajnos nem szabad hozzáférésű). Az eljárást eredetileg biotechnológiai problémák megoldására dolgozták ki, de a tanulmány is foglalkozik további felhasználási területeivel (pl. a szerzői hálózatok vizsgálata).

A hálózatkutatás relatíve fiatal mint önálló diszciplína, szerencsére azonban sok eszes kutatót vonzott magához és bakfis kora ellenére is képes értékes, új eredményekkel gazdagítani a tudományt.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az online tartalomelemzés határai

2013.08.07. 08:00 Szerző: Zoltán Varjú Címkék: statisztika tartalomelemzés big data

Mennyire reprezentatív egy online minta? Tudjuk, hogy valamennyire torzít, de reméljük, hogy az internetes penetráció növekedésével ez majd megszűnik - addig is bízunk abban, hogy az igazán jelentős csoportok és a véleményvezérek úgyis online élik már életüket. Jen Schradie The digital production gap: The digital divide and Web 2.0 collide című tanulmányában (sajnos nem érhető el szabadon) részletes adatokkal támasztotta alá, hogy nem egyszerű a helyzet még az Egyesült Államokban sem.

Schradie a digitális szakadék hét mítosza néven foglalta össze a kétségek elhajtására használt érveket:

  1. A digitális szakadékon már túl vagyunk, hiszen mindenki online (vagy nagyon rövid időn belül egyszerűen kihalnak azok, akik nem kapcsolódnak a világhálóra).
  2. A digitális megosztottság markánsan szétválasztja az online és az offline populációt.
  3. A mi esetünkben nem érdekes a digitális szakadék.
  4. Csak a nagyon öreg emberek nem csatlakoznak a világhálóhoz.
  5. A kisebbségek aktívabbak az interneten.
  6. A kisebbségek és marginalizált csoportok az internet segítségével törnek ki.
  7. Minden ellenkező félig üresnek látja a poharat és pesszimista.

A tartalomelemzés számára fontos kérdés, hogy mennyien vesznek részt online tartalmak létrehozásában. Látható, hogy ez a blogok esetében nagyon lassan növekszik és kb. 9%-on áll jelenleg. A közösségi médiában viszont három év alatt 5%-ról 21%-ra emelkedett az aktivitás.

data01_1.PNG

Azonban nagyon nagy különbség mutatkozik a különböző demográfiai mutatók mentén az aktivitásban.

data02.PNG

A legfontosabb faktornak az iskolázottság tűnik (viszont vegyük észre, hogy a fehér, középosztálybeli városi gyerekeknek van a legjobb esélye arra, hogy a felsőoktatásba kerüljenek). A chatelés az egyedüli forma, amiben nincs eltérés a középiskolai és egyetemi végzettségűek aktivitása között.

data03.PNG

Az alábbi ábra jól szemlélteti, hogy egy felsőfokú végzettséggel rendelkező felhasználó kétszer nagyobb valószínűséggel generál valamilyen tartalmat.

data04.PNG

A blogok és hozzászólások esetében talán nem meglepő, hogy az iskolázottság emelkedésével nő a tartalomelőállítás valószínűsége. Az viszont megdöbbentő, hogy a közösségi média használatában is megjelennek ezek a különbségek!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Gyűlöletbeszéd és szexuális zaklatás a Twitteren

2013.08.06. 08:00 Szerző: Zoltán Varjú Címkék: gyűlöletbeszéd korpusznyelvészet Twitter

Caroline Criado-Perez feminista újságíró és Stella Creasy képviselő Keep Women on Banknotes kampánya elérte, hogy 2014-től a tízfontos bankjegyen Charles Darwin képét Jane Austen váltsa le. Normális ember számára döbbenetes, hogy az aktivista és a képviselő is rengeteg gyűlölködő, gyakran szexuálisan offenzív Twitter üzenetet kapott a hír bejelentése után. A Twitter brit vezetője nyilvánosan is bocsánatot kért és megígérte, lépéseket tesznek egy hasonló üzenetek jelentését és monitorozását lehetővé tévő rendszer kidolgozására. A trollok az internet szerves részét képezik, a szólásszabadság pedig alapvető érték, hol húzhatjuk meg a határt a zaklatás és a véleménynyilvánítás szabadsága között? A brit médiában felvetették ezeket a kérdéseket és rendre feltűnt különböző műsorokban mint szakértő Dr. Claire Hardaker a Lancaster University korpusznyelvésze, aki a trollokat kutatja. A kibontakozó vita legfontosabb pontjait két rövid stúdióbeszélgetés és egy riport segítségével foglaltuk össze.

1. A gyűlöletbeszéd és a szexuális zaklatás ugyanolyan valós online, mint a való világban

2. Bárki lehet troll, nem csak a ballonkabátos mutogatós bácsik gyanúsak L. Hardaker What is turning so many young men into internet trolls? írását a The Guardian hasábjain.

3. Az ellenlépések megtétele fontos, ugyanakkor az aktivisták tisztában vannak a szólásszabadság korlátozhatatlanságával

A legfontosabb talán az, hogy az ügyet nyíltan tárgyalja a média. Vicky Beeching nagyon találóan jegyzi meg a harmadik videóban, hogy a közösségi média egy eszköz, hogy miképp használjuk az a társadalomról árulkodik...

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása