HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A big data buktatói

2013.08.01. 08:00 Szerző: Zoltán Varjú Címkék: módszertan big data Twitter forradalom

A közösségi médián keresztül a felhasználókról sok információt tudhatunk meg, melyek birtokában érdekes elemzéseket végezhetünk. Az utóbbi hónapokban az olyan divatszavak mellé, mint a "big data" és a "data science" felzárkózott a "behavioral analysis" azaz a viselkedéselemzés is. A közösségi médiát elemezve megállapíthatjuk a felhasználók preferenciáit, demográfiai jellemzőit és kapcsolati hálózatukat is feltérképezhetjük. De az online világban végzett mérések eredményeiből következtethetünk-e arra, hogy mi fog történni a való világban? Eredményezhet egy like áruházi vásárlást? Egy civil tüntetésről szóló tweet továbbosztása, milyen hatással van a tényleges részvételre?


raid-on-occupy-taksim-park-in-istambul-turkey-e.gif

Zeynep Tufekci a Princeton University és a University of North Caroline at Chapel Hill kutatója szerint túláradó szolúcionista optimizmus azt hinni, hogy a big data képes ezekre a kérdésekre válaszolni és Big Data: Pitfalls, Methods and Concepts for an Emergent Field című tanulmányában éles és találó kritikát fogalmaz meg az adattudomány és a hálózatelemzés társadalomtudományi alkalmazásaival szemben. Mielőtt érveit összefoglalnánk, érdemes kitérni Tufekci hátterére, mert abból kitűnik, hogy ismeri mindkét oldalt, azaz a big data használatát s a hagyományos adatgyűjtési munkát is. A kutató nagyon aktív a Twitteren és az egyiptomi forradalom során keletkezett tweetek archiválásával és kutathatóvá tételével foglalkozó The Tahrir Data Project egyik koordinátora. De Tufekci nem csak az online elérhető adatok értelmezésével foglalkozik, a Taksim téren rengeteg interjút és kérdőíves felmérést készített, melyekről blogján rendszeresen beszámolt és hamarosan tanulmányokat is szeretne közölni eredményeiről.

260px-Drosophila_melanogaster_-_side_(aka).jpg

Tufekci a big data vizsgálatokat az ecetmuslicán végzett genetikai kutatásokhoz hasonlítja. A kis rovar a laboratóriumok egyik kedvence, mert nagyon jó modellszervezet. Csakhogy az ecetmuslicákon végzett modellkísérleteket nagyon nehéz komplexebb, a laboron kívüli világban található helyzetekhez igazítani. Persze ez nem jelenti azt, hogy a modellkísérletek haszontalanok, viszont alkalmazhatóságuk erősen behatárolt. A közösségi médiára alapozott big data elemzéseknek is megvannak a maguk korlátai, a modellszervezeteken végzett vizsgálódásokhoz hasonlóan:

  1. Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Bonyolítja a helyzetet, hogy az életkor szerinti eloszlásban is erős eltérések mutatkoznak. 
  2. Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, vagy csiripet, csak azt tudjuk hányan reagáltak rá like, továbbosztás vagy komment formájában.
  3. Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között. A matematikának ez nem is dolga, hiszen az általánosat kutatja, de ésszerű feltételezni, hogy a személyes ismertség kapcsolati hálója minőségileg különbözik a kábeltévé szolgáltatóm hálózatától.
  4. A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején, véletlenszerű hatások a csoportra, mint pl. természeti csapások stb.)
  5. A megfigyelő-paradoxona - A közösségi média felhasználói többé-kevésbé tudatában vannak annak, hogy megfigyelhetőek. A Twitteren pl. ki lehet hagyni a felhasználót jelző és értesítő @ előtagot egy azonosító elöl és máris lehet úgy beszélni róla, hogy arról nem kap értesítést, egyben evvel nehézzé válik a Tweetek automatikus elemzése is.

A Sloan Management Review-nak nyilatkozva a kutató felhívta a figyelmet arra, hogy mennyire behatároltak az online adatokra alapozott vizsgálatok.

“A lot of big data research is done in an isolated, one-shot, single-method manner with no way to assess, interpret or contextualize the findings, [...] There is great potential for error and misunderstanding; worse, with a lot of money flowing into this space, there is a lot pressure to produce “results” and overlook the fact that methods that were not developed to study humans, and do not necessarily work the same way, but are being applied widely.

The online imprints that create these large, aggregate datasets are not just mere ‘mirrors’ of human activity; rather, they are partial, filtered, distorted and complex reflections.”

A tanulság annyi, hogy tanuljunk a nagyoktól! Egyre több társadalomtudóst foglalkoztatnak a nagy cégek (Google, Yahoo!, Bing, Facebook, Twitter) és sorra jelennek meg a Microsoft Research (Computational) Social Science részlegéhez hasonló szervezetek ezeken belül. Ha az emberi viselkedés érdekel minket, ne adattudóst keressünk, hanem társadalom- és/vagy viselkedéstudományokban jártas szakemberhez forduljunk!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr845435373

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása