HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A levelek köztársasága

2013.11.19. 08:00 Szerző: Zoltán Varjú Címkék: hálózatkutatás digitális bölcsészet republic of letters

A felvilágosodás korának meghatározó közösségi hálózata volt a Respublica literaria, a levelek köztársasága. Filozófusok, tudósok, a kor meghatározó értelmiségei terjedelmes leveleket váltottak egymással a legkülönfélébb kérdésekről és a fennmaradt levelek bepillantást nyújtanak a modern világ kialakulásába. A Mapping the Republic of Letters projekt célja, hogy a modern technológia és a hálózatkutatás eredményeit felhasználva pontosabb képet alkothassunk a felvilágosodás koráról.

RofL_Panorama2013_sm.jpg

A projekt igazán nemzetközi, a Stanford mellett az Oxford University, a CNRS, a Huygens CKCC és a DensityDesign Research Labs vesz részt benne. Az adatokat az Early Modern Letters Online adatbázis biztosítja, ami sajnos csupán metaadatokat jelent, mivel a levelek szövegét szerzői jogi megfontolások miatt nem tehetik elérhetővé (habár a levelek írói és címzettjei már rég halottak, a projekt során használt szövegek szerkesztettek, ezért jogvédettek is). Aki teljes szövegeket is szeretne elemezni, annak az Electronic Enlightenment adatbázist ajánljuk (de előre szólunk, hogy előfizetéses!).

Mivel a levelek korpusza nem teljes, hiszen több mint 200 év alatt nagyon sok darabja elkallódott, és az adatbázis mérete sem tipikusan big data (de azért elég nagy ahhoz, hogy emberileg lehetetlen legyen feldolgozni) a kutatók kreatívan alkalmazták a technológia nyújtotta lehetőségeket.

diderot2.jpg

A legérdekesebb eredmények közül érdemes kiemelni, hogy az adatok tükrében a kontinentális és a brit felvilágosodás között alig történt érintkezés. Sok ma is ismert nagy gondolkodó között nem volt intenzív a kapcsolat, vagy egyáltalán nem volt. Megtalálhatók viszont olyan hídként funkcionáló "másodvonalbeli" figurák, mint pl. André Moreilet, akik intenzív levelezést folytattak és kapcsolatban álltak a felvilágosodás minden jelentősebb szereplőjével.

A digitális bölcsészet még gyerekcipőben jár, de a Mapping the Republic of Letters projektet elnézve sok izgalmas tudományos eredmény és szép vizualizáció vár ránk.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Közösségi hirdetés a Facebookon

2013.11.15. 08:00 Szerző: Zoltán Varjú Címkék: közösségi marketing Facebook

A kedves olvasó bizonyára találkozott már azzal a jelenséggel, amikor a Facebook ismerőseire hivatkozva ajánl  neki egy oldalt. De mi alapján kerül oda ismerősünk neve?

Eytan Bakshy és tsai Social Influence in Social Advertising című tanulmányukban három ún. terepkísérletben vizsgálták a közösségi hirdetés (social advertising) hatásait. Donald P. Green és Alan S. Gerber kutatásaiból tudjuk, hogy a társadalmi környezet ún. gyenge nyomásgyakorlása nagyon hatékony eszköze a politikai marketingnek (bővebben l. Társadalmi kísérletek és big data c. posztunkat). A Facebook kutatói első kísérletükben azt vizsgálták, milyen hatással van a lájkolásra és kattintásra (itt ez a Facebookon belüli kattintást jelenti) ismerőseink megemlítése a reklámban.

2013-11-13 20.00.15.png

Miképp az várható volt, több barát magasabb kattintásszámot és több lájkot eredményezett.

2013-11-13 20.04.11.png

A további két kísérletben a kedveltség megemlítését (lájkok száma) vetették össze a kapcsolatok megemlítésével.

2013-11-13 20.04.51.png

Itt is megfigyelhető, hogy a nagyobb szám, legyen szó akár arról, hogy hányan kedvelték már az adott oldalt, vagy arról, hogy hány személyes ismerőst jelenített meg a reklám, több kattintást és lájkolást eredményezett.

2013-11-13 20.34.27.png

Persze az eddigi eredményekre mondhatjuk azt, hogy hát ehhez nem kell kísérlet, ezt józan paraszti ésszel is ki lehet következtetni. Azonban a tudomány egyik dolga az, hogy ellenőrizze a józan ész által alapigazságnak gondolt dolgokat, továbbá minden ilyen "felesleges" kísérlet tartogat további érdekességeket, ez alól a most ismertetett tanulmány sem kivétel. Ahogy a keresőmarketing területén is érdekességekkel szolgált a tudományos módszer, úgy a közösségi médiában is tartogat meglepetéseket!

ggbook_1.jpg

Az első két kísérletből kiderült, hogy a közösségi célzás (social cue) alkalmazása különösen hatékony akkor, ha több ismerős ajánlásával jeleníthető meg egy hirdetés. Érdemes megjegyezni, hogy közösségi hálózataink nem véletlenszerűek, erős bennük a homofília (az azonos érdeklődésű emberek egymáshoz vonzódnak) ezért sokszor ugyanazon dolgokat lájkolják egy hálózat tagjai. Ugyanakkor egy közösségi hálón belül nem egyforma erősségűek a kapcsolatok. Ahogyan arról már többször beszámoltunk (itt, itt és itt), az ún. gyenge kapcsolatoknak nagyon nagy szerepe van a csoportok közötti információ áramlásában. Mi a helyzet a hirdetéseknél? A harmadik kísérlet arra világít rá, hogy a kapcsolat erőssége növeli mind a kattintási, mind a lájkolási hajlandóságot. A probléma csupán az, hogy minél erősebb a kapcsolat, annál nagyobb a homofília, ergo nagyon nehéz olyan dolgot mutatni egy felhasználónak, amit ő még nem lájkolt, de három-négy közeli ismerőse már igen. A jövő nagy kérdése az, hogyan lehet egy felhasználó számára érdekes dolgokat ajánlani kapcsolati hálóján keresztül.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Budapest Users of R Network - 2013. november 27.

2013.11.14. 08:00 Szerző: Zoltán Varjú Címkék: meetup szövegbányászat R

Daróczi Gergely és a Rapporter jóvoltából immár van egy jól működő hazai R meetup is. Minket pedig az a megtiszteltetés ért, hogy 27-én a tm csomagról tartunk egy előadást, amire mindenkit szeretettel várunk.

bug.JPG

Mint a legtöbb meetup, a BURN is ingyenes, de a részvétel előzetes regisztrációhoz kötött, amit itt le is tudhat az érdeklődő olvasó.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

conTEXT - szöveganalitika magyarul 2013. november 21.

2013.11.12. 08:00 Szerző: Zoltán Varjú Címkék: konferencia szövegbányászat nyelvtechnológia Clementine Consulting conTEXT

A Clementine Consulting nagyon kedvesen magára vállalta az első magyar szöveganalitikai konferencia, a conTEXT megszervezését, mi pedig mindenkit arra buzdítunk, hogy vegyen is részt rajta. A Clementine szakembereinek előadásai mellett a szakma elismert hazai művelőitől - pl. Tikk Domonkos (Gravity), Szekeres Péter (Neticle) - tudhatjuk meg mi mindenre jó a szövegbányászat. Nem mellesleg mi is ott leszünk.

context.JPG

A konferencia programja és a regisztrációs link elérhető itt.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Funkcionális programozás - divat vagy van benne valami?

2013.11.06. 08:00 Szerző: Zoltán Varjú Címkék: szoftverfejlesztés nyelvtechnológia big data funkcionális programozás Clojure OCaml Haskell

A programozási nyelvek Turing-ekvivalensek, azaz ami az egyikben megvalósítható, az a másikban is az. Mégis, rengeteg programozási nyelv létezik és híveik gyakran bonyolódnak hitvitákba. Napjainkban egyértelműen reneszánszukat élik a funkcionális nyelvek, különösen a JVM-en futó Scala és Clojure nyer egyre nagyobb teret a nyelvtechnológia és a gépi tanulás területén, a kérdés az miért...

 lambda.jpg

Tényleg jobb az FP?

Az egyik leggyakrabban hangoztatott érv a funkcionális nyelvek mellett az, hogy többmagos, elosztott rendszerekben könnyebb velük boldogulni. Mielőtt azonban valaki a fejlesztőit elzavarja egy tanfolyamra, érdemes elolvasnia Pankratius és tsai  Combining functional and imperative programming for multicore software: An empirical study evaluating Scala and Java című tanulmányát, melyben empirikus módon kimutatják, hogy egy új paradigmában egyenesen romlik a programozók hatékonysága. Persze figyelemre méltó, hogy a munkaigényes feladat esetében minimálisan csökkent az erőráfordítás Scala-t használva. Nem feledkezhetünk meg arról sem, hogy egy évekig objektum-orientált nyelvvel dolgozó embereknek időbe telik megtanulni az új technológiát és csak kb. "egyenrangú" feleket érdemes igazán összehasonlítani.

scala_java.PNG

Ha nem jobb, akkor miért használják?

Az Y Combinator startup akcelerátor és a bayesiánus spamszűrők atyja Paul Graham Beating the Averages című esszéjében amellett érvel, hogy egy funkcionális nyelv (esetében a Lisp) használata amolyan taktikai előnyt jelent elsősorban.  Peter Naur Programming as Theory Building esszéjében amellett érvel, hogy a fejlesztő dolga az, hogy externalizálja, azaz külsővé és megfoghatóvá tegye tudását egy adott problémával kapcsolatban. Úgy tűnik itt kapcsolódhatunk Graham-hez! Ahogy az alábbi három videó szemlélteti, a funkcionális nyelvek általában a kutatás-intenzív területeken kerülnek bevetésre, olyan helyeken, ahol nagyon absztrakt elméleteket kell nagyon gyorsan "kódba önteni".

Kik és hogyan használják az FP nyelveket?

Caml Trading from Yaron Minsky on Vimeo.

A Jane Street algoritmikus kereskedéssel foglalkozó cég, s így hatalmas adatmennyiséget kell valós időben elemeznie rendszereinek. Akinek túl hosszú az előadás (ami tkp. úgy 45 perces csak, a kérdések töltik ki a többi időt), annak nagyon röviden összefoglalva az OCaml-et szoftverfejlesztési megfontolások (kompaktabb kód, nagyobb kifejezőerő stb.) és a statikus típusossággal járó robosztusság miatt választották. 

A Prismatic-et nem kell bemutatni a nyelvtechnológia iránt érdeklődőknek. Érdekes módon a cég Clojure-t használ, de nem a Java interoperabilitás miatt! A cég szinte minden eszközét maga fejlesztette ki (ezek egy részét nyílttá is tette), ami a mai programozási trendek tükrében nagyon meglepő lépés, hiszen miért akarna valaki nulláról indulni, amikor sok nagyon jó minőségű könyvtárat lehet használni. A Prismatic válasza erre annyi, hogy persze sok jó könyvtár van, de egyik sem annyira skálázható és adat-orientált, mint amire egy modern, gépi tanulással és nyelvtechnológiával operáló cégnek szüksége van.

[nyc-haskell] Practical Data Processing With Haskell and Putting Cloud Haskell to Work with Ozgun Ataman and Gershom Bazerman from Richard Minerich on Vimeo.

Köztudott, hogy az ún. MapReduce paradigmát a funkcionális nyelvek ihlették, azonban a Hadoop menthetetlenül a Java környezet szülötte, még akkor is ha ma már gyakorlatilag minden nyelvvel használható. A Haskell közösségen belül a Cloud Haskell egyre nagyobb teret nyer, mint a Hadoop alternatívája, mivel a Scadling-hez és a Cascalog-hoz hasonlóan lehetővé teszi, hogy mintegy a nyelvbe beágyazva egyszerű konstrukcióként használhassunk elosztott rendszereket. Az OCaml ökoszisztémában is megtalálható hasonló elosztott fájlrendszer és MapReduce implementáció, a Plasma Project. A fenti videón bepillantást nyerhetünk abba, miképp használják ki a Haskell előnyeit a Soostone analitikai cégnél, ill. a Cloud Haskell-ről kaphatunk átfogó képet a S&P Capital IQ pénzügyi elemző cég tapasztalatai alapján.

Összegezve

A funkcionális nyelvek használata akkor tűnik jó választásnak, ha kutatás-vezérelt fejlesztést végzünk. Ilyen területen gyakran találkozunk az ún. szoftver-szakadékkal, azaz a kutatásra használt programok és a módszeres ipari fejlesztés során használt metodológiák közötti hatalmas különbségekkel. A funkcionális paradigma előnye éppen az, hogy a hagyományos fejlesztők és a kutatók a segítségével megtalálhatják a közös hangot.

Olvasnivaló

Mitől kutatás-vezérelt valami, hogy kerül a tudományos módszer ide?
Scientific computing vs software engineering
Ellenvetés - avagy a "klasszikus" háttérrel rendelkezők idegenkedése a (kvázi-) funkcionális paradigmától
Proofs are programs - avagy miért a funkcionális nyelvek
Product design, stb.
Hogyan vizsgáljuk meg a helyzetet és készítsünk tervet a jövőre?

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása