HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Adatvizualizáció arról, hogy hogyan beszélnek a romákról a kuruc.info-n

2015.09.09. 10:31 Szerző: Kitti Balogh Címkék: roma gyűlöletbeszéd adatvizualizáció

Habár az utóbbi időben más csoport ellen folyik csőstül a gyűlöletbeszéd, a romaellenesség állandónak számít a magyar közhangulatban. Egy korábbi kutatásunkban - melyhez a most elkészült adatvizualizációt szeretnénk bemutatni - ez utóbbi jelenséget vizsgáltuk a kuruc.info beszélő nevű Cigánybűnözés rovatában. Az oldal 2006-os indulásától 2015 elejéig elemeztük a cigányellenes témák időbeli alakulását,  amit egy adatvizualizáció segítségével tettünk szemléletessé és interaktívvá.

kuruc_adatviz_screenshot_2.png

 

A Cigánybűnözés rovat cikkeinek témáit a látens Dirichlet allokáció (LDA) nevű topik modell segítségével nyertük ki, amivel 27 jól elkülönülő romaellenes témát kaptunk. Hogy a cikkek milyen topikokban íródtak, az idő függvényében is megvizsgáltuk. Így megkaptuk, hogy az egyes témákban mely időszakokban és időpontokban írtak kiemelkedően sokat. Az idősorban megjelenő csúcsok általában egy kirívó eseményhez köthetők, amelyeket az adatvizualizáción is megjelenítettünk. Vannak azonban olyan általános, de mégis gyakori témák (pl. a lopással kapcsolatos hírek vagy a verekedésekről, késelésekről, támadásokról szóló hírek), amelyeknél nem lehet ilyen kirívó, a médiában nagy visszhangot kapott eseményeket meghatározni. A vizualizáción jól látszik, hogy a 2006-tól 2011-ig tartó időszakban a hírportál aktivitása jóval nagyobb volt és többféle speciális témában írtak, míg a 2011-től 2015-ig tartó időszakban inkább olyan általánosabb hírekkel tartották fenn a rovatot, mint a lopásokról szóló hírek.

Az adatvizualizációt Szűcs Krisztina készítette, aki nagyszerű munkát végzett a topikok időbeli megjelenítésével. 2012-ben diplomázott a MOME-n, azóta szabadúszóként foglalkozik adatvizualizációk tervezésével.

Krisztina munkájával nagyon elégedettek vagyunk és mindenkinek csak ajánlani tudjuk, akinek adatvizualizációban szüksége van egy profira!

Krisztinát a szeptember 15-i Budapest Open Knowledge Meetup-on is meghallgathatjátok, ahol az Oktatás és az adatok téma kapcsán fog előadni az OECD és a visualizing.org "The Economic Return on Education" adatvizualizációs pályázatán első helyet szerzett munkájáról.

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Gondolatolvasás - a brain-to-text már valóság

2015.09.07. 10:55 Szerző: Zoltán Varjú Címkék: beszédtechnológia extended mind brain-to-text

Ki ne szeretné néha olvasni a másik gondolatait? Milyen jól jönne egy kis szerkezet, amivel a hőn áhított lány, vagy fiú agyi aktivitását szövegé alakíthatnánk, de a rendfenntartó erők sem lennének restek egy ilyen kütyüt bevetni. Scifinek tűnhet a gondolatolvasás, de mára valósággá vált. Idén két kutatócsoport is meggyőző eredményeket produkált már a brain-to-speech területén. Nem kell hozzá más, csak egy kis elektróda az agyban, ami lehet az első lépés a cyberbrain felé... 

cncb1.jpg

 

Egy igazán nemzetközi projekt keretében, ami a Boston University, a Harvard, az MIT mellett kórházi és ipari partnerek együttműködésének gyümölcse, sikeresen szólaltatták meg egy ún. locked-in szindrómás beteg gondolatait. Az önkéntes páciens agyába ültetett elektródák az agyi aktivitás mintázatait egy dekódoló egységnek továbbítják, ami azután beszédet szintetizál a jelekből. Habár csak egy alany eredményeit mutatja be a kísérletről szóló tanulmány, nagyon ígéretesnek tűnik a megközelítés.

journal_pone_0008218_g001.png

A KIT Congitive Systems Lab kutatói epilepsziások agykérgére helyezett elektródák segítségével rögzítették a beszédhez kapcsolódó agyi aktivitást. Történetünk szempontjából az, hogy az alanyok epilepsziások, csupán annyit számít, hogy amúgy is átestek egy koponyát érintő beavatkozáson, ennek során kerültek be az elektródák koponyájukba. Habár messze van még a tökéletestől a rendszer, az eljárást bemutató tanulmány szerint a szótévesztés aránya 25, a fonémahibák aránya pedig 50% alatt van már.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szeptember 15. BOK meetup: Oktatás és adatok - vége a nyári szünetnek

2015.09.03. 10:02 Szerző: Zoltán Varjú Címkék: oktatás meetup open data open knowledge BOK

Vége a nyárnak, az iskola mellett a BOK meetup is beindul. A szezon első meetupján szeptember 15-én az oktatásé a főszerep. Az esemény 19:00-kor kezdődik a Foncsorozóban (Weiner Leó u. 8.), a részvétel ingyenes, de egy regisztrációval segíthetitek a szervezők munkáját.

 ok_logo_wg_education_black_rgb.png

A program

HORN DÁNIEL - MTA KTI tudományos munkatársa -

Előadásában az oktatásban elérhető adatbázisokról lesz szó, különös figyelemmel az Országos Kompetenciamérésre. Ez az adatbázis nem csak országos szinten teszi lehetővé a magyar általános és középiskolások átlagos matematikai és olvasási szövegértésének a felmérését, de hosszabb távon összetettebb, iskolai szintű hozzáadott érték alapú mutatók is számíthatók a segítségével.

SZŰCS KRISZTINA - tervezőgrafikus -

Az OECD és a visualizing.org "The Economic Return on Education" adatvizualizációs pályázatán első helyet szerzett munkájáról fog beszélni: az adatmegjelenítés folyamatáról, az első oszlopdiagramtól a végső, összetett adatábrázolásig.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kisvilágunk, a nyelv 2. - szemantikai és szóasszociációs hálózatok

2015.09.01. 09:31 Szerző: Zoltán Varjú Címkék: nyelvészet gráf kisvilág asszociációk hálózatelemzés WordNet

Korábbi posztunkban a magyar Wikipedia korpuszán szemléltettük, hogy a nyelvi gráfok kisvilág tulajdonságot mutatnak. Most magyar példákon keresztül szemléltetjük, hogy a szemantikai és az asszociációs nyelvi hálózatok is skálafüggetlen kisvilágok. 

Magyar WordNet

wn_d2.png

A Magyar WordNet az első magyar lexikális szemantikai adatbázis mely alapegységei az ún. synset-ek, melyekhez szinonimák, használati példák stb. tartoznak, továbbá az adott synset más elemekkel kapcsolatos szemantikai relációit sorolja fel. Hálózatunkat ebből készítettük, a fenti képen pirossal jelöltük a synset-eket, kékkel pedig a bennük felsorolt szinonimákat. Hálózatunkban 42359 csomópont található, ezek között 38335 él van. Az átlagos utak hossza 2.35, a gráf átmérője 13, klaszterezési együtthatója 0.0032. A fokszámok gyakorisága így alakul:

 

degree_freq_1.png

Ha a fokszámok eloszlását log-skálán nézzük, akkor a klasszikus skálafüggetlen gráfokra jellemző ábrát kapunk.

degree_distr.png

A WordNet esetében is érvényesül, hogy a népszerű csomópontok egyaránt vonzzák az alacsony és magas fokszámú elemeket, habár itt a klasszikus ábráktól kicsit eltérő képet láthatunk.

neighbors.png

Mivel gráfunk nagy, úgy döntöttünk hogy a három vagy annál nagyobb fokszámú csomópontokat mutatjuk csak meg az alábbi ábrán. Továbbra is piros színnel jelöljük a synset-eket, kékkel pedig a szinonimákat. A csomópontok nagysága PageRank értéküket tükrözi. Érdemes megjegyezni, hogy a PageRank érték nem mutat akkora szórást mint más skálafüggetlen gráfok esetében.

wn_d3.png

Agykapocs

agykapocs_d5.png

Kovács László Agykapocs adatbázisa egy online gyűjtött, többnyelvű szóasszociációs adatbázis. Sajnos az Agykapocs jelenleg nem érhető el online, de ebből a tanulmányból megismerhető. Akiknek ennyi nem elég, azoknak ajánljuk az adatbázis készítőjének doktori értekezéséből készült kötetet.

 

Mivel az Agykapocs többnyelvű, első körben leszűrtük a magyar kapcsolatokat. Irányított gráfunkba csak azok az elemek kerültek be, melyeket egynél több az erőssége, azaz egynél több felhasználó válaszaiban szerepelt. Az így kapott gráfban 8049 csomópont és 13635 él található. Az átlagos utak hossza 4.36, a gráf átmérője 353, klaszterezési együtthatója pedig 0.0438. A fokszám gyakoriságok alakulását  az alábbi ábra szemlélteti: 

degree_freq_2.png

A fokszámok eloszlása is klasszikusan alakul.

degree_distr_1.png

Nagyon szépen kijön a preferenciális kapcsolódás, azaz a népszerű csomópontokat mindenki szereti.

neighbors_1.png

Az asszociációs hálózat megjelenítésével még nagyobb bajban voltunk, ugyanis ennek élei súlyozottak. Úgy döntöttünk, hogy a kilenc, vagy annál nagyobb fokszámú csomópontokat fogjuk megmutatni csupán.

agykapocs_d9.png

Szépnek szép, de mi értelme?

A nyelvi gráfok nagyon szexin mutatnak, de ennél sokkal többről van szó. Habár technológiai szempontból teljesen mindegy, hogy egy-egy nyelvtechnológiai megoldás hasonlít-e az emberi elmében lezajló folyamatokhoz, sok jel arra utal, hogy a gráf alapú megközelítés egyszerre hatékony mint technológiai eszköz és mint kognitív modell is. Hamarosan arról is írunk, miért gondoljuk ezt így!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Automatikus szövegelemző API végre magyar nyelven is

2015.08.13. 09:26 Szerző: Zoltán Varjú Címkék: tartalomelemzés véleményelemzés Neticel Semantic API szenitmentelemzés

A Neticle Technologies által készített szövegelemző függvények most már bárki számára elérhetőek idén júliustól. A Neticle Semantic API képes automatikusan, emberi pontossággal vélemény- és tartalomelemezni a magyar nyelvű szövegeket.

A csapat saját termékeinek fejlesztési munkáját megkönnyítve döntött úgy, hogy webes API-ba szervezi a több mint 4 éve finomhangolt legfontosabb nyelvi függvényeit, majd rájött, hogy másoknak is hasznos lehet a magyar nyelvre írt eszköztár, ezért cégen kívülre is elérhetővé tette.

neticle01.png

A Neticle Semantic API 1.0 a következő nyelvi függvényekre képes:

  • szöveg szintű és entitás alapú szentimentelemzés: egy kérésnél megadhatjuk a véleményelemzés tárgyát egy kulcsszó szinonimának felsorolásával (például: Samsung;samsung;SAMSUNG;samsung;Szamszung;SZAMSZUNG), ekkor csak a Samsungra vonatkozó véleményt számszerűsíti az eszköz vagy mondhatjuk, hogy a teljes szöveget véleményelemezzük.
  • érzelmek felismerése: a Neticle 7-féle érzelem előfordulásainak számát vizsgálja
  • címkézés: kulcs témák és tulajdonságok felismerésével a szövegekben rá lehet világítani a leggyakoribb üzleti témákra és a kapcsolódó véleményekre automatikusan, például: ügyfélszolgálat és ügyintézés előfordulása és értékelése ügyfélvisszajelzésekben.
  • NER (named entity recognition):
    • helyek felismerése: városok és országok azonosítása
    • márkák felismerése: márkanevek felismerése
    • személyek felismerése
    • szervezetek felismerése
  • szerzők nemének felismerése: a keresztnév alapján a nem megjóslása
  • entitás kapcsolatok felismerése: a különböző entitások és címkék között kapcsolatok és azok erősségének azonosítása hálózatos megjelenítésekhez, mely kifejezetten előnyös és informatív tartalomelemzési feladatoknál (lásd lent)

neticle02.png

Az API segíthet kérdőívek nyílt kérdéseire érkező válaszok automatikus elemzésében, ügyfélvisszajelzések vagy CRM adatbázis feldolgozásában, bármilyen tartalomelemzési feladatban, de akár e-mail kategorizációban és automatikus válaszkialakításban is.

 

Az alábbi felületen kipróbálható 1-1 kisebb méretű szövegre: https://api.neticle.hu/demo.html

 

neticle03.png

Néhány kódsorral egyszerűen beilleszthető az API bármilyen szoftverbe, csupán egy érvényes tokenre van szükség: http://wiki.neticle.hu/semantic_api_v1.0

Próba token valamennyi kereses.blog olvasó számára a peter.szekeres@neticle.hu címen kérhető. A készítők bármilyen visszajelzésnek nagyon örülnek, és már gőzerővel dolgoznak, hogy angolul, németül és bolgárul is tudjanak a függvények valamint, hogy különféle kivonatoló funkciókat vezessenek be.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása