HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Egri konferenciasiker

2015.05.20. 07:40 Szerző: Szabó Martina Katalin Címkék: szentimentelemzés

A Doktoranduszok Országos Szövetsége idén is megrendezte a Tavaszi Szél konferenciát. 

00005494.jpeg

A DOSz a konferenciát, azaz a „fiatal magyar kutatók és doktoranduszok világtalálkozóját” hagyományosan magyar és angol munkanyelvű rendezvényként hirdeti meg. A találkozóra doktoranduszok, doktorjelöltek, valamint mesterszakos hallgatók jelentkezését egyaránt várják a szervezők. 

A konferenciának ebben az évben, áprilisban az egri Eszterházy Károly Főiskola adott otthont. 

ekf.jpg

A találkozón különböző tudományterületek kutatói prezentálták eredményeiket, az alábbi szekcióknak megfelelően:
 
Agrártudományi szekció
Közgazdaságtudományi szekció
Állam- és jogtudományi szekció
Közigazgatás-tudományi szekció
Biológiatudományi szekció
Matematikai és informatikai szekció
Filozófiatudományi szekció
Műszaki szekció
Fizikatudományi szekció
Művészeti és művészettudományi szekció
Földtudományi szekció
Nyelvtudományi szekció
Had- és rendészettudományi szekció
Orvos- és egészségtudományi szekció
Hittudományi szekció
Pszichológiai és neveléstudományi szekció
Irodalomtudományi szekció
Szociológiai és multidiszciplináris társadalomtudományi szekció
Kémiai és környezettudományi szekció
Történelem- és politikatudományi szekció

 

Az egyes szekciók keretében lehetőség nyílt mind az elméleti, mind a gyakorlati hasznosíthatóság oldaláról bemutatni az egyes tudományterületeket és azok tudományágait, illetve az egyes kutatási témákról és eredményekről vitát indítani, beszélgetést folytatni. A találkozón a felsőoktatási intézmények, a kormányzati és az üzleti élet számos képviselője, valamint az egyes témák iránt érdeklődő kolléga, szakértő is jelen volt. A rendezvényről bővebb információ érhető el többek között a Felsőoktatásért Felelős Államtitkárság honlapján, az alábbi linken: http://www.kormany.hu/hu/emberi-eroforrasok-miniszteriuma/felsooktatasert-felelos-allamtitkarsag 

A konferencián a Precognox képviseletében a doktoranduszi kutatómunkám egy részproblémájáról adtam elő, A polaritásváltás és - változás kezelési lehetőségei a szentimentelemzésben címmel. Az előadást a zsűri, legnagyobb örömünkre, a nyelvtudományi szekcióban első helyezéssel jutalmazta (http://dosz.hu/hirek/tavaszi_szel_konferencia_eredmenyei).

 colorjpg003_p1.jpg

 

A Doktoranduszok Országos Szövetsége tagjainak ezúton is további sikeres konferenciaszervezést kívánunk!

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogy hivatkoznak egymásra a magyar politikai blogok és híroldalak?

2015.05.19. 08:31 Szerző: Zoltán Varjú Címkék: politikai blogok tartalomelemzés hálózatelemzés szentimentelemzés emócióelemzés

Budapest Science Meetup előadásunk megtekinthető:

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Brainy Solutions - NLP meetup május 20-án

2015.05.18. 09:32 Szerző: Zoltán Varjú Címkék: meetup NLP meetup deep learning cortical.io cortical learning

Május 20-án évadot is zárunk, ennek megfelelően eltérünk a szokásos programtól. Továbbra is hatkor kezdünk a Colabs-Budában (Bp, Krisztina körút 99.) és továbbra is ingyenesek vagyunk, de előzetes regisztráció kérnénk mindenkitől itt. A szokásoktól eltérően viszont most angolul meetupolunk és csak egy vendégünk lesz (ha más addig nem jelentkezik), de megéri! Címszavakban; deep learning, cortical learning, startup.

letoltes.jpg

Francisco Webber: Semantic Fingerprinting: Democratising NLP

cortical.io’s Semantic Fingerprinting technology originates in a new, fundamentally different machine learning approach: it is based on a statistics-free processing model that uses similarity as a foundation for intelligence. The cortical.io Retina converts any kind of text into  a numeric representation, a Semantic Fingerprint, that encodes meaning explicitly with all contained senses and contexts. The system "understands" the relatedness of two items by simply measuring their overlap. As a result, it is very fast, reliable and easy to implement - a breakthrough technology that leverages the intelligence of the brain to enable the Natural Language Processing of Big Text Data. 

Francisco Webber, inventor and co-founder at cortical.io

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kisvilágunk, a nyelv

2015.05.15. 07:06 Szerző: Zoltán Varjú Címkék: nyelvészet nyelv kisvilág korpusznyelvészet hálózatelemzés Zipf

Watts és Storgatz kisvilág gráfjait már 2001-ben alkalmazta a(z angol) nyelvre Ferrer i Cancho és Solé. Sajnos azonban eredményük nem igazán ismert nyelvész körökben, pedig egyrészt túl tud mutatni a Zipf-féle hatványeloszláson, másrészt pedig alternatíváját nyújthatja a nyelvtechnológiában bevett hagyományos szózsák modellnek is, s talán a nyelvi rendellenességek magyarázatához is felhasználható. Nézzük meg magyar példán miről van szó!

graph_143_u.png

Adatok

A magyar Wikipedia oldalai közül random kiválasztottunk párat, majd begyűjtöttük a szövegeket. 463409 szóból áll korpuszunk, ami 46096 egyedi szótári elem között oszlik el, ahogyan a hagyományosan Zipf nevéhez kötött grafikonunk is mutatja, a gyakoriság szerint első 10-100 szó bizony kiteszi a korpuszunk javát!

zipf.png

Tudjuk, a Zipf-eloszlás elején a funkciószavak és további, pár nagyon gyakori szó található. De hogy viszonyulnak ezek egymáshoz? 

Hogy készítsünk kisvilág-gráfot szövegekből?

Mielőtt megvizsgálnánk gráfunkat, nézzük meg hogyan készült. Vegyük az alábbi gyógypéldát.

Zoli nagyon örül, mert Nóri elvitte végre krumplilángost enni. A krumplilángos Zoli számára a legfinomabb kaja a világon és reméli, hogy Nórinak is ízlett. Zoli és Nóri legközelebb nem krumplilángost fog enni, hanem elmennek megnézni az új Avengers filmet.

Ez szótövezve és minden nem-betűtől megtisztítva, csupa kisbetűsen így néz ki kb.:

zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos fog enni hanem menni nézni az új avengers film

 

Ebből trigramokat készítünk.

zoli nagyon örül

nagyon örül mert

örül mert nóri

stb.

A gráfot a trigramokból készítjük. Két szó akkor kapcsolódik, ha együtt előfordul egy trigramban, a fenti példából az alábbi éleket kapjuk:

zoli - nagyon

zoli - örül

nagyon - örül

nagyon - mert

örül - mert

mert - nóri

stb.

Példánkból pedig az alábbi gráf generálható:

 

pelda_graf_1.png

Pontosan így készült a mi gráfunk is, egy kis megkötéssel. A trigramok elemeiből csak akkor lettek csomópontok és közöttük élek, ha mindhárom tagjuk szerepelt a leggyakoribb 1500 szó listáján. Ezzel kicsit eltértünk a tanulmányban leírt módszertől, de nem lényegesen. (A tanulmány szerzői egyrészt gyakorisági küszöböt alkalmaztak, másrészt pedig az n-gramok tagjainak együttes előfordulásának valószínűségét is nézték)

Jellemzők

A fent leírt módon generált gráf 1500 csomópontot tartalmaz, melyek között 87749 él található. A fokszámeloszlást az alábbi ábra mutatja.

fokszam.png

szomszedok.png

Jól látható, hogy egy kicsit eltérnek az adatok a klasszikus kisvilág-tulajdonságtól. Ennek oka, hogy a gráfban szerepel pár, a Wikipedia-ra jellemző szó (főleg a struktúra jelölésére használtak, ill. szerkesztéssel kapcsolatosak) melyeket nem szűrtünk ki. Ezek előfordulása gyakori, de általában ugyanolyan közegben fordulnak elő, ezért kevés szóhoz kapcsolódnak - emiatt vannak grafikonjaink "eltolva" a klasszikus kisvilágokat ábrázoló plotokhoz képest. 

Gráfunk átmérője kettő, ami megfelel Ferreri i Cancho és Solé eredményeinek. A klaszterezési együttható azonban lényegesen magasabb, 0.75, mint az általuk mért 0.69 és 0.48. Ennek oka, hogy mi erősen szerkesztett, tudományos(abb) szövegeket használtunk, még az eredeti cikk a British National Corpus-ra támaszkodott. A teljes gráf valahogy így néz ki:

full.png

Ezen a gráfon már szürke csomópontok is vannak, ezek a Zipf-görbe hosszú farkán tanyázó szavak, melyek gyakorisága alacsony, elemben sok van belőlük. Reméljük látható, hogy ezek egy-egy piros, tehát közepes gyakoriságú szó körül "csomósodnak", ez lenne a kisvilágok egyik fő jellemzője.

Fokszámra (237 vagy nagyobb) szűrtünk az alábbi ábra elkészítéséhez, hogy csak központi elemeit mutathassuk meg gráfunknak.

graph_143_l.png

Az eredeti tanulmányban ezt nevezik „core kernel”-nek, azaz központi magnak. Mi is azt tapasztaljuk, hogy a funkciószavak (itt kékkel jelölve látható többségük, nagyságuk pedig fokszámuk függvénye) alkotta rész felel a többi szóval való összeköttetésért. Aki nagyon sasol, az észreveheti, hogy a piros-kék felosztás nem fedi teljesen a funkció- és tartalomszavak felosztást, de semmi sem lehet tökéletes.

Spekuláció

Ferrer i Cancho és Solé rámutattak arra, hogy a funkciószavak nem csak összekötik az egyes szavakat, hanem tulajdonképpen a különféle szótári osztályok között ezek létesítenek kapcsolatokat. A lexikon bővülése nem esetleges, hanem a kisvilágokra jellemzően egy-egy elem köré csoportosulva történik, ezért "fürtösödik" a hálózat, ez párhuzamba állítható a nyelvelsajátítással. Amennyiben a grammatikai funkciókat ellátó funkciószavak hálózata és a tartalommal rendelkező szavak lexikonja önálló rendszerek, melyek valahogy össze lettek huzalozva, érthető hogy milyen drasztikus következményekkel járhat valamelyik alrendszer sérülése, kiesése. Habár a kisvilágok (különösen a skálafüggetlen hálózatok, mint pl. az internet) a véletlen támadásokat viszonylag jól tolerálják, a célzott, központi elemeket kiiktató hibák súlyos következményekkel járhatnak rájuk nézve. Sajnos a tanulmány nagyon érintőlegesen foglalkozik csak ezzel a kérdéssel, de a felvetés nagyon érdekes.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogy hivatkoznak egymásra a magyar politikai blogok és híroldalak? - prezentáció

2015.05.14. 19:00 Szerző: Zoltán Varjú Címkék: politikai blogok tartalomelemzés hálózatelemzés szentimentelemzés emócióelemzés

Ma a Budapest Science Meetupon beszéltem politikai blogokkal foglalkozó projektünkről.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása