HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Kisvilágunk, a nyelv 2. - szemantikai és szóasszociációs hálózatok

2015.09.01. 09:31 Szerző: Zoltán Varjú Címkék: nyelvészet gráf kisvilág asszociációk hálózatelemzés WordNet

Korábbi posztunkban a magyar Wikipedia korpuszán szemléltettük, hogy a nyelvi gráfok kisvilág tulajdonságot mutatnak. Most magyar példákon keresztül szemléltetjük, hogy a szemantikai és az asszociációs nyelvi hálózatok is skálafüggetlen kisvilágok. 

Magyar WordNet

wn_d2.png

A Magyar WordNet az első magyar lexikális szemantikai adatbázis mely alapegységei az ún. synset-ek, melyekhez szinonimák, használati példák stb. tartoznak, továbbá az adott synset más elemekkel kapcsolatos szemantikai relációit sorolja fel. Hálózatunkat ebből készítettük, a fenti képen pirossal jelöltük a synset-eket, kékkel pedig a bennük felsorolt szinonimákat. Hálózatunkban 42359 csomópont található, ezek között 38335 él van. Az átlagos utak hossza 2.35, a gráf átmérője 13, klaszterezési együtthatója 0.0032. A fokszámok gyakorisága így alakul:

 

degree_freq_1.png

Ha a fokszámok eloszlását log-skálán nézzük, akkor a klasszikus skálafüggetlen gráfokra jellemző ábrát kapunk.

degree_distr.png

A WordNet esetében is érvényesül, hogy a népszerű csomópontok egyaránt vonzzák az alacsony és magas fokszámú elemeket, habár itt a klasszikus ábráktól kicsit eltérő képet láthatunk.

neighbors.png

Mivel gráfunk nagy, úgy döntöttünk hogy a három vagy annál nagyobb fokszámú csomópontokat mutatjuk csak meg az alábbi ábrán. Továbbra is piros színnel jelöljük a synset-eket, kékkel pedig a szinonimákat. A csomópontok nagysága PageRank értéküket tükrözi. Érdemes megjegyezni, hogy a PageRank érték nem mutat akkora szórást mint más skálafüggetlen gráfok esetében.

wn_d3.png

Agykapocs

agykapocs_d5.png

Kovács László Agykapocs adatbázisa egy online gyűjtött, többnyelvű szóasszociációs adatbázis. Sajnos az Agykapocs jelenleg nem érhető el online, de ebből a tanulmányból megismerhető. Akiknek ennyi nem elég, azoknak ajánljuk az adatbázis készítőjének doktori értekezéséből készült kötetet.

 

Mivel az Agykapocs többnyelvű, első körben leszűrtük a magyar kapcsolatokat. Irányított gráfunkba csak azok az elemek kerültek be, melyeket egynél több az erőssége, azaz egynél több felhasználó válaszaiban szerepelt. Az így kapott gráfban 8049 csomópont és 13635 él található. Az átlagos utak hossza 4.36, a gráf átmérője 353, klaszterezési együtthatója pedig 0.0438. A fokszám gyakoriságok alakulását  az alábbi ábra szemlélteti: 

degree_freq_2.png

A fokszámok eloszlása is klasszikusan alakul.

degree_distr_1.png

Nagyon szépen kijön a preferenciális kapcsolódás, azaz a népszerű csomópontokat mindenki szereti.

neighbors_1.png

Az asszociációs hálózat megjelenítésével még nagyobb bajban voltunk, ugyanis ennek élei súlyozottak. Úgy döntöttünk, hogy a kilenc, vagy annál nagyobb fokszámú csomópontokat fogjuk megmutatni csupán.

agykapocs_d9.png

Szépnek szép, de mi értelme?

A nyelvi gráfok nagyon szexin mutatnak, de ennél sokkal többről van szó. Habár technológiai szempontból teljesen mindegy, hogy egy-egy nyelvtechnológiai megoldás hasonlít-e az emberi elmében lezajló folyamatokhoz, sok jel arra utal, hogy a gráf alapú megközelítés egyszerre hatékony mint technológiai eszköz és mint kognitív modell is. Hamarosan arról is írunk, miért gondoljuk ezt így!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr737749992

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása