HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatbányászat (6) adatok (12) adatújságírás (16) adatvizualizáció (17) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (48) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) Google (23) google (57) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (11) metafora (7) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (28) nyelvtechnológia (73) open data (11) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (46) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (18) szemantikus kereső (9) szentimentelemzés (34) szövegbányászat (15) társadalomtudomány (7) tartalomelemzés (54) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (12) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Múlt idő és kognitív technológia

2015.06.17. 13:37 Szerző: zoltanvarju Címkék: keresés nyelvészet szemantikus keresés Google deep learning Pinker PDP Google Knowledge Graph

Az ezredforduló tájékán a szexi IT világától távoli lapokban éppen lezárult a nyelvészek és kognitív tudósok között két évtizede zajló "múlt idő vita". Több mint tíz évvel később új formában előjött minden, de most a technika köntösébe bújva; a neurális hálók és a klasszikus, szabályalapú rendszerek hívei között. 

ornithopter.jpg

A repülő nem madár, mégis repül

Da Vinci repülő szerkezetét a madarak ihlették. Nagyon ötletes szerkezet, kifejezetten zöld megoldás és még működőképesnek is tűnnek modern megvalósításai.

 

Amikor a Wright testvérek megtervezték gépüket, vitathatatlanul a madarak inspirálták őket. Ellenben egy modern utasszállító- vagy egy vadászgép nagyon nem madárszerű, egy helikopter pedig végképpen nem az. Egyes repülőgép-alkatrészek és madárszervek között találhatunk funkcionális hasonlóságokat, de eleve más alapanyagból készülnek és másképp működnek, gondoljunk pl. a madarak és a repülők szárnyaira!


Porphüriosz fája és a Google

A Google 2010-ben felvásárolta a Freebase-t, amivel az egyik legnagyobb szemantikus adatbázist szerezte meg. A Freebase magját alkotó tudáshalmazt felhasználók ezrei gyűjtögették össze aprólékos munkával. Persze azóta a linked data mozgalom is beindult és egyre több szemantikus adathalmaz válik elérhetővé. Ezek jelentős részét már gépek bányásszák elő. A népszerű DBpedia például a Wikipedia struktúráját kihasználva állít elő tudásbázist. A Google Knowledge Graph is egyre inkább automatikusan bővül, gyakran a nyilvános, szabadon elérhető linked data adatbázisokat használva.

porphyrios.jpg 

Habár jelentős lépések történtek a linked data automatikus generálása terén, az emberi tudás jelentőseb része még nincs adatbázisokban tárolva. Nyilván ennek egy jelentős részét nem is lehet tárolni. A „tudni hogy” és „tudni mit” distinkció nagyon fontos ezen a téren. A biciklizést el lehet magyarázni, de igazából csak a gyakorlatban lehet tanítani és megtanulni. Viszont nagyon sokszor használjuk a józan eszünket, hiszen vannak dolgok amiket nem kell elmagyarázni, ilyen összefüggések gyűjtését célozta meg a ConceptNet projekt. De mit is értünk józan ész alatt? Ha Nóri a vonaton van, a vonat pedig az állomáson, akkor tudjuk hogy Nóri is az állomáson van. Ha Nóri okos akar lenni, akkor tanulnia kell. Azaz nem csak ontológiából áll tudásunk, hanem abból is hogyan kapcsolódnak annak egyes elemei egymáshoz, sőt ezeket a viszonyokat is szeretjük megnevezni, ami valljuk be igazán kuszává teszi a helyzetet.

Habár Arisztotelész az első, akiről tudjuk, hogy szerette volna formálisan rendszerezni az emberi tudást, gyanítható hogy olyan vágynak adott hangot, amely egyidős az emberiséggel. A klasszikus arisztotelianizmus Porphüriosz fájában jelenítette meg a kor linked datáját, ami tulajdonképpen kategóriákat és létezőket ábrázol gráf struktúrában. Azóta a fa sokkal terebélyesebb lett, de úgy tűnik a feladat az emberek számára túl nagy falat, a gépeknek pedig túl bonyolult. Ezért a Knowledge Graph gyarapítására a Google deep learninget vetett be, s ebben sok követőre akadt.

 

A vita

ai-image.jpg

A nyolcvanas években Paul Smolensky (nyelvész olvasóinknak az optimalitáselméletből lehet ismerős a neve) köré kezdtek szerveződni a konnekcionisták, akik a kor színvonalához képest már nagyon jó számítógépes modellekkel dolgoztak. A kétrészes Parallel Distributed Processingtanulmánykötetben összegezték munkáikat 1987-ben, melyet még ma is szívesen hivatkoznak a terület kutatói. A PDP csoport alapvetően Neumann gondolatát vitte tovább a párhuzamos feldolgozást illetően. A gyakorlatban egy-egy ún. szubszimbolikus kognitív folyamatot modelleztek (pl. számjegyek felismerése, szófelismerés, a legbonyolultabb és egyben legismertebb magasabb szintű folyamatot modellező kísérlet a Rumelhart és McCelland On the learning of past tenses of English verbs tanulmányban leírt modell).  Habár nagyon sikeres volt a csoport és figyelemre méltó eredményeket értek el, a kutatási irányzat a kilencvenes években kiesett az ipar látóköréből és megmaradt akadémiai hobbinak.

Setven Pinker a "hagyományos" iskola talajáról emelte fel a szavát a megosztott feldolgozás modellje ellen. A szavak és szabályok (WR, vagy Words and Rules) elmélet (legfrissebb formája) nem tagadja, hogy a pl. a múlt idő elsajátítása során egyszerű pattern asszociációkon keresztül sajátítják el a gyermekek mind a szabályos, mind pedig a rendhagyó alakokat. A WR a tárolásról szól, arról, hogy hatékonyan gráf adatstruktúrában érdemes tárolni a lexikon, a rendhagyó alakokat pedig érdemes a hierarchikus gráfba helyezni, minden más elem transzformációját pedig szabályokkal megoldani. (Itt lehet olvasni a múltidő vita összefoglalását Pinker szemszögéből.)

McCellend és Rogers The Parallel Distributed Processing Approach to Semantic Cognition című tanulmányukban Porhüriosz fájának modern reinkarnációját, Quillian szemantikus memóriáját vizsgálják a neurális hálók szemszögéből. Nagyon meggyőzően érvelnek amellett, hogy a szemantikus relációk is asszociatív úton sajátíthatóak el, sőt, ezt még empirikus nyelvfejlődési adatokkal is alá tudják támasztani. Ami problematikus számunkra, az a kinyert adatok tárolása és gyors előhívása. Ebben nem sikerül Quillian eredményeit túlszárnyalniuk, sőt, ezt a modellt is alá lehet támasztani sok empirikus adattal is.

A modellek csak modellek

Technikai értelemben Pinker álláspontja a gazdaságos, hiszen nem feltételezi, hogy a relációk kinyerése, vagy éppen a szemantikai viszonyok elsajátítása egyben tárolásuk problémáját is meg kell hogy oldja. Porphüriosz fáját emberek helyett deep learning algoritmusok szerkeszthetik meg, az adatokat pedig továbbra is gráfadatbázisokban érdemes tárolni. 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr747549162

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.