A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.
Az alábbi keresődobozsegítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.
Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.
Precognox Blogkereső
Document
opendata.hu
Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.
A long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...
A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft.Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.
Ma Dessewffy Tibor Politikai kommunikáció c. kurzusán adunk elő az ELTE Társadalomtudományi Karon.
A diákoknak bemutatjuk a szövegbányászat és a hagyományos szövegelemzés eltéréseit és ismertetjük pár politikai témájú projektünket:
a tavalyi főpolgármester-választáskor végzett emóció- és szentimentelemzésünket, amelyet a választási eredmények előrejelzésére használtunk fel,
a kuruc.info-n végzett romareprezentációs kutatásunkat, amely során topik modellel (LDA) nyertük ki a romaellenes témákat,
és a magyar politikai blogszférán végzett hálózat- és emócióelemzésünket.
Az előadás diái:
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
A KConnect projekt keretében a University of Sheffield NLP Group által szervezett hackathonon veszünk éppen részt. A két nap során a magyar és svéd nyelvű erőforrások GATE-be történő integrálását kezdtük meg és sokat haladtunk, pedig megjártuk a Don-kanyart is. A KConnect szolgáltatásai hamarosan elérhetőek lesznek magyar és svéd nyelvre is!
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
A mai információs társadalomban az emberi agy számára feldolgozhatatlan mennyiségű információ áraszt el minket. Az információ mennyisége pedig csak egyre növekszik az infokommunikációs technológiák fejlődésével. Ezen információk nagy részével szöveges formában találkozunk, például Facebookon végigolvassuk ismerőseink posztjait, ellátogatunk az általunk kedvelt híroldalakra, beleolvasunk pár cikkbe, felkeressük a számunkra fontos szakmai oldalakat, majd estig megismételjük az eljárást párszor. Hiába a sok információ, még így is sokszor lemaradunk a lényegről. Hogy kinyerhessük a minket érdeklő információkat, rengeteg módszer kínálkozik a számítógépes szövegfeldolgozás területén. Azonban az így kinyert lényegi információk csak úgy érnek célt, ha azokat az emberek számára is emészthető formába közöljük, ezért az adatok vizualizációja és a felhasználói felületek megfelelő designja igen fontos lépés ebben a folyamatban.
Az előadás során a Precognox szövegfeldolgozási, szövegbányászati projektjeit mutatja be, melyek témái között szerepel az olvasási nehézségekkel küzdők támogatása, a romák elleni gyűlöletbeszéd, a magyar politikai blogszféra diskurzusa és a gyermekek nyelvfejlődése. A cég adatvizualizáció, interface és interakció design területen keres együttműködő partnereket pályázatokhoz, valamint gyakornoki programukban szívesen várnak a területek iránt érdeklődő diákokat.
Ha túl sok a szöveg - topik vizualizáció
Hogyan tudunk nagy mennyiségű szöveges információt könnyen és gyorsan áttekinteni anélkül, hogy elolvasnánk őket? Hogyan tudjuk akár az időben is követni, hogy a szövegek témái hogyan változnak? Projektünkben a látens Dirichlet allokáció (LDA) módszert vetettük be, ami humán kiértékelők szerint is természetes témákba rendezi a szövegek gyűjteményét. A témák kinyerését egy szélsőjobboldali hírportál 10.000 cikkén illusztrálva mutatjuk be, majd a témák időbeli áttekinthetőségét szolgáló adatvizualizáció tervezésének folyamatát ismertetjük Szűcs Krisztina segítségével, hogy hogyan alakítottuk ki a nyers adatból a végső interaktív vizuális ábrázolást.
Egymásba gabalyodva - a magyar politikai blogszféra az érzelmek hálójában
Az egyes szövegek sosem állnak önmagukban, beszélnek egymással hivatkozásokon és utalásokon keresztül. Az interneten ez egész explicit módon linkek formájában jelenik meg ami kirajzolja a hivatkozások hálózatát. Politikai blogokat vizsgáló projektünk keretében több mint 700 oldal posztjait és cikkeit gyűjtöttük össze, megvizsgáltuk a közöttük lévő kapcsolatokat. Mennyire pozitív, vagy éppen negatív egy oldal? A blogokon vagy a hírodalakon megjelenő szövegekben találhatunk a hat alapvető emberi érzelemre utaló szavakból többet? Projektünk során igyekeztünk a hálózati struktúrán is megjeleníteni az érzelmeket.
Sok beszédnek sok az alja - kulcsszókinyerés és kivonatolás
Nem csak az egymásra hivatkozó szövegek alkotnak hálózatokat, egy-egy szöveg maga is felfogható az azt alkotó szavak hálózataként. A hálózati ábrázolás amellett, hogy a szófelhők alternatívája is lehet, alkalmas arra, hogy azonosítsuk a szöveg “központi” szavait. A fontos csomópontok azonosításával rövid kivonatot készíthetünk a szövegből, továbbá sok keresési feladatban hasznosnak bizonyult kulcsszavakat is kinyerhetünk.
A kulcsszavaktól a nyelvfejlődésig meg annak zavarai
Tudunk-e segíteni az olvasási nehézségekkel küzdőknek abban, hogy az online világ egyenrangú részesei lehessenek? A CHILDES gyermeknyelvi korpusz adatait vizsgálva a nemzetközi irodalom és saját vizsgálataink is azt mutatják, hogy a hálózati modellek jól írják le nyelvfejlődést. Érdekes kapcsolódás, hogy az olvasási nehézségekkel élők számára sokat segít a szövegértésben a kulcsszavak kiemelése. Saját kulcsszókinyerő alkalmazásunkat ezen a területen szeretnénk bevetni; egy olyan böngésző plug-in kifejlesztését tervezzük, ami a webes szövegeket sokkal emészthetőbb formátumban, a kulcsszavakat kiemelve jeleníti meg.
Előadók:
Szűcs Krisztina tervezőgrafikus, Data Visualization Designer krisztinaszucs.com
Balogh Kitti a Precognox statisztikusa
Varjú Zoltán a Precognox számítógépes nyelvésze
A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data szoftvermegoldások kutatója és fejlesztője.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Szeretnénk azt hinni, hogy az elme az agyban lakozik. Önmagában az agy modellezése is eléggé nehéz feladat, de ha sikerül részben megoldani, akkor van egy intelligens rendszerünk. De mennyire intelligens egy rendszer, ami egy feladatra fókuszál? Szétszálazhatjuk-e az agy területeit önálló modulokra? Az a tény, hogy az elme látszólag egymással semmilyen kapcsolatban nem álló funkciói hatnak egymásra, nem sok jót ígér. Tovább bonyolítja a helyzetet, hogy az elme egy testbe van ágyazva és szereti magát kiterjeszteni az őt körülvevő környezetbe, azaz tulajdonosa testét és az azon kívüli világot is használja. A tánc pedig segít belelátni ebbe a kusza helyzetbe!
Korábbi posztunkban már megemlítettük Goldin-Meadow kísérleteit, melyek nagyon ötletesen mutatnak rá arra, hogy gesztusainkkal egyben gondolkodunk is.
Peter Lovatt, más néven Dr. Dance, egykori táncos, aki imádott művészetét használva küzdött meg olvasási nehézségeivel és lett a tánc pszichológiájának elismert kutatója. Lovatt többek között arra hívja fel a figyelmet, hogy a tánc és úgy általában a valamennyire strukturált mozgás a gondolkodásban is segít. De hogy lehetséges ez?
Alva Noe a megtestesült (embodied) gondolkodás irányzatának legkreatívabb filosza szerint egyszerűen fel kell adnunk azt a karteziánus képzetet, mely szerint az elme elválasztható többi részünktől, vagy kiragadható a környezetéből. Nem csak arról van szó, hogy az elme aktívan használja a környezetét, hanem hogy az elme, a test és a környezet egyszerre adott, nem igazán lehet őket elkülöníteni. A tánc Noe számára azért izgalmas, mert reflektál arra, ahogyan egy elmével rendelkező test interakcióba lép a környezetével.
De miért olyan érdekes dolog ez a tánc? Noe a mesterséges intelligencia Dreyfus-féle, fenomenológiai kritikáját adja (erről bővebben már írtunk itt), ami pontosan arra világít rá, hogy a tudományos módszer képtelen megragadni azt a totalitás élményt, ahogy az elme, a test és a környezet egyszerre, dinamikusan alakítja életünket. Az intelligencia része, hogy ebben a dinamikus viszonyban veszünk részt, életünk ezen részére pedig sokkal inkább a művészetekben és a humán tudományokban próbálunk reflektálni.
Dreyfus, Noe és a többi elmefilozófus nem hánynak fittyet a mesterséges intelligencia és a gépi tanulás sikereire. Nem kérdőjelezik meg az elért eredményeket és nem vonják kétségbe azt, hogy jelentős áttörések várhatóak ezen a területen. Gondolataik arra hívják fel a figyelmet, hogy ha integrálni akarjuk az egyes területeken jól teljesítő intelligens rendszereket, akkor szembesülnünk kell azzal, hogy nem csupán input-output problémával állunk szemben. A művészetek, pl. a tánc tanulmányozása nem csupán a bevett tudományos szemlélet kritikáját adhatja! Az olyan projektek, mint pl. a AI_am (melynek nagyon jelentős magyar vonatkozásai is vannak!) segítenek feltérképezni azt, hogy mi adható át, mi formalizálható abból a tapasztalatból a gépek számára, amit mi nap, mint nap megélünk, ahogy elménk, testünk és környezetünk interakcióba lépnek egymással.
Ne áruljunk petrezselymet, kezdődjön a tánc!
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Az idei OSINT konferencián két előadással veszünk részt, ezek diáit alább közöljük.
Kapcsolódó posztjainkból többet is megtudhat a kedves olvasó a területről:
Politikai blogokkal foglalkozó projektünkről sokat írtunk, a tag linkjérőlelérhető az összes poszt
Az emócióelemzésről is sokat írtunk, ezen posztok innen érhetőek el könnyen
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.