HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatok (12) adatújságírás (16) adatvizualizáció (16) AI (8) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (46) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (14) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (32) facebook (8) Facebook (9) gépi tanulás (10) Google (23) google (57) gyűlöletbeszéd (7) hackathon (9) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (38) könyvajánló (21) korpusznyelvészet (13) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (39) mesterséges intelligencia (9) metafora (6) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (27) nyelvtechnológia (71) open data (11) open knowledge (7) Pennebaker (6) politikai blogok (22) Precognox (43) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (6) szemantikus keresés (17) szemantikus kereső (9) szentimentelemzés (32) szövegbányászat (14) tartalomelemzés (53) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (11) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Big Data Konferencia @ Pécs 2017.11.30

2017.11.10. 09:54 Szerző: zoltanvarju Címkék: konferencia big data Precognox emócióelemzés

A hónap végén egy remek konferencia lesz Pécsett, amin kollégáinkkal is találkozhattok. A Precognox a szövegek érzelmi elemzéséről, lead generálásról és scrapingről fog beszélni. Részletes program elérhető itt. 

tas_text_analytics_sytem_webversion.jpg

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ki hogy beszél és milyen képet vág hozzá? @ conTEXT 2017

2017.11.07. 09:49 Szerző: zoltanvarju Címkék: konferencia migráns ATM topik modellek conTEXT LDA author-topic model

Ma a conTEXT-en adunk elő. Továbbra sem sikerült lejönnünk a topik modellezésről, de most nem a szokásos LDA lesz, hanem ATM (azaz Author-Topic Model). 

A migrációs válság során megjelent hírekből készült korpuszunkkal kapcsolatban a leggyakoribb kérdés az volt, hogy az egyes topikok mely hírodalakhoz tartoznak leginkább. Pl. az ilyen szép életképek a készülő, vagy éppen már elkészült határzárról mely oldalakra jellemzőbbek.

context_20171107.jpg

Az Author-Topic Model segít nekünk a fenti kérdés megválaszolásában.Sőt! Reménykedünk abban, hogy az ATM a mindennapi munkánkba is beépíthető!

 

A korpuszon végzett korábbi elemzéseinkről bővebben az alábbi linkeken:

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Programajánló: bemutatkozik a Számítógépes Társadalomtudomány (Computational Social Science) témacsoport

2017.11.06. 10:10 Szerző: Szabó Martina Katalin Címkék: konferencia technológia szociológia társadalomtudomány nyelvtechnológia MTA Magyar Tudományos Akadémia Magyar Tudomány Napja Számítógépes Társadalomtudomány Computational Social Science

A Magyar Tudományos Akadémia egy igazán illusztris konferenciával kíván tisztelegni a Magyar Tudomány Napja előtt: bemutatkozik az újonnan alakult Számítógépes Társadalomtudomány (Computational Social Science) témacsoport. 

Kapcsolódó kép Képtalálat a következőre: „CEU Center for Network Science  logó”     Kapcsolódó kép        Képtalálat a következőre: „magyar tudományos akadémia mta tk”         

 Kapcsolódó kép   Képtalálat a következőre: „Wigner Fizikai Kutatóközpont logó”    Képtalálat a következőre: „MTA NYTI logó”

 

 

 

Az MTA TK kezdeményezésében a közelmúltban egy intézmény- és tudományágközi Számítógépes Társadalomtudomány (Computational Social Science) témacsoport alakult számos akadémiai kutatóközpont: az MTA KRTK, NYTI, SZTAKI, TK, a Wigner Fizikai Kutatóközpont, valamint a CEU Center for Network Science részvételével. A témacsoport bemutatkozó rendezvényére a Magyar Tudomány Ünnepén kerül sor az MTA Székházában, 2017. november 14-én 9-14 óra között. 

Az eseményen a résztvevő intézmények kutatói tartanak nyilvános vitával egybekapcsolt előadásokat. A témacsoport kutatási céljaival összhangban olyan előadásokat hallhatunk majd, amelyek a nyelvtechnológia eszközeit alkalmazó, különböző szociológiai tárgyú vizsgálatokról, illetve problémafelvetésekről számolnak be. 

Magam 10.55-től adok elő munkatársaimmal együtt (RECENS kutatócsoport), akikkel egy magyar nyelvű, spontán beszélt nyelvi korpusz létrehozásán dolgozunk annak céljából, hogy megfelelő vizsgálati anyagot teremtsünk a pletyka természetének feltárásához. Előadásunk címe "A pletyka a társas rend szolgálatában. Az informális kommunikáció szerkezetének mélyebb megértéséért a Computational Social Science eszközeivel" címet viseli. Nagyon örülök minden érdeklődőnek, illetve az előadáshoz kapcsolódó bármilyen kérdésnek, észrevételnek!

Alább olvasható a részletes program, amelyre minden érdeklődőt szeretettel várnak a rendezők:

9.00 - 9.10 Nyitó gondolatok

9.10 - 9.20 Bevezető az előadásokhoz
Rudas Tamás, az MTA TK főigazgatója, az ELTE professzora

9.20 - 9.40 Az információs világ és a mi világaink – a kezdetek, az emberi szerep és a robot hisztéria
Vámos Tibor, az MTA rendes tagja, az MTA SZTAKI professzor emeritusa

9.40 - 10.00 Segíthetnek-e a szóbeágyazási modellek a társadalomtudósoknak?
Prószéky Gábor, az MTA Nyelvtudományi Intézete igazgatója, a PPKE professzora;
Siklósi Borbála, PPKE-ITK adjunktusa, Natural Language Processing Group;
Novák Attila, PhD, PPKE-ITK, Natural Language Processing Group

10.00 - 10.20 Hibrid nyelvtechnológiák
Kornai András, az MTA SZTAKI Nyelvtechnológiai Kutatócsoport vezetője, a BME professzora

10.20 - 10.40 Kérdések, vita

10.40 - 10.55 Szünet

10.55 - 11.15 A pletyka a társas rend szolgálatában. Az informális kommunikáció szerkezetének mélyebb megértéséért a Computational Social Science eszközeivel
Takács Károly, PhD, az MTA TK RECENS Kutatócsoport vezetője; 
Galántai Júlia, az MTA TK RECENS Kutatócsoport tudományos segédmunkatársa;
Szabó Martina Katalin, az MTA TK RECENS Kutatócsoport tudományos segédmunkatársa

11.15 - 11.35 A társadalom hálózati jelenségeinek adatvezérelt vizsgálata
Kertész János, az MTA rendes tagja, a CEU Network Science PhD iskola igazgatója, a BME professzora;
Vedres Balázs, a CEU Center for Network Science igazgatója

11.35 - 11.55 Gépi tanulás, predikció és okság a társadalomtudományokban
Muraközy Balázs, PhD, az MTA KRTK Vállalati Stratégia és Versenyképesség ‘Lendület’ kutatócsoportjának vezetője

11.55 - 12.15 Kérdések, vita

12.15 - 12.30 Szünet

12.30 - 12.50 A hálózatok felfalják a számítógépeket. A számítások újjászületnek a hálózatokban 
Lévai Péter, az MTA rendes tagja, az MTA Wigner Fizikai Kutatóközpont főigazgatója;
Telcs András, az MTA doktora, MTA PE Budapest rangsor kutatócsoport

12.50 - 13.10 Kutatási adatok kezelése az MTA intézményeiben
Kovács László, PhD, az MTA SZTAKI Elosztott Rendszerek Osztályának vezetője

13.10 - 13.30 Magyar nyelvtechnológiai infrastruktúra a társadalomtudományok szolgálatában
Simon Eszter, PhD, az MTA Nyelvtudományi Intézet tudományos munkatársa;
Váradi Tamás, PhD, az MTA Nyelvtudományi Intézet tudományos főmunkatársa

13.30 - 13.50 Kérdések, vita

13.50 - 14.00 Összefoglaló. A Számítógépes Társadalomtudomány témacsoport további tevékenységei
Péli Gábor, az MTA TK főigazgató-helyettese

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Könyvajánló: Heart of the Machine - Our Future in a World of Artificial Emotional Intelligence

2017.10.24. 09:50 Szerző: zoltanvarju Címkék: könyvajánló AI emócióelemzés affective computing

Az 1956-os dartmouth-i konferencia óta várjuk a nagy áttörést a mesterséges intelligencia terén. Miután végig próbáltunk mindent, a logikától a bayesiánus megközelítésen át konnekcionizmus (fiatalabbaknak deep learning) megannyi újjászületésén át, továbbra is ott tartunk, hogy nehezen tudjuk igazán intelligensnek tartani az olyan programokat, melyek 99.99999%-os pontossággal mondják meg hogy cica van-e egy adott képen. A deep learning rendszerek átverése külön "sporttá" vált a kutatók körében (kedvenc példánk itt), de már a kilencvenes években is az idegtudományok felé fordultak a hasonló problémák megoldására és az érdeklődés a figyelmi (attention) mechanizmusok felé fordult. Ennek egyik eredménye a ma deep learning rendszerekbe már be is épült (itt erről egy összefoglaló). Ezekben az időkben a kutatások egy másik irányt is vettek; mivel a figyelmi mechanizmusok összefüggésben állnak érzelmeinkkel, ezek megértése segíthet a technológia jobb alkalmazásában is. Megszületett a magyarra csak nagyon hülyén fordítható affective computing, ezt mutatja be Richard Yonk Heart of the Machine - Our Future in a World of Artificial Emotional Intelligence című könyve.

love-machine-shirt.jpg

A kötet nagyon feszesen vezeti végig az olvasót az affective computing kialakulásán. Az első két fejezet tkp. letudja azt, amit a kognitív tudomány eredményeiből tudni kell, ezután jöhet a technológiai fejlemények bemutatása, ami amúgy egyben a híres Affectiva-ról szól. Ez a sztori két kutató - Rosalind Picard (az affective computing alapítója!) és Rana el Kaliouby - útja az akadémiai kutatásoktól az üzleti alkalmazásokig. Az affective computing kutatások eredetileg inkább asszisztív technológiai megoldásokra koncentráltak, pl. autisták számára megkönnyíteni beszélgetőtársaik érzelmeinek felismerését. No ehelyett ma főleg marketing célokat szolgál az Affectiva (vagy éppen a Realeyes, Beyond Verbal, stb.), ami persze nem baj, csak érdekes. Mivel a szerző szerint az affective computing leginkább az ember-gép kommunikáció terén válik egyre fontosabbá, azt láthatjuk, hogy ezen a területen nem igazán alkalmazzák az elérhető technológiákat még. Ami igazán fura volt számomra, hogy a szerző saját kis történetekkel próbálja felvázolni, hogyan is fog kinézni az a nem túl távoli jövő, amikor marketing helyett másra is lehet végre használni egy érzelemfelismeréssel felvértezett technológiát. Számomra nem annyira meggyőző az az érvelés, hogy egyszer ezt is el kell érni, ha intelligens rendszereket akarunk. Ennek ellenére a könyv rövid, érdekes és informatív, ergo mindenkinek ajánlani tudjuk.

41ip6jk1lnl.jpg

Akit érdekel mire jó ez az egész, az alább láthatja hogyan dolgozik együtt saját emóciószótárunk a szövegek elemzése során a Microsoft API arcelemzőjével és a Beyond Verbal hangelemzőjével.

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Cicák helyett műholdak!

2017.10.16. 10:04 Szerző: zoltanvarju Címkék: műhold képfeldolgozás deep learning

A felületes szemlélődő számára úgy tűnhet, a deep learning csupán az internet nagy kérdéseire fókuszál; cuki cica van-e egy adott képen vagy nem, van Gogh stílusú profilképünk legyen vagy adott ember stílusában generáljunk szövegeket. Akadnak olyan mellékszálak, mint az önvezető autók, melyek azért elérik a szélesebb publikum ingerküszöbét, hiszen ezek a szerkezetek olyanok mint egy megvalósult sci-fi, arról már nem is beszélve, hogy lehet rettegni, hogy mennyi embert fognak megölni és/vagy munkanélkülivé tenni. Kína pedig az egész országot befedő arcfelismerő rendszer  bevezetését tervezi és mindenki a Nagy Testvér eljövetelét látja. Mindeközben már régen figyelnek minket az űrből apró műholdak százai, melyek irdatlan adattömeget küldenek az adatközpontokba, ahol a modern képfeldolgozásnak hála ma már napi szinten monitorozzák az olajfinomítók kapacitását, a bevásárlóközpontok parkolóinak kihasználtságát, az épülő iparkapacitások kiterjedtségét, a termőföldek állapotát és várható hozamát, vagy éppen a Dél-kínai-tengeren épülő mesterséges szigeteket.

c97a8493f0cc6c9f38caa05b7b51e9ae--soviet-art-soviet-union.jpg

1957-ben lőtték fel az első műholdat, a Szputyinkot. Azóta eltelt pár év, fejlődött a technológia és teret nyertek a nyílt adatok, ezért ma már a NASA, az ESA és még vagy tucatnyi űrügynökség is szabadon elérhetővé teszi adatainak egy részét. A szabályozás folyamatosan puhul, ezért megjelentek a kereskedelmi műholdak is. Az utóbbi időkben az olyan úttörő cégek hatására mint pl. a Planet, pedig divatba jöttek a cipősdoboznyi kis műholdak, melyekből egy-egy százas nagyságrendű hálózatot üzemeltet egy startup. A miniműholdaknak hála akár naponta is kaphatunk képet egy minket érdeklő területről, ami beindította az analitika területén ügyködők agyát is:

  • a spire hajózási, repülési útvonalakat figyel
  • a Descartes Labs több szolgáltatótól gyűjti a műholdképeket és térkép szolgáltatást, mezőgazdasági előrejelzést, fogyasztói indexet, stb. készít ügyfeleinek, azok akik maguk akarnak összedobni egy modellt, pedig API-n keresztül férhetnek hozzá az adatokhoz. A legvadabb dolog tőlük egy vizuális kereső, amivel a műholdképek között vizuális jegyek alapján kutakodhatunk!
  • a Planet és az Orbital Insight egyszerre biztosít műholdas és adatelemzési infrastruktúrát

tumblr_lzi0l0r9lg1qbh26io5_540.jpg

Dőlnek tehát az adatok, jelentős részük nyílt, illetve a kereskedelmi szolgáltatók NGO-k és kutatók számára általában ingyenes hozzáférést biztosítanak. Ezek elemzése ma már nem lehetetlen feladat, a Python például remekül el van látva olyan könyvtárakkal, melyekkel segítségével könnyen elvégezhetők a legalapvetőbb elemzések, de a QGIS is sok plugin-t nyújt erre. Ha például az érdekel minket, hogyan alakult a zöldterületek aránya Budapesten és környékén az utóbbi években, akkor kb. 20 perc alatt elkészíthetjük az alábbi kis vizut. A Landsat 7 képei egész jól lefedik a régiót és habár nem találtunk a zöldterületek azonosítására használt NDVI indexre Python implementációt, az annyira egyszerű, hogy két kódsorba megírtuk.

Komolyabb feladatok sem megoldhatatlanok ma már. A Descartes Labs vizuális keresőjéhez pl. egy szabadon elérhető Imagenet-et használta ResNet architektúrája előtrénelésére, hogy aztán azt az OpenStreetMap földhasználati kategóriák azonosítására tanítsa ki. Igen, egy tök általános modell transzferáltak műholdképekre! (Bővebben itt lehet olvasni erről)

 

A "new space" mozgalomnak még csak az elején járunk, de már láthatatlanul behálóznak minket a műholdas megfigyelések. Miközben a robotoktól és az önvezető autóktól félünk és próbálunk előre kitalálni megoldásokat olyan problémákra, melyek még nem is jelentkeztek, elsiklunk a felett, hogy ma már az égből figyelik mit építünk, hol parkolunk, mit termesztünk, stb. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre