HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

New KConnect search services give healthcare the very best in medical information

2015.04.14. 08:43 Szerző: Zoltán Varjú Címkék: medical health search KConnect Horizon 2020 semantic search

Today KConnect launches its official website: www.kconnect.eu and begins the commercialisation of new multi-lingual medical text analysis and search services.

kconnect_logo_450px.png

The new state-of-the-art medical information search services have the ability to empower healthcare and life science professionals and the public alike. The search services can provide the fastest and most relevant medical support information available from which users can make the best-informed decisions. 

The intelligent (semantic) search services can incorporate both published medical literature and in-house medical information sources (such as electronic health records or health registries).

The quality of the search performance can help clinicians and researchers remain at the forefront of their profession. By having the right knowledge about best practices and treatments at their fingertips, clinicians can ensure the very best in patient outcomes and a healthier community, says Professor Robert Stewart, Department of Psychological Medicine, King’s College London.

Intelligent search for better user experience
The search services have been made ‘intelligent’ by understanding the meaning/context/intent of user queries. The very best in medical information is made more findable by the fact that the semantic search is not just based on query keywords but also on related concepts and contexts.

The user search box has the ability to understand keyword connotations, related concepts and their relationships within a medical context. Such machine comprehension is also employed in the ‘reading’ (indexing, classifying and annotating) of medical content so that the most relevant information can be found even if a user’s chosen keyword happens to be absent within the text.

Search global medical information in any language
The accurate language mapping of key medical concepts allows users to search in their own language (currently there are several European languages available with more to follow). The addition of machine translation means that information can be provided either in English or the source’s original language.
 
Building blocks for tailored medical services
Individually created components and toolkits mean that an organisation can tailor its search-driven medical solutions according to its own requirements. There are several tailoring options available including information sources, access (cloud or local installation), language, security, functionality (alerts, recommendations and social search) and whether the created solution is either standalone or embedded.

Partnership opportunities
Due to the expected demand for its services, KConnect is looking to extend its Professional Service Community by looking for new partners to help with the quick and wider adoption of its services.


Contacts
Sales (Northern Europe): Mikael Hallin
Email: mikael.hallin@findwise.com
Mobile: +46 (0)725 455105
www.findwise.com

Sales (Eastern Europe): Endre Jofoldi
Email: endre.jofoldi@precognox.com
Mobile: +36 (0)208 861391
www.precognox.com

Research: Allan Hanbury
Email: allan.hanbury@tuwien.ac.at
Mobile: +43 1 58801 188310
www.tuwien.ac.at

The KConnect Consortium:
Vienna University of Technology (Austria); Findwise AB (Sweden); Precognox Kft (Hungary); Ontotext AD (Bulgaria); Trip Database Ltd (UK); Health on the Net Foundation (Switzerland); Qulturum, Region Jönköping County (Sweden); King’s College London (UK); University of Sheffield (UK); Charles University, Prague (Czech Republic).

Source: PRNewsWire

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

DIGIWHIST a korrupció ellen

2015.04.13. 08:19 Szerző: Zoltán Varjú Címkék: Horizon 2020 CRCB DIGIWHIST

Mint a Corruption Research Center Budapest partnere, a múlt héten részt vettünk a DIGIWHIST Horizon 2020 program Kick Off Meeting-jén.

img_20150412_201950.jpg

A program keretében közbeszerzési felhívásokat fognak elemezni  korrupciós kockázat szempontjából 35 országból, majdnem ugyanennyi nyelven. Továbbá egy ún whistleblower (közérdekű bejelentést lehetővé tevő) platform kerül kialakításra.

A konzorcium tagjai:

University of Cambridge

ERCAS (Hertie School of Governance)

Corruption Research Centre Budapest

Datlab

Open Knowledge Foundation Deutschland

Transcrime

 img_20150413_080503.jpg

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogy közösködnek a politikai blogok és híroldalak?

2015.04.07. 11:09 Szerző: Zoltán Varjú Címkék: politikai blogok

Ha már van egy szép gráfunk, szeretnénk megtudni, hogy annak szereplői milyen közösségeket alkotnak. Első lépésben tovább egyszerűsítettük a képet és csak a magyar (politikai) blogokat, híroldalakat, politikus blogokat és pártok oldalait és a közöttük lévő kapcsolatokat tartottuk meg gráfunkban. Ennek eredménye 266 egyedi oldal, melyek között 663 él van. Gráfunk most így néz ki:

filtered.png

A csomópontok nagyságát PageRank értékük határozza meg, színüket pedig modularitásuk. Azért választottuk a modularitást, mert az egyik legegyszerűbb közösség kereső (community detection) eljárás (akit érdekel, hogyan működik, annak a linket ajánljuk, itt most nagyon informálisan mondjuk el mi is ez). Képzeljünk el egy random gráfot, melyben az éleket véletlenszerűen rajzoltuk meg. Ilyen pl. ez a gráf

random.png

Ehhez képest a mi gráfunkban szemmel láthatóan egyes csomópontok sokkal több be- és kimenő linkkel rendelkeznek. A modularitás azt mér, hogy a random gráftól mennyire tér ez el, s azt mondhatjuk egy-egy csoportot alkotnak azok a csomópontok, melyek között a véletlenszerű kapcsolódáson túl is vannak összeköttetések.

 

Lássunk pár példát ilyen csoportokra!

m0.png

m01.png

m04.png

m05.png

m12.png

m16.png

Habár a modularitás és a különféle közösség kereső eljárások egész jó eredményeket adnak, vizsgálatunk következő lépésében azt szeretnénk megnézni, hogy begyűjtött szövegek klaszterezése és a community detection eredményei között mekkora az átfedés.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

MANYE-n voltunk

2015.04.02. 17:32 Szerző: Szabó Martina Katalin Címkék: szentimentelemzés emócióelemzés

A Pázmány Péter Katolikus Egyetem Bölcsészet- és Társadalomtudományi Kara (PPKE BTK), a Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kara (PPKE ITK) és a Magyar Alkalmazott Nyelvészek és Nyelvtanárok Egyesülete (MANYE) 2015. március 30. és április 1. között a PPKE ITK-n (1083 Budapest, Práter utca 50/a) rendezte meg a 

25. MAGYAR ALKALMAZOTT NYELVÉSZETI KONGRESSZUST.manye-logo3.jpg

 

 

A tudományos konferencia a Nyelv – Nyelvtechnológia – Nyelvpedagógia: 21. századi távlatok központi téma köré szerveződött.

Az emócióelemzést célzó projektünk eredményeit egy előadás keretében, a szentimentelemzéssel kapcsolatos munkánk újabb lépéseit poszteren prezentáltuk. 

Emóciós előadásunk a következő apropóból született: Korábban létrehoztunk egy emóciószótárat, amelyben az ún. emóciókifejezéseket rendszereztük az általunk meghatározott kategóriarendszerben, valamint létrehoztunk egy kézzel annotált emóciókorpuszt is a szótár hatékonyságának kiértékelése, valamint egy emócióannotáló eszköz fejlesztése céljából. Ugyanakkor a munka során azt tapasztaltuk, hogy az emócióelemzés számos elméleti és nyelvtechnológiai probléma további meggondolását sürgeti. Ezért ebben az előadásban a tapasztalt problémák és felmerült kérdések közül tárgyaltunk néhányat behatóbban.

Az előadás prezentációját alább közzétesszük: 

 

 

A magyar nyelvű szövegek szentimentelemzésében tett újabb lépéseinket poszteren mutattuk be. Jelenleg a szentimentshifterek kezelési kérdésének a hatékony megoldása a fő célunk, ezért ebben a munkában is rájuk, pontosabban a shifterek egy altípusára, a negáló kifejezésekre fókuszáltunk. 

Ahhoz, hogy a negáló elemek hatékony kezelési megoldásához közelebb kerülhessünk, fontosnak tartottuk korpuszalapon megvizsgálni ezeknek az elemeknek a pozíciós szabályszerűségeit. A poszter, amelyet alább közzé is teszünk, elsődlegesen ennek a korpuszelemzésnek az eredményeit prezentálja.

dia1.JPG

 

A kongresszuson nagyon sok értékes hozzászólást, javaslatot és kérdést kaptunk, amelyeket ezúton is nagyon köszönünk! Külön köszönjük a szervezőknek a hatékony szervezésüket, hasznos tájékoztató munkájukat!

Alább csatolunk néhány, a konferencián készült fotót is, köztük egyet Prószéky tanár úrról, akinek volt szerencsénk meghallgatni a nyelvtechnológiáról szóló, igazán izgalmas előadását.

p_20150331_112443.jpg

p_20150331_112545.jpg

p_20150331_112709.jpg

p_20150331_122042.jpg

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Romaellenes gyűlöletbeszéd képekben

2015.03.31. 18:51 Szerző: Zoltán Varjú Címkék: gyűlöletbeszéd politikai blogok tartalomelemzés LDA

Politikai blogokat vizsgáló projektünk keretében a kuruc.info Cigánybűnözés rovatának 10302 cikkét elemeztük és rendeztük topikokba  az LDA módszer segítségével. Célunk, hogy az egyes topikok segítségével szótárakat hozzuk létre s ezek segítségével nyomon tudjuk követni hogy az egyes politikai blogokon és híroldalakon miképp jelenik meg a romaellenes gyűlöletbeszéd. Posztunkban a számunkra legérdekesebb topikokból csemegéztünk!

 

Az egyes topikokhoz tartozó kulcsszavakat a mallet produkálta, a témákat mi határoztuk meg a topikokhoz tartozó dokumentumok megvizsgálása után. Az öt topikhoz tartozó dokumentumokra lefuttatunk egy szógyakorisági, egy kulcsszókinyerő és egy TextRank eljárást és az eredményeket használva hoztuk létre szófelhőinket.

 

1. topik: Magyar Gárda, Szebb Jövőért Polgárőr Egyesület rendezvényei, demonstrációi, kiemelt esemény Gyöngyöspata, jellemzően vidéki helyszíneken, ahol interetnikus problémák léptek fel a roma-nem roma csoportok között

kulcsszavak: cigány roma magyar gárda polgármester rendőrség gárdista polgárőr falu család jobbik képviselő önkormányzat szervezet rendőr gyöngyöspata ház rendezvény demonstráció elnök lakos békés egyesület lakosság fórum kisebbségi probléma helyszín félelem

freq-1.png

 

kw-1.png

hp01.png

2. topik: a cigányság-magyarság, kisebbségi-többségi társadalom általános problémái, a kulturális devianciák felülreprezentáltak, mint a bűnözés, szegénység, munkapiaci, oktatási problémák, politikai-szociális síkra helyezett probléma, amely megoldást kíván, pl. integrációt

kulcsszavak: cigány roma cigányság társadalom magyar probléma társadalmi többség kisebbség százalék csoport kultúra magyarország közösség többségi arány munka politikai etnikai eredmény megoldás fiatal szegény integráció bűnözés európai iskola tapasztalat család szociális

 freq-2.png

 

kw-2.png

 

hp02.png

3. topik: szociálpolitikai intézkedések, főleg a szociális segélyek, támogatások, közmunka program, a munkanélküliség kulturális deviancia összefüggésében, kiemelt esemény Szepessy Zsolt monoki polgármester esete, aki valamilyen közhasznú munka ellenében folyósította az ingyenes segélyt a roma származású lakosoknak (a kuruc.infón ezt nagyon helyeselték)

kulcsszavak: munka segély szociális pénz támogatás polgármester önkormányzat forint program család gyerek lehetőség rendszer monok összeg közmunka állami százalék szepessy pótlék családi állam dolgozó törvény munkahely monoki rendszeres juttatás munkanélküli havi

 freq-3.png

 

kw-3.png

 

hp03.png

4. topik: fém- és fatolvajlás, olyan szent helyekről, mint a templom vagy a temető, vagy olyan kulturális emlékművek rongálása, mint köztéri szobrok (ez az egyik lopáskategória, pl. van kábel és vezetéklopás is, amivel közlekedési károkat okoznak és akadályozzák a közlekedést)

kulcsszavak: tolvaj kár forint lopás ismeretlen tettes érték temető elkövető biztonsági őr rendőrség rendőr víz fém rongálás forintos templom értékű fémtolvaj ellopott szolnoki telephely okozott darab szobor épület vas ft fatolvaj

 freq-4.png

 

kw-4.png

 

hp04.png

5. topik: a Cozma-gyilkosság (de pl. a másik nagy felhördülést kiváltó esemény, az olaszliszkai lincselés is kijött egy külön topikban hasonló módon)

kulcsszavak: cozma veszprém sztojka veszprémi román szórakozóhely enyingi sportoló rendőrség gyilkosság verekedés tanú patrióta kézilabdázó lokál siófoki gyanúsított bár szerb vallomás játékos banda enying diszkó szív kés siófok cigány támadó kézilabdás

freq-5.png

kw-5.png

 

hp05.png

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása