HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adatbányászat (9) adatelemzés (6) adatok (13) adatújságírás (16) adatvizualizáció (18) AI (15) alternatív (6) alternatív keresőfelület (26) beszédtechnológia (13) big data (51) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) google (57) Google (25) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (27) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (71) kereséselmélet (8) keresés jövője (55) keresés problémái (40) keresők összehasonlítása (9) keresőmotor (8) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (7) lda (10) LDA (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (14) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (30) nyelvtechnológia (73) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (58) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (36) szövegbányászat (18) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) Twitter (18) twitter (15) vertikális kereső (9) vizualizáció (13) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Hogyan valósítható meg a teljes szöveges keresés japán nyelv esetén?

2020.11.26. 09:07 Szerző: Hódi Péter Címkék: keresés japán nyelv keresés problémái keresőmotor szöveges keresés Precognox Elasticsearch

tokio.jpg
Mi a teljes szöveges keresés?

A teljes szöveges keresés a számítógépen tárolt (kizárólag szöveges) dokumentumok keresésére szolgáló technikák összessége. Az ilyen típusú keresés esetében megpróbálunk megtalálni egy szót vagy kifejezést bárhol is rejtőzzön az az adott adatkészletben. A teljes szöveges keresést megkülönböztetjük a metaadatokon vagy az eredeti szöveg részeit (például címek, kivonatok, vagy bibliográfiai hivatkozások) tartalmazó adatbázisokban történő kereséstől.

Probléma a japán nyelvvel

A legtöbb európai nyelv esetében a szavakat szóközzel választjuk el, ami nagyban megkönnyíti a mondatok szavakra történő bontását. Így a kifejezések visszakereshetősége is meglehetősen egyszerű.
A japán nyelvben azonban az egyes szavakat nem választja el szóköz, amely rendkívüli módon megnehezíti a keresést. Ebben az esetben kizárólag több módszer közös használatával érhetünk el megfelelő eredményt. De mi határozza meg ezt az eredményességet, illetve minőséget?

kanji2.jpg

Pontosság (Precision) és visszahívás (Recall)

A pontosság és a visszahívás a teljes szöveges keresőrendszer minőség mérésének két általános módja. A pontosság azt jelzi, hogy „milyen kicsi a keresési kihagyás”, a visszahívás pedig azt, hogy „mekkora a keresési zaj”.
A pontosság és a visszahívás minősége tekintetében mindig kompromisszumot kell kötni, annak függvényében, hogy mi a keresési folyamatnál az elérendő cél.

Két módszer jobb mint az egy

Visszatérve a japán nyelv sajátosságához, könnyen belátható, hogy pusztán egy keresési technika alkalmazásával nem érhetjük el a kívánt találati minőséget. Tehát mit is kell tennünk? Két módszert kell egyidejűleg bevetnünk a japán szavak elemzésére.
Az egyik, az ún. n-gram elemzés esetében kevesebb a keresési kihagyás, de több a keresési zaj, míg a morfológiai analízis során kisebb keresési zajjal, de több keresési kihagyással kell számolnunk.

A fenti elemzési hiányosságokból következik, hogy a japán teljes szövegű keresésnél mindkét elemzési típus alkalmazása szükséges, az egyik módszer erősségével pótolva a másik gyengeségeit. A két módszer együttműködésével tehát megvalósítható a teljes szöveges keresés a japán nyelv esetén is.

Többet is szeretne tudni a témáról?

A fent leírtak technikai alkalmazásáról többet megtudhat az Elasticsearch* cikkéből, amely jelen blogbejegyzésünk alapjául is szolgált.

* Az Elasticsearch a világ vezető keresőmotorja, melyre olyan megoldások épülnek, mint a Precognox által fejlesztett TAS Enterprise Search.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Machine Learning Budapest podcast Jóföldi Endrével

2020.11.25. 09:03 Szerző: Hódi Péter Címkék: podcast AI NLP data science Precognox machine learning

mlb_keresovilag.png

A Machine Learning Budapest nemrégiben útnak indította podcast sorozatát, melyben hétről-hétre magyarországi Machine Learning-, AI- és Data Science-szakemberekkel beszélgetnek. Üzleti tevékenységük mellett ezzel a hiánypótló kezdeményezéssel szeretnének közösségformáló szerepet is betölteni.

Több csatornán

Az elkészült interjúk megtekinthetők a YouTube csatornájukon, vagy meghallgathatóak a Spotify-n és az Apple Podcasts-on is!
A november második hetében készült podcast meghívott vendége Jóföldi Endre, a Precognox ügyvezetője volt.

Az interjú

Ezúttal Póda Csanád műsorvezetővel nemcsak a szakmáról beszélgetettek, hanem sok más érdekes téma is szóba került.

A 2020. november 18-án közzétett teljes beszélgetés: 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Felhasználói élmény címkék hamarosan a Google találatoknál

2020.11.17. 11:40 Szerző: Hódi Péter Címkék: keresés felhasználói élmény címkézés keresőmotor Google SEO AMP

google_felhasznaloi_elmeny.jpg

A Google bejelentette, hogy a keresési találatok megjelenítésekor új címkéket vezet be a jövő évtől. Ezek az indikátorok arról fognak információt nyújtani a keresést végzőnek, hogy az adott találat megkattintásakor megjelenő webhely milyen felhasználói élmény nyújt.

Mit jelent a felhasználói élmény a webhelyen?

Mindenki böngészett már végig weboldalakat, így tapasztalhatta, hogy vannak könnyen, egyszerűen használható vagy éppen zavaros, nehezen kezelhető és idegesítő hibákkal, hirdetésekkel és előugró ablakokkal operáló webhelyek.

Természetesen egy adott oldal megítélése szubjektív, éppen ezért a Google jól meghatározott, objektív mérőszámok segítségével fogja a webhelyeket értékelni, ezek pedig többek között az alábbiak:

  • mobilbarát-e az oldal
  • van-e biztonságos HTTPS elérés
  • webhely betöltődési sebessége
  • frissítési oldalsebesség
  • tolakodó, a kényelmes böngészést zavaró elemek mennyisége

A Google szerint a fenti mutatók figyelembevételével kialakított webhely-értékelés nagyban segíti majd a keresőmotor felhasználóit abban, hogy eldöntsék a keresési találatok közül melyik webhelyet keressék fel.

Mi várható?

Azt még nem közölte a keresőmotor-óriás, hogy élesben milyen megjelenésű indikátorok és hogyan fognak megjelenni az adott találatoknál. Lehetséges, hogy egy előnézeti kép segítségével adnak bepillantást a felhasználónak, de az is előfordulhat, hogy vizuális indikátor fogja jelezni, az adott webhely megfelel-e a Google felhasználói élménnyel szemben támasztott követelményeinek.
A Cég azonban előzetesen már megmutatott pár lehetséges megoldást, mint például az AMP (Google's Accelerated Mobile Pages) ikont, a lassú és a mobilbarát címkéket.

Érdemes lesz résen lenni!

Annak függvényében, hogy mikortól fogja bevezetni a Google a fenti újítást - tesztelési időszak után a bevezetés 2021 májusára várható - viszonylag kevés idő marad arra, hogy a weboldalak szerkesztői olyan változtatásokat tudjanak eszközölni, amelyek által az adott webhely pozitív besorolást kap majd.

Hogyan készüljünk fel?

A Google Search Console Core Web Vitals (alapvető webes vitals-mutatók) jelentése segít majd abban, hogy a tulajdonos megismerje webhelye teljesítményét a vizsgált területeken. Ezek figyelembevételével lesz érdemes változtatásokat végrehajtani.

Miként hat ez a Google találati sorrendre?

Az, hogy a fentiek valójában mekkora hatással lesznek a a Google találati rangsorra, még nem teljesen világos. Sok SEO szakértő úgy véli, hogy viszonylag kicsi lesz, mivel a felhasználói élményt már eddig is figyelembe vette a Google keresési algoritmusa.

google_seo.png

Ettől függetlenül érdemes lesz odafigyelni, hiszen nagy üzleti előnyt vagy éppen hátrányt jelenthet a weboldalunk besorolásában történő változás.

Fenti blogbejegyzésünk a Searchengineland angol cikke alapján készült.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Mire jó az inszájt?

2020.10.26. 15:11 Szerző: Hódi Péter Címkék: keresés címkézés tartalomelemzés insight betekintés keresőmotor Precognox szentimentelemzés insight engine

inszajt.jpg


Először is tisztázzuk le, hogy mi is az az „insight”?
Az angol szótárt felütve az insight magyar megfelelőjeként az alábbiakat találjuk többek között:
bepillantás
éleslátás.
Az üzleti világban egyre divatosabb kifejezést legegyszerűbben úgy magyarázhatnánk meg, hogy ez egyfajta információkinyerés, mégpedig azzal a célzattal, hogy céges adataink (adatvagyon) felhasználásával a megfelelő üzleti döntést tudjuk előkészíteni.
Valójában arról van szó, hogy a megfelelő eszközökkel, szoftverekkel kiaknázzuk a rendelkezésre álló céges adatállományokban – adatbázisok, ügyféllisták, dokumentumok, üzleti levelezés, online tartalmak – rejlő potenciált oly módon, hogy az már közvetlenül, vagy közvetve – pl.: business intelligence eszközökkel - felhasználható legyen akár azonnali hatással bíró, akár stratégiai üzleti döntések meghozatalához.

Strukturálás, mint első lépés

Alapvetés, hogy a rendelkezésre álló tartalmainkat először is értelmezni, beazonosítani, strukturálni kell, ez a folyamat pedig alapvetően attól függ, hogy adataink, szöveges tartalmaink hol, milyen formában és minőségben találhatóak meg. Magától értetődő, hogy más-más módszert igényel a feldolgozás tekintetében egy papír alapú iratköteg, egy levelezőrendszerben található üzenetek, vagy akár egy hanganyagokból összetevődő fájlrendszer.
Tartalmaink strukturálásához, illetve annak előkészítéséhez számos technológia áll rendelezésre, elég csak a szkennelésre, optikai karakterfelismerésre vagy a beszédfelismerésre gondolni. Ezeket egészítik ki olyan folyamatok, mint az adattisztítás és a validálás.
Kizárólag a megfelelően értelmezett és strukturált adatok, tartalmak alkalmasak arra, hogy azokból releváns és valós információkhoz jussunk, így ez az előkészítő fázis is legalább akkora odafigyelést igényel, mint maga az információkinyerés.

inszajt_2.jpg

Hogyan nyerhetünk bepillantást adatainkba?

A már megfelelően strukturált adatok, szöveges tartalmak készen állnak arra, hogy azokból a szükséges információ(ka)t kinyerjük. De hogyan?

Címkézés

A szövegekben először is fel kell ismerni és megcímkézni (tag-elni) azokat a részleteket, amelyek valóban fontosak számunkra. Ezek lehetnek többek között entitások - nevek, szervezetek, lokációk, időpontok - vagy egyéb tartalmak. Emellett fontos lehet akár a nyelvfelismerés vagy az emóció elemzés is (egy adott szöveg pozitív vagy éppen negatív kicsengésének megállapítása), melyekhez szintén rendelkezésre állnak automatizált megoldások.
A címkézés minősége érdekében érdemes a piacon elérhető legjobb megoldások mix-ét használni. A Precognox által fejlesztett TAS Tagger-ben például ugyanúgy elérhető a Google, a Microsoft, vagy az IBM megoldása, mint a Basis Technology vagy a Neticle moduljai.

Keresés

A tartalmaink lehető legpontosabb (és céljainknak megfelelő) címkézése azért különösen fontos, mert ezek a későbbiekben alkalmazott keresőmegoldás hatékonyságát jelentősen befolyásolják és többek között találati szűrőként is remekül alkalmazhatók.
Azonban mit sem ér az információk felismerése, ha megtalálásukhoz nem a lehető legoptimálisabb módszert alkalmazzuk. A világ vezető ilyen nyílt forrású rendszere az Elasticsearch keresőmotorja. Az erre épülő keresőmegoldások a legkülönbözőfélébb kiegészítő eszközöket is csatasorba állítják, mivel minden területnek, szférának megvannak a sajátos igényei. Az elvárásoknak történő megfelelés pedig folyamatosan újabb és újabb megoldások kifejlesztését, kialakítását tették szükségessé.
Az olyan megoldások, mint például a TAS Vállalati kereső, illetve a hozzá kapcsolható eszközök együttesen olyan megoldást nyújtanak, amelyekkel valóban egyszerűen és hatékonyan szerezhetünk betekintést adatainkba. Nem véletlen, hogy ma már ezeket, a keresőmegoldásra épülő összetett megoldásokat angolul Insight Engine-nek nevezik.

Miért változott a Search engine megnevezés Insight Engine-re?

Az angol Search Engine elnevezést magyarra keresőmotornak fordítjuk. Ezek a kifejezések azonban mindkét nyelvterületen problémákat okoztak, egyrészt azért mert a keresőmotor hallatán szinte mindenki a Google-re, a Bing-re vagy a Yahoo!-ra gondol, másrészt pedig a manapság igen népszerű keresőoptimalizálás, mint fogalom (SEO) is gátolta a vállalati keresőmotorok (Enterprise Search Engine) online eszközökkel történő népszerűsítését.
Emellett a vállalati keresőmotorok tudása mára már számos olyan funkcióval bővült ki, amelyek nem csak az információk megtalálásában segítenek, hanem egyfajta betekintést nyújtanak szöveges tartalmainkba, például azok érzelmi tartalmának felismerésével.

Mire is jó akkor az inszájt?

Az ún. Insight engine-k a vállalati kereső szolgáltatásain túl olyan komplex megoldásokat integrálnak, melyek segítségével a céges adatvagyonban található szöveges tartalmak hatékony keresése mellett további “inszájt”-okat is kinyerhetünk. Ezek az “inszájt”-ok pedig komoly jelentőséggel bírnak, hiszen általuk hatékonyabbá tehető az üzleti döntéshozatal, amely a magasabb színvonalú és ezáltal sikeresebb üzletvitel alapja.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Keresési nehézségek a karantén idején

2020.05.25. 12:04 Szerző: Hódi Péter Címkék: keresés karantén keresőmotor webinar Precognox vállalati kereső vállalati keresés intelligens keresés

vallalati_kereses_a_karanten_idejen.png


A vírushelyzet következtében számos vállalkozás kénytelen áttérni az otthoni munkavégzésre. Sok cég azonban nincs felkészülve az ebből adódó problémákra. Meg kell teremteni a technikai feltételeket a home office megfelelő működéséhez. Ezzel egyidejűleg új módszereket is be kell vezetni annak érdekében, hogy a vállalkozás sikeresen tudjon továbbra is működni.
Az eltérő szakmai területeket természetesen más és más nehézségek jellemzik, az azonban kijelenthető, hogy a vállalati adatokhoz történő hozzáférés biztosítása minden esetben alapvető fontosságú.

  • Nálad van?
  • Átküldenéd?
  • Hol találom ezt?
  • Kinél lehet?


Az ilyen jellegű kérdések mutatnak rá igazán a háttérben meghúzódó céges problémákra. Ezek megoldása az egyik legsürgősebb feladat most a cégek életében. Különösképpen a közép-vagy nagyvállalkozások esetében, ahol a dolgozók akár napi szinten is több ezer dokumentumot használnak, keresnek, mozgatnak elektronikus úton. Ez komoly kihívást jelent a vállalkozások számára, melyet megfelelő, speciális megoldás nélkül szinte lehetetlen hatékonyan kezelni.
A dokumentumok és adatforrások esetében biztosítani kell, hogy a munkatársak hozzáférjenek a keresett tartalmakhoz, illetve azok között pillanatok alatt keresni is tudjanak. Ezt az is nehezíti, hogy a vállalati információk gyakran a legkülönfélébb rendszerekben találhatóak:

  • ERP vagy CRM rendszer
  • hibajegy kezelő
  • JIRA
  • Confluence
  • Onenote
  • Sharepoint
  • Alfresco
  • bármely CMIS repository
  • DropBox
  • Google Drive
  • HDFS
  • LiveLink (OpenText)
  • Documentum
  • Meridio
  • FileNet (IBM)
  • különféle levelező rendszerek


A tartalmakhoz történő hozzáférést pedig megfelelő jogosultságkezelés és speciális keresési lehetőségek biztosítása mellett kell megvalósítani. Ez a folyamat a vállalati keresés, a megoldás pedig a vállalati kereső.

  • Hogyan valósul meg az igazán hatékony vállalati keresés?
  • Milyen előnyöket biztosít a Vállalati kereső?
  • Milyen további előnyökkel jár a vállalati keresés a home office időszakában?


Amennyiben Önt is foglalkoztatják a fenti kérdések és többet szeretne megtudni a vállalati keresésről, vegyen részt a Precognox ingyenes online előadásán! A webinaron a részvétel ingyenes, kizárólag regisztrációhoz kötött.

vallalati_kereses_a_karanten_idejen_google_form2.png

Részletek:


Cím: Vállalati keresés a karantén idején (és után)
Előadás időpontja: 2020.06.09. 16:00
Regisztráció

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása