HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A puding próbája – a Keresővilág blog analitikus szemmel – 1. rész

2019.04.16. 12:32 Szerző: Hódi Péter Címkék: blog adat adatbányászat tartalomelemzés szövegbányászat vizualizáció tableau Precognox szöveganalitika

Több, mint 12 évet ölel fel a Keresővilág Blog története. Ez a hosszú időszak - úgy gondoltuk - megér egy objektív áttekintést. Ennek megvalósításában volt segítségünkre a TAS (Text Analytics System). A Precognox saját fejlesztésű szöveganalitikai platformja kimondottan ilyen feladatok megoldására (is) alkalmas.

De mit is tud akkor, ha a fennállásának 12. születésnapját ünneplő Keresővilág Blog az adatforrás? A TAS szöveganalitikai rendszer szolgáltatásai által legyűjtésre és elemzésre került blogunk tartalma analitikus szemmel. A letöltött adatok alapján készült vizualizációk remek betekintést nyújtanak a Keresővilág tartalmába.

 

A módszer

A tartalom legyűjtése a TAS Data Collector-ral történt, ezt a folyamatot az adattisztítás követte. Az így kinyert tisztított adatok vizualizálására a Tableau programot és a WordCloud-ot hívtuk segítségül.

Íme az eredmény:

 

puding_probaja_szofelho.jpg

 Szófelhő a használt címkékből

(nagyításért katt a képre!)

 

puding_probaja_szofelho_2.png 

Szófelhő a cikkekben használt szavakból

(nagyításért katt a képre!)

 

 

Cikkek száma / szerző / év

 (interaktív vizualizáció)

 

Lájkok száma / szerző / év

  (interaktív vizualizáció)

 

A képekből is jól látszik, hogy mennyi hasznos információ nyerhető ki nagyobb adat (szöveg) tartalomból – ne feledjük, hogy a Keresővilág Blogon 12 év alatt közel 900 publikáció jelent meg!

A megvalósítás

A Keresővilág Blogról legyűjtött tartalmakat a TAS rendszer az adattisztítást, validálást követően strukturált adatbázisba rendezni, az adatbázist pedig egy biztonságos és authentikált csatornán keresztül teszi elérhetővé. Ezek az adatbázisok azonnal integrálhatóak a vezető Business Intelligence eszközökbe, mint a Tableau, a Rapid Miner vagy a Power BI.

Újabb kihívás

A Precognox szöveganalitikai rendszere tehát kiállta a pudingpróbát, de hamarosan újabb feladat elé állítjuk majd, ezekről a feladatokról és a megoldásról következő cikkünkben fogunk – szintén sok vizuális tartalom segítségével – beszámolni.

 

A Keresővilág Blog tartalmának adatletöltését és az abból készült vizualizációkat a Precognox készítette a TAS Platform segítségével.

Vizualizációs eszközök: WordClouds, Tableau

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Sakk-matt az embernek?

2019.03.22. 12:00 Szerző: Hódi Péter Címkék: játék sakk mesterséges intelligencia neurális hálók

 robot-2993561_1280.jpg

 

Az 1997-es év egy fontos időpont a sakk történetében, ekkor győzte le először egy computer – az IBM Deep Blue - az uralkodó sakkvilágbajnokot, Garri Kaszparov-ot. 

Húsz évvel később a Google - Alpha Zero nevű tanuló algoritmusa csupán 4 óra tanulás után már megverte a 2016-os év legjobb sakkgépének kikiáltott Stockfish 8-at egy 100 játszmából álló játékban, mindezt úgy, hogy 28 győzelem mellett 72 döntetlent ért el. Az előre megadott szabály szerint 3-4 ismétlődő (mindkét gép részéről azonos, oda-vissza történő lépés) után automatikus döntetlen következik.

 

Hogyan történhetett meg mindez?

Míg a korábbi gépek számítási tudásuk – körülbelül 200 millió pozíció számítása alig 1 másodperc alatt – miatt voltak kimagasló eredményre képesek az emberek ellen, addig a modern gépek már mély neurális hálóra épülő – az emberi agy működését mintázó – algoritmusok.

Matthew Lai Imperial College London-on végzett munkája által kifejlesztett Giraffe elnevezésű mesterséges intelligenciája például képes saját magát tanítani mégpedig oly módon, hogy a különböző állásokat az emberhez hasonló módon értékeli, különbözve ezzel az eddigi sakkgépektől.

A Giraffe technikai hátterét biztosító neurális hálózat olyan színvonalú játékra képes, mint a korábban évekig tartó finomhangolást igénylő gépek. A több rétegből álló idegi háló hangolása-tanítása számos példával – álláshelyzettel – történik.

A neurális hálók térnyerése egyrészről a tanulási folyamat jobb megértése általi precízebb finomhangolásnak, másrészről a tanításhoz rendelkezésre álló hatalmas annotált adathalmaznak köszönhető.

Lehetővé vált, hogy az un. mély neurális hálók ma már jobban teljesítsenek mintafelismerésben (például arc- és kézírás felismerés) mint az emberek. Nem is csoda, hogy a minták beazonosítása által képesek legyőzni az embert egy olyan bonyolult gondolkodásmódot igénylő játékban is, mint a sakk.

A Lai által alkotott háló 4 rétegű és minden helyzetet 3 különböző módon vizsgál meg. A teljes kép (globális állapot – a bábuk típusa és mennyisége a két oldalon, a mozgási lehetőségek) mellett vizsgálja azok helyzetét, illetve a pozíciókat, melyeket a bábuk támadnak avagy védenek.

A gép kimondottan életszerű sakkállásokkal lett trenírozva, így pontosabban és célratörőbben képes a következő lépést meghatározni. Természetesen a profi sakkvilágban ritkán fordulnak elő nagyon egyenlőtlen állások, de ezen szituációk (adathalmazok) megadása a gép számára szintén relevánsak, hiszen a tanulási folyamat alatt ilyen helyzetek is előfordulhatnak.

A neurális háló finomhangolásához irdatlan méretű adatbázisra volt szükség, Lai ezt 5 millió véletlenszerűen kiválasztott helyzetből állította össze és az ezekhez szintén véletlenszerűen hozzáadott lépésekkel összesen 175 millió pozíciót kreált. Ekkora adatbázisból már egy hagyományos sakkgép is sikereket ért volna el, de Lai célja az volt, hogy gépe magától tanuljon. A gép önmaga ellen játszott azzal a céllal, hogy minél jobban megtanulja kiértékelni a jövőbeni állásokat. Ez igen jól működött, hiszen a sakkban vannak jól körülhatárolható referenciapontok, melyek meghatározzák egy állás értékét, annak függvényében, hogy az adott helyzet a játék megnyeréséhez, elvesztéséhez vagy döntetlenhez vezet. Így a gép megtanulja, hogy mely pozíciók gyengék, illetve erősek.

 

Az eredmény

Az elérhető 15.000 pontból a Giraffe már rövid időn belül 6.000 pontot ért el, 72 óra elteltével pedig 9.700-at, mely az addig legerősebb sakkgép eredményével vetekedett. Ez azért volt hihetetlen, mert ilyen eredményt korábban kizárólag a gépek évekig tartó manuális és automatikus hangolásával lehetett elérni.

A Giraffe egyetlen hátránya, hogy a neurális hálónak nagyjából tízszer tovább tart az adatfeldolgozás, mint egy hagyományos sakkgépnek.

Azonban a Giraffe nem attól válik különlegessé, hogy számtalan jövőbeni lépést és helyzetet tud analizálni, hanem attól, hogy trükkös helyzeteket is az embertől elvárható intuitív módon képes értékelni. Ilyen helyzetek általában a nyitólépések, illetve a végjáték, melyben a Giraffe kimagaslóan teljesít.

Ekkor 2015-öt írtunk. És 2017-ben jött az Alpha Zero:

A mesterséges intelligencia kutatásával foglalkozó Deepmind által megalkotott algoritmus 24 órán belül szintén legyőzte a Stockfish világbajnok programot. Az Alpha Zero új korszakot nyit a sakkgépek világában. Arról, hogyan nyit az Alpha Zero, a Sakkvilág oldalán bővebben elolvasható.

 

Sakk-matt?

A neurális hálót alkalmazó, új generációjú sakkgépek teljes mértékben megreformálhatják a sakkot és a sakkjátszmák menetéről eddig alkotott elképzeléseket. E módon tanulhat az ember a saját maga által alkotott mesterséges intelligenciától. Így lesz egy sakk-matt helyzetből egy win-win szituáció.

 chess-316657_1280.jpg

 

Érdekes videók a témáról:

AlphaZero vs. Stockfish

Alpha Zero és a francia védelem

 

Források:

https://www.technologyreview.com/s/541276/deep-learning-machine-teaches-itself-chess-in-72-hours-plays-at-international-master/

http://sakkvilag.hu/uj-hireink/Az_Alpha_Zero_megnyitastanulasanak_rejtelmei

https://en.wikipedia.org/wiki/AlphaZero

 

Képek:

Pixabay

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Tedd zsebre a világot! A digitális adattárolás története

2019.03.08. 12:00 Szerző: Hódi Péter Címkék: adat adattárolás adatbiztonság

Napról-napra egyre több digitális adat keletkezik, elég csak a közösségi média felületeken generált posztokra gondolni. A megosztott dokumentumok (képek, videók, szövegek) hatalmas adattárolási igényt generálnak, ezért a minél fejlettebb megoldások kidolgozása alapvető fontossággal bír az emberiség számára.

Az első számítógépek megjelenése óta komoly kihívást jelent a hatékony adattárolás. Hogyan fejlődött és melyek voltak a meghatározó lépcsőfokai ennek a folyamatnak?

 

Az első lépés

Az lyukkártyákat még a XVIII. században kezdték hasznosítani, akkor még szövőszékek irányítására használták, ezáltal „programozva” azokat minták létrehozására. Ehhez hasonló lyukkártyákat használtak az első egyszerű számítógépeknél adatok rögzítésére és olvasására.

 

A közelmúlt

Az első, un. véletlen hozzáférésű digitális memória a Freddie Williams és Tom Kilburn feltalálók által kifejlesztett Williams- vagy Williams-Kilburn cső volt a már – a yottabyte-os világban - nevetségesnek tűnő 0.0625 kB-os megközelítőleges kapacitásával.

A dobra emlékeztető formájú Drum Memory már a modern merevlemezek megjelenésének előfutára volt. Az 1932-es feltalálása ellenére alkalmazása az 50-es és 60-as években terjedt el. Tárolókapacitása megközelítőleg 10 kB volt.

A szekrény méretű mágnesszalagos adattároló, mint például az Uniservo vagy az első lemezmeghajtó, az IBM 350 megjelenése után azonban igen sokat kellett várni a kompaktabb méretű adathordozókra, így a magnókazettára, illetve a floppy lemezre.

isolated-316393_1280_1.jpg

 

Ezt követően a 80-as, 90-es évek hoztak jelentős előrelépést a merevlemezek és a hordozható adattárolók fejlődésében, elég csak az írható (később újraírható) cd lemezre, a MiniDisc-re vagy a később zsákutcába futott DAT kazettára gondolni. A személyi számítógépek merevlemezeinek hatalmas lépésekkel történő fejlesztése is ekkorra datálható. Természetesen a hard disk-ek hatékonyabbá tételére még a mai napig is folynak kísérletek.

open-hard-drive-1200164_1280.jpg

Az un. szilárdtest meghajtókat (SSD) már az különbözteti meg a merevlemezes meghajtóktól (HDD), hogy ezek már nem tartalmaznak forgó alkatrészeket (disk) és mozgó író-olvasó fejeket. Az SSD-k sikerüket nemcsak tárolókapacitásuknak, hanem gyorsaságuknak is köszönhetik.

 micro-sd-card-72141_1280.jpg

Jelen és jövő

Meg kell említenünk még a mai napig használt pendrive-okat, illetve SD-kártyákat, melyek kapacitása - fizikai méretük csökkenése ellenére - jelentősen megnőtt. Nagy előnyük kompakt méretük és egyszerű hordozhatóságuk.

Az eddigiekben említett fizikai adathordozók személyes használatát az internet elterjedésével és elérhetőségének fejlődésével (Wi-fi, mobilnet) mára már szinte teljesen kiváltják a felhőszolgáltatások. Természetesen a felhőszolgáltatások biztosításához jelentős adatparkok létesítésére volt / van szükség.

A felhőszolgáltatások elterjedése ellenére továbbra is szükség van fizikai adattárolókra – gondoljunk csak a biztonsági kockázatokra.

A digitális adattárolás története a szemünk előtt íródik, fejlődése az igények növekedését tekintetbe véve megállíthatatlan.

 

A cikk alapjául a Mashable.com oldalon megjelent információk szolgáltak. A poszt megírásához egyúttal az említett adattárolókról szóló Wikipédia cikkek kerültek felhasználásra.

A képek forrása a PIXABAY

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mielőtt felrobban a labor és a főnök

2019.03.01. 12:00 Szerző: Hódi Péter Címkék: kutatás adat adatbányászat adatkezelési terv

head-1994520_1280.jpg

A kutatások alapja és egyúttal végterméke az adat. Egy kutatási projekt indulása előtt alapvető fontosságú, hogy meghatározzuk a folyamat során az adatokkal történő munkavégzés minden apró lépését. Ezáltal biztosítani tudjuk a kutatási projekt technikai hátterét. Számos kérdést kell feltennünk magunknak. Ezen kérdések és a rájuk adott válaszok alapján tudjuk összeállítani az adatkezelési tervet (Data Management Plan - DMP).

 Tervezz előre, kutass nyugodtan egy jó adatkezelési tervvel!

Hasznos kérdések 

  • Milyen adatok adják a kutatás alapját (honnan gyűjtjük össze, milyen formátumú, milyen terjedelmű, milyen metaadatok kapcsolódnak az adatokhoz)?
  • Hogyan fogom összegyűjteni az adatokat (honnan, milyen módszerrel)?
  • Milyen etikai normákat kell tekintetbe vennem?
  • Hogyan fogom kezelni a kapcsolódó szerzői jogokat?
  • Milyen módon lesznek az adatok tárolva, mekkora tárhelyre lesz szükség és meddig?
  • Szükség lesz-e az eredmények megosztására, publikálására?
  • Ki lesz felelős az adatokért és a velük történő munkavégzésért?
  • Mely programok használata válik szükségessé a kutatás során (legyűjtéshez, szerkesztéshez, átalakításhoz, megjelenítéshez)?
  • Mások is fogják használni a kutatási eredményeimet? Milyen elvárásoknak kell, hogy megfeleljenek az eredmények az adathasználat szemszögéből?

 

Természetesen a fentieken kívül számos egyéb körülmény befolyásolhatja, hogy milyen további kérdések merülnek fel. Minél több kérdést teszünk fel és válaszolunk meg, annál nagyobb a valószínűsége, hogy a kutatás folyamatát és sikerességét nem fogja negatívan befolyásolni az adatokkal történő munkavégzés.

Az adatkezelési terv nem egy egységes formátumú dokumentum, számos különböző formában kerülhet összeállításra (táblázat, kiskáté, szöveges file, pdf, stb.). Készítsünk olyan tervet, mely nemcsak számunkra, hanem az adott kutatás összes résztvevőjének számára átlátható és hasznos!

 

Egy jól felépített adatkezelési terv (DMP) tartalmazza az alábbiakat is

  • A kutatási projekttel kapcsolatos információk (név, cél, határidők, résztvevők, adatokért felelős személy, adatok jogosultági szintjei)
  • Szerepek a projektben
  • Adatok típusa és mennyisége
  • Specifikációk
  • Szoftverigény
  • Hardverigény
  • Dokumentumok kezelésére vonatkozó irányelvek (pl.: a dokumentumok elnevezési követelményei – projekt_alprojekt_szerző_dátum.doc, mappastruktúra)
  • Adattárolás (rövid- és hosszútávú) megvalósulása
  • az adatkezelési terv kiértékelését tartalmazó fejezet

A kutatási projekt lezárása után célszerű az adatkezelési terv felülvizsgálatának elvégzése, majd a tapasztalatok alapján történő módosítási javaslatok kidolgozása, ezzel is hozzájárulva a jövő kutatási projektjeinek sikerességéhez.

Lássunk egy lehetséges tervet, mely egy fiktív kutatási projekthez készült:

 

Projekt név

Amőbakutatás 2.0

Indulás időpontja

2019.02.22.

Határidő

2020.02.22.

Résztvevők

Nagy Éva, Kis Tamás

Adatfelelős

Nagy Éva

Cél

Az amőbák alvási idejének meghatározása

Helyszín

Amőbafalva / XOX Labor

 

 

Hely

Software

Formátum

Adatforrás

www.amobakutatas.org

TAS Data Collector

JSON, docx, xlsx, csv

Tárolási hely

D→Amobakutatas→Adatok

Win intéző

docx, xlsx, csv

Vizualizáció

D→Amobakutatas→Adatok→Vizualizált adatok

Win Word, Excel

xlsx, Power BI

Eredmény megjelenítés

D→Amobakutatas→Adatok→Publikáció

Win Word, Excel

docx, xlsx, csv, pdf

Fájl-ok elnevezésének formátuma

alvasido01_nagyeva_20190222.xlsx vagy

alvasido01_kistamas_20190225.docx

Win Word, Excel

docx, xlsx, csv

Publikálási hely

www.amobakutatas.org/amobaalvas

Web

WordPress

Megosztási hely

www.linkedin.com/amobakutatas

Web

LinkedIn profil

Elsődleges adattárolási hely

D→Amobakutatas→Adatok

Win intéző

docx, xlsx

Másodlagos adattárolási hely

www.amobacloud.com/amobakutatas

Web

Amobacloud profil

Harmadlagos adattárolási hely / közös

 

www.amobacloud.com/amobakutatas/kutatoknak

Web

Amobacloud profil

 

Adattárolás határideje / elsődleges

2022.02.22.

Adattárolás határideje/ másodlagos

2032.02.22.

Adattárolás határideje/ harmadlagos – közös

2032.02.22.

Tervezett adatmennyiség

9 GB

 

Jogosultság 1

D→Amobakutatas→Adatok

Nagy Éva, Kis Tamás

Jogosultság 2

D→Amobakutatas→Adatok→Vizualizált adatok

Nagy Éva

Jogosultság 3

www.amobacloud.com/amobakutatas/kutatoknak

Amőbakutató Intézet munkatársai / Amobacloud profil

Jogosultság 4

www.amobakutatas.org

Adatlegyűjtés és felhasználás engedélyezve az Amobakutatas.org adattulajdonosa által.

 

Adatkezelési terv információk

Az Amőbakutatás 2.0 projekt célja az amőbák alvási idejének tanulmányozása. Alapja a www.amobakutatas.org oldalon megjelent tudományos anyagok, melynek legyűjtésével és az adatok átalakításával a Precognox Kft.-t bízzuk meg. A már meglévő kutatási anyagok és az új kutatási eredmények docx és xlsx formátumban kerülnek mentésre a labor személyi számítógépén, illetve a www.amobacloud.com/amobakutatas webhelyen. A kutatás eredményeit is ezeken a felületeken tároljuk, a további felhasználás lehetőségét a www.amobacloud.com/amobakutatas/kutatoknak oldalon biztosítjuk.

Ezen adatkezelési terv felülvizsgálatára a projekt lezárulta – 2020.02.22. – után kerül sor. A felülvizsgálat célja a további amőbakutatási projektek adathasználattal kapcsolatos munkafázisainak sikeres koordinálása.

 

 

Bár sokan legyinthetnek most, de mégis: az adatkezelési terv elkészítéséhez szükséges idő a projekt későbbi szakaszaiban bőven megtérül és emellett a kérdésekre adott válaszok által a kutatási folyamat bármely fázisában segítségül hívható. Természetesen a DMP kizárólag akkor lehet sikeres, ha a benne foglaltakat minden résztvevő magára nézve kötelező érvényűnek tart és feladatát mindenki a rögzített elvek és szabályok alapján látja el.

 Kis túlzással – készítsünk egy jó tervet és akkor sem a labor, sem a főnök nem robban majd fel!

 

 A cikk alapjául a https://datasupport.researchdata.nl oldalon megjelent információk szolgáltak.

A kép forrása: Pixabay

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Így neveld a tezauruszodat - avagy hogyan építsünk kincses szótárt?

2019.02.22. 12:00 Szerző: Hódi Péter Címkék: keresés nyelvészet szemantikus keresés kereséselmélet tezaurusz

A tezauruszok a dinoszauruszokkal ellentétben nem haltak ki, sőt egyfajta kincses szótár szerepét töltik be, így nyújtva hasznos segítséget a szöveganalitikai munka folyamán.

 

Mi is valójában a tezaurusz?

„A tezaurusszal megoldható a dokumentumok osztályozása és indexelése, az azonos tartalmú dokumentumok csoportba sorolhatók, valamint az egyedi információk leírhatók. Továbbá felhasználható keresőprofilok szerkesztésére is, de fontos szerepe van a szakterminológia egységesítésében is.

A tezaurusz az információs szakemberek munkaeszköze, és két kiemelkedően fontos gyakorlati rendeltetése van:

a dokumentumok információtartalmának kifejezése egyértelmű, szabványos formájú és jelentésű fogalmakkal,

az információkeresés szabványosítása, az információs szolgáltatás egyöntetűségének, hatékonyságának biztosítása.” – így írja le a Wikipédia*.

 

A tezauruszok olyan szinonimák és antonimák, illetve nyelvi megfelelősségek és relációk leírásának gyűjteménye, melynek segítségével megoldható a szöveges tartalmak szofisztikált és hatékony indexelhetősége és kereshetősége. Vegyünk három példát:

  • Egy szövegtestben meg kell találni a „bicikli” és annak megfelelő kifejezéseket, azonban ehhez ismerni kell a kifejezésnek megfelelő tartalmakat. Ilyenkor a tezauruszban létrehozásra kerül egy egyenlőségi reláció a bicikli=kerékpár=bringa=canga(=tandem) elgondolás mentén, így pontosítva és kibővítve a találati listát.
  • Adott szövegkörnyezetben járművek keresése. Ilyenkor az egyenlőségi reláció létrehozása már sokkal nagyobb feladatot jelent, mivel nem csak a járműtípusokat (autó, busz, villamos, repülő, metró, stb.) kifejezések, hanem ezek szinonimáinak (gépjármű, tehergépjármű vagy tgk, repcsi, földalatti) keresésére is szükség van. Ilyenkor az egyenlőségi relációk tömegével halmazt hozzunk létre. Célszerű ilyenkor részhalmazok létrehozásával komplexebb halmazokat építeni, így később – szükség esetén - akár részhalmazokra is tudunk keresni.
  • Személyek keresése szövegben. Ilyen esetben számba kell venni, hogy az adott személy neve akár többféleképpen is megjelenhet. A tezaurusz ebben az esetben tartalmazhatja a következőket: többszörös keresztnév, becenév, alias.

 

Magától értetődő, hogy minél átfogóbb (minél több kifejezést és relációt tartalmazó) tezauruszt építünk, annál pontosabb indexelésre (taggelés) és keresésre nyílik lehetőség.

Itt érdemes megjegyezni, hogy a tezauruszok építésekor érdemes figyelembe venni, hogy maga a keresőfelület szolgáltatásai (szótövezési lehetőség, elgépelés figyelembevétele) nagyban befolyásolják a keresés sikerességét.

Egy megfelelő és jól használható tezaurusz felépítése (felnevelése) mindenképpen alapos és körültekintő munkát kíván. Az így felépített tezaurusz azonban valóban kincset ér és kincses szótárként tekinthetünk rá.

 

 

*forrás: Wikipédia (https://hu.wikipedia.org/wiki/Tezaurusz) - részlet

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása