HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatok (12) adatújságírás (16) adatvizualizáció (16) AI (7) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (45) bing (14) CEU (6) clustering (6) conTEXT (7) dashboard (6) data science (8) deep learning (14) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (30) facebook (8) Facebook (9) gépi tanulás (10) Google (23) google (57) gyűlöletbeszéd (7) hackathon (9) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (35) könyvajánló (20) korpusznyelvészet (13) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) lda (10) LDA (9) live (13) magyar kereső (9) marketing (8) meetup (39) mesterséges intelligencia (9) metafora (6) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (27) nyelvtechnológia (70) open data (11) open knowledge (7) Pennebaker (6) politikai blogok (22) Precognox (42) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (6) szemantikus keresés (17) szemantikus kereső (9) szentimentelemzés (32) szövegbányászat (14) tartalomelemzés (53) tartalomjegyzék (6) tematikus kereső (19) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (11) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Cicák helyett műholdak!

2017.10.16. 10:04 Szerző: zoltanvarju Címkék: műhold képfeldolgozás deep learning

A felületes szemlélődő számára úgy tűnhet, a deep learning csupán az internet nagy kérdéseire fókuszál; cuki cica van-e egy adott képen vagy nem, van Gogh stílusú profilképünk legyen vagy adott ember stílusában generáljunk szövegeket. Akadnak olyan mellékszálak, mint az önvezető autók, melyek azért elérik a szélesebb publikum ingerküszöbét, hiszen ezek a szerkezetek olyanok mint egy megvalósult sci-fi, arról már nem is beszélve, hogy lehet rettegni, hogy mennyi embert fognak megölni és/vagy munkanélkülivé tenni. Kína pedig az egész országot befedő arcfelismerő rendszer  bevezetését tervezi és mindenki a Nagy Testvér eljövetelét látja. Mindeközben már régen figyelnek minket az űrből apró műholdak százai, melyek irdatlan adattömeget küldenek az adatközpontokba, ahol a modern képfeldolgozásnak hála ma már napi szinten monitorozzák az olajfinomítók kapacitását, a bevásárlóközpontok parkolóinak kihasználtságát, az épülő iparkapacitások kiterjedtségét, a termőföldek állapotát és várható hozamát, vagy éppen a Dél-kínai-tengeren épülő mesterséges szigeteket.

c97a8493f0cc6c9f38caa05b7b51e9ae--soviet-art-soviet-union.jpg

1957-ben lőtték fel az első műholdat, a Szputyinkot. Azóta eltelt pár év, fejlődött a technológia és teret nyertek a nyílt adatok, ezért ma már a NASA, az ESA és még vagy tucatnyi űrügynökség is szabadon elérhetővé teszi adatainak egy részét. A szabályozás folyamatosan puhul, ezért megjelentek a kereskedelmi műholdak is. Az utóbbi időkben az olyan úttörő cégek hatására mint pl. a Planet, pedig divatba jöttek a cipősdoboznyi kis műholdak, melyekből egy-egy százas nagyságrendű hálózatot üzemeltet egy startup. A miniműholdaknak hála akár naponta is kaphatunk képet egy minket érdeklő területről, ami beindította az analitika területén ügyködők agyát is:

  • a spire hajózási, repülési útvonalakat figyel
  • a Descartes Labs több szolgáltatótól gyűjti a műholdképeket és térkép szolgáltatást, mezőgazdasági előrejelzést, fogyasztói indexet, stb. készít ügyfeleinek, azok akik maguk akarnak összedobni egy modellt, pedig API-n keresztül férhetnek hozzá az adatokhoz. A legvadabb dolog tőlük egy vizuális kereső, amivel a műholdképek között vizuális jegyek alapján kutakodhatunk!
  • a Planet és az Orbital Insight egyszerre biztosít műholdas és adatelemzési infrastruktúrát

tumblr_lzi0l0r9lg1qbh26io5_540.jpg

Dőlnek tehát az adatok, jelentős részük nyílt, illetve a kereskedelmi szolgáltatók NGO-k és kutatók számára általában ingyenes hozzáférést biztosítanak. Ezek elemzése ma már nem lehetetlen feladat, a Python például remekül el van látva olyan könyvtárakkal, melyekkel segítségével könnyen elvégezhetők a legalapvetőbb elemzések, de a QGIS is sok plugin-t nyújt erre. Ha például az érdekel minket, hogyan alakult a zöldterületek aránya Budapesten és környékén az utóbbi években, akkor kb. 20 perc alatt elkészíthetjük az alábbi kis vizut. A Landsat 7 képei egész jól lefedik a régiót és habár nem találtunk a zöldterületek azonosítására használt NDVI indexre Python implementációt, az annyira egyszerű, hogy két kódsorba megírtuk.

Komolyabb feladatok sem megoldhatatlanok ma már. A Descartes Labs vizuális keresőjéhez pl. egy szabadon elérhető Imagenet-et használta ResNet architektúrája előtrénelésére, hogy aztán azt az OpenStreetMap földhasználati kategóriák azonosítására tanítsa ki. Igen, egy tök általános modell transzferáltak műholdképekre! (Bővebben itt lehet olvasni erről)

 

A "new space" mozgalomnak még csak az elején járunk, de már láthatatlanul behálóznak minket a műholdas megfigyelések. Miközben a robotoktól és az önvezető autóktól félünk és próbálunk előre kitalálni megoldásokat olyan problémákra, melyek még nem is jelentkeztek, elsiklunk a felett, hogy ma már az égből figyelik mit építünk, hol parkolunk, mit termesztünk, stb. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Így készítünk statikus riportokat

2017.10.09. 11:30 Szerző: zoltanvarju Címkék: ingatlan prezentáció infografika adatvizualizáció Python Luigi QGIS Facets Inkscape Nodebox Sozi

Régóta dolgozunk azon, hogy adatelemzési projektjeink végén ügyfeleink számára nem csak szakmailag pontos és használható, hanem vizuálisan is elfogadható riportokat tudjunk szállítani. Először az interaktív vizualizációkat használó riport formáját dolgoztuk ki, erre példa a Migráció arcai projektünk. Ennek során alapelvünk volt, hogy kizárólag open source eszközökkel dolgozzunk és amikor csak lehetséges, ne közvetlenül JavaScript könyvtárakkal, hanem Python-ból elérhető csomagok használatával generáljunk vizualizációkat. Ehhez a statikus riportok készítésénél is tartjuk magunkat, amire példa az alább látható infografika, ennek elkészítéséről szól ez a kis poszt.

vizu.png

A nyers adatoktól a megmutatni kívánt információig

Az adatok begyűjtésére, előfeldolgozására és a feature-ök kinyerésére Pythonban írtunk egy pipeline-t. Köszi Luigi!

maxresdefault.jpg

A nyers adatokon először a hagyományos EDA (Exploratory Data Analysis) fázist végeztük el, pl. ilyen szép Jupyter Notebook-ban néztük meg hogy mi van az egyes feature-ökkel.

test3_1.png

Majd megnéztük a Google Facets segítségével is hogy mi a helyzet.

animation_1.gif

Az EDA során kiválasztottuk mit szeretnénk megmutatni az adathalmazból. Ezután legeneráltuk az aggregált adatokat kerületenként és jöhetett maga a vizualizáció.

Mivel dolgoztunk?

A szógyakorisági adathoz Nodebox-ban készítettünk linkes digarammot. A Nodebox egy Python alapú vizuális programozási környezet, amivel viszonylag könnyen és gyorsan lehet szép ábrákat generálni.

kepernyofoto_2017-10-06_13_12_25.png

A térképek elkészítéséhez az általunk imádott QGIS-t használtuk.

image4.png

Az egyes ábrákat végül Inkscape segítségével szerkesztettük egy infografikába.

inkscape.png

Ha prezentálni is szeretnénk

A Sozi segítségével az elkészült svg alapból pedig prezentációt is lehet készíteni, ami egy egyszerű kis html oldalt jelent. Az infografikánkból generált prezi itt érhető el, vagy egy kicsit lentebb beágyazva a posztba.

image5.png

Régi álmunk vált valóra azzal, hogy kidolgoztuk a statikus riportok elkészítésének folyamatát. Tudjuk, még messze vagyunk a tökéletes végeredménytől, de örülünk annak, hogy megtettük az első lépést.

This was supposed to be an SVG document in an <object> element.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Watson, aki törődik az érzéseinkkel

2017.09.26. 09:36 Szerző: Szabó Martina Katalin Címkék: konferencia orosz szótár pszichológia narratíva korpusz szemantikus keresés nyelvtechnológia IBM Watson szentimentelemzés emócióelemzés Pennebaker funkciószavak

Amint azt a Portfolio hírül adta, az IBM által fejlesztett, Watson névre keresztelt robot újabban már az emberi érzelmeket is felismeri. A cég egy különleges megkeresésre fejlesztette tovább Watsont úgy, hogy az a lelkünkbe láthasson.

robotlove-1024x576.jpg

Az egész a Wells Fargo tavaly kirobbant számlabotrányával kezdődött. Az Egyesült Államok egyik legnagyobb bankjának alkalmazottai, amint az a vizsgálatok során kiderült, az utóbbi öt évben kétmillió betéti és hitelkártyaszámlát létesítettek klienseiknek anélkül, hogy azok tudtak volna erről. A csalásra az csábította a dolgozókat, hogy a nagyobb teljesítmény, vagyis a több termék értékesítése nagyobb bónuszt hozott nekik a kasszára. 

A Világgazdaság adatai alapján a Wells Fargo 2011 óta nagyjából 5300 alkalmazottat bocsátott el, noha közülük csak több százan voltak, akik illegálisan nyitottak számlát. Sokan – köztük vezető beosztásban lévők – azért kaptak útilaput, mert szemet hunytak a csalások felett.   

A botrány után a hitelintézetekben jelentős igény támadt az alkalmazottak alaposabb monitorozására abból a célból, hogy egy esetleges hasonló csalássorozatot el lehessen kerülni. Az International Business Machines Corporationt (IBM) is megkeresték azzal a kérdéssel, hogy lehetséges-e a lakossági üzletágban dolgozó értékesítőket, hitelügyintézőket és más dolgozókat valamilyen módon behatóbban megfigyelni. Az IBM úgy gondolta, Watsonra bízza a piszkos munkát. 

4fbe91716bb3f7c20900001c-618.jpg

Watson, a mesterséges intelligencia kinézete (forrás: businessinsider.com)

Watson akkor vált igazán híressé, amikor 2011-ben a Jeopardy! nevű televíziós vetélkedőben – amely hasonló a hazai Mindent vagy semmit! című játékhoz – két kiváló képességű játékost legyőzött.

A mérkőzésre a vetélkedő két legsikeresebb hajdani résztvevőjét hívták meg: Brad Ruttert, aki a játék történetében az addigi legnagyobb nyeremény birtokosa, és Ken Jenningst, aki pedig a leghosszabb ideig, összesen nem kevesebb mint 75 napig tartotta magát folyamatos játékban. Az összecsapás során Watsonnak a versenytársakkal azonos körülményeket biztosítottak: nem csatlakozhatott az internethez, és a kérdéseket a játékvezetőtől ő is élőszóban kapta. A szuperszámítógép végül 1 millió, Ken Jennings 300 000, Brad Rutter pedig 200 000 amerikai dollárt nyert.

Az IBM már a Wells Fargo megkeresése előtt is bevetette a banki szférában Watsont: a banki kereskedőket vizsgálta, amit több nagybank, illetve kisebb regionális pénzintézet is tesztelt. Ésszerű döntés volt tehát, hogy most is ő kapja a feladatot, akinek már van a területen szerzett tapasztalata. 

Előbb azonban a cég továbbképzésre küldte Watsont: megtanították őt az olyan adatoknak az észrevételére, amelyek a Wells Fargo-ban történt botrány előjeleiként értelmezhetőek. Ennek köszönhetően felfigyel a gyanús logókra, a használatlan termékekre és számlákra, valamint a rossz adatokra és értesítési kérésekre.

images_1_1.jpgDe ez messze nem minden: Watson elolvassa az alkalmazottak emailjeit és megvizsgálja még a telefonhívásokaikat is. Olyan nyomokat keres az írott és a hangzó szövegekben, amelyek valamilyen nem megfelelő viselkedésre (pl. a menedzsereknek az értékesítési csapatra gyakorolt, nem kívánatos jellegű és mértékű nyomására) utalhatnak a dolgozói rendszerben. 

 

 

És csak most jön a java: Watson még egyes érzelmek felismerésére is képes! Meg tudja például állapítani, ha egy munkatárs mérges, undorodik valamitől, fél, örül, szomorú, vagy éppen agresszív. Amint ugyanis arra a Portfolio is rámutat, az emóciók kiváló indikátorai lehetnek a gyanús viselkedésnek. A cikk két érdekes tendenciát említ példaként. Egy amerikai tapasztalat szerint a legendásan trágár amerikai kereskedők profánsága jelentősen csökken, mielőtt valami illegálisat cselekszenek. Az Egyesült Királyságban ugyanakkor ennek pont az ellenkezőjét tapasztalták: az etikátlan viselkedésre készülő kereskedők többet káromkodnak a séma kivitelezése előtt.

Azt, hogy Watson mennyire hatékonyan ismeri fel az érzelmeket az írott szövegekben, bárki tesztelheti az eszköz honlapján, egy demo program segítségével. Az elemezni kívánt szöveget a megfelelő formátumban fel kell töltenünk, majd azt az elemző a következő fő lépésekben feldolgozza:

tone-analyzer.png

Az elemzés lépései (forrás: ibm.com)

Mindezek után, egy tetszőlegesen bevitt, angol nyelvű szöveget elemeztetve az alábbihoz hasonló eredményt kapunk:


wa2.png

Egy példa Watson elemzési eredményeire, írott szöveg alapján (forrás: ibm.com)
Amint azt a Portfolio ugyanakkor megjegyzi, Watson elemzése sajnos rengeteg hamis pozitívot generál. Éppen ezért a találatokat legtöbbször humán erő bevonásával felül kell vizsgálni.


Saját emócióelemzésünk, avagy amit mi csinálunk...

Amint arról már többször beszámoltunk a blogon, magunk is foglalkozunk automatikus emócióelemzéssel, és sokat dolgozunk azon, hogy az eszközünket jobbá és jobbá tegyük. Lássuk csak, mit is csináltunk eddig!

Először is, pszichológiai eredményekre alapozva készítettünk egy magyar nyelvű emóciószótárat, majd azt a létrehozás és a vizsgálati tapasztalataink alapján továbbfejlesztettük. Emellett elkészítettünk egy kézzel annotált emóciókorpuszt is, amelyben nem csupán az ominózus emóciókifejezéseket jelöltük be, hanem minden olyan egyéb nyelvi elemet, amelyről úgy gondoltuk, hogy mind vizsgálati, mind fejlesztési szempontból hasznos lehet a későbbiekben.

A szótárainkat (annak első és második verzióját) számtalan automatikus tartalomelemzési feladatban felhasználtuk, és munkánk során érdekes, eleddig ismeretlen összefüggéseket tártunk fel az érzelmek, a szentimentek és a különböző egyéb szövegtartalmak (pl. a topikok) között. Eredményeinket sok konferencián (pl. Nyelv, kultúra, társadalom;  MANYE; OSINT; Media Hungary; MSZNY stb.) és számos posztban ismertettük. Szonifikáltunk, dashboardot készítettünk romaellenes cikkekből, demóztunk szüléssel kapcsolatos interjúk alapján, meg egy csomót politizáltunk. Még multimodális emócióelemzést is végeztünk a céges hackathonon ‒ csak néhányat említve közülük. 


love.jpg

 

És amin jelenleg dolgozunk...

A magyar nyelvű elemzések után úgy döntöttünk, megnézzük, mi a helyzet az orosz fronton. Létrehoztunk egy orosz nyelvű emóció-, valamint szentimentszótárat, továbbá egy nagy méretű, orosz nyelvű szépirodalmi szövegekből álló korpuszt. Munkatársunk, Nyíri Zsófi azon dolgozik, hogy a korpusz automatikus, emóció- és szentimentszótáras elemzésével feltárja az orosz szépirodalmi művek narratívatípusait. Munkájának eddigi, érdekes tapasztalatairól a II. Szláv Filológiai és Kultúratudományi Konferencián számolt be nem rég. 

A projekt egy távolabbi, ugyanakkor fontos célja, hogy kísérletet tegyen a nyelvi emóciók párhuzamos vizsgálatára magyar, orosz, valamint angol nyelvű szövegekben.  

Ugyancsak ehhez a projekthez kapcsolódóan azon is munkálkodunk, hogy a funkciószók és az emóciók közötti, eleddig rejtett összefüggéseket is feltárjuk. Korábban már posztoltunk arról, hogy, bár a funkciószók kiváló indikátorai lehetnek bizonyos, úgymond a szöveg "mélyebb rétegeiben húzódó" sajátságoknak, azokat a tartalomelemző feladatokban nemigen aknázzák ki a nyelvtechnológusok. 

De miért is irányítsuk figyelmünket a funkciószókra a tartalomelemzésben? Miért ne csupán azokra a bizonyos tartalmas szavakra fókuszáljunk?

brain_map.jpgAmint azt már az említett posztban is ismertettük, a szociálpszichológus Pennebaker 2011-ben publikált könyve, a The Secret Life of Pronouns alapján, a nyelvhasználat során tudatosan alapvetően a tartalmas szavakra fókuszálunk. Ez azt jelenti, hogy amikor szövegeket alkotunk, kevésbé vagyunk megfontoltak a funkciószók használatát illetően; inkább a közölni kívánt szemantikai tartalomra, így szükségképpen elsősorban a tartalmas szavakra koncentrálunk. Ugyanakkor a kommunikációnk során a funkciószó-használatunkkal tudattalanul is olyan információkat közlünk magunkról, mint például a nemünk, a korunk, a szociális viszonyaink vagy az aktuális érzelmi állapotunk ‒ amelyeket esetleg egyáltalán nem is szerettünk volna a partner tudomására hozni. Pennebaker szerint tehát a funkciószó-használatunk az érzelmi állapotunkról is árulkodik, vagyis ezeknek a szöveges realizációja szorosan összefügg a beszélő emócióival. 

f1112d_b.gifEzzel együtt, amint arra a szerző felhívja a figyelmet, a 20 leggyakoribb előfordulású angol szó között kizárólag funkciószókat találunk, s pusztán ez a húsz elem megközelítőleg a 30%-át teszi ki az angol nyelvi produktumoknak, az írott és a beszélt nyelvet illetően egyaránt.

A kérdést a magyar nyelv vonatkozásában, a Magyar Nemzeti Szövegtár adatait megnézve hasonló eredményt kapunk: a 20 legyakoribb szó között a magyar nyelvet illetően is, akárcsak az angolban, rendre funkciószókat találunk. 

A funkciószók vizsgálatától, különösen az emócióelemzéssel együtt alkalmazva igazán figyelemre méltó összefüggések feltárását remélhetjük. 

Jelenleg tehát azon dolgozunk, hogy az orosz nyelvű korpuszunkban végrehajtsuk az emóciók, a funkciószók és a szentimentek komplex feldolgozását.  

 

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nézzünk az adatokba!

2017.09.19. 13:05 Szerző: zoltanvarju Címkék: Python machine learning imbalanced-learn Facets

A machine learning esetében hatványozottan igaz a garbage in, garbage out elve. Az iparban nagy erőforrásokat teszünk abba, hogy az adatokat legyűjtsük, transzformáljuk, kitisztítsuk, majd a legtutibbnak mondott algoritmusokba dobjuk, hogy végül bosszankodjunk mert "a 99%-os pontosság csak az akadémiai világban létezik". Ilyenkor indul megint egy kör, még több adatot akarunk, vakarjuk a fejünket, hívjuk kutató barátainkat. Ezeknek a köröknek a jelentős része megspórolható, ha néha belenézünk az adatainkba.

nem_akadalymentesitett_num.jpeg

A fenti ábra egy jelenleg futó projektünkhöz készült. A projekthez van minden, amit szeretünk, szép feldolgozó pipeline, feature extraction, stb. Leszedünk több gigányi lakáshirdetést, hogy a végén legyen egy hatvanezer soros csv fájlunk. A feldolgozott adatokra aztán lesz minden, egy csodás report, modell mert prediktálni is kell és biztos vagyok benne, hogy menet közben sok más dolog is eszünkbe fog még jutni. Amíg a feldolgozósor elnyeri végső formáját, addig is lehet nézegetni az adatokat, nem árt egy leíró statisztika hogy lássuk mivel állunk szembe. Erre találták ki a Jupyter Notebook-ot.

test3_1.png

Ha nincs kéznél lelkes kolléga, aki alapos riportot készít Jupyter-ben, akkor van látványos és könnyen használható alternatíva; a Facets. A Google PAIR Code projektje a Jupyter notebookok használatát gondolta tovább, pár sorba sűríti a szokásos adatfelfedezést és egy interaktív felületet generál nekünk. Így tényleg szinte ránézésre látszik mivel is van dolgunk.

animation_1.gif

Habár elsőre megszerettük a Facets, úgy gondoljuk a munka első fázisában igazán hasznos, amikor sokat pörgünk az adatok beszerzésén és reszelésén, mi nem dobnánk el a szokásos riportot még.

 

De miért is olyan fontos folyton az adatainkat nézni? A legtöbb algoritmus amiről olvasunk remekül előkészített adatokon lett tanítva az őket bemutató publikációhoz. Ez annyit tesz, hogy pl. egy osztályozó minden osztályból kb. ugyanannyi példát lát. A "való világban" azonban nem ilyen adataink vannak, a legtöbb ügyfelünknél egy osztályból rengeteg, másból meg alig akad, ez egyenes út a "Class Imbalance Problem"-hez. Ha megismerjük alaposan az adatainkat, akkor egyrészt jó tippjeink lesznek arra, milyen eljárásokat érdemes bevetni majd a kívánt eredmények elérésére, másrészt felkészülhetünk lelkileg arra, hogy majd be kell vetnünk az imbalanced-learn-t.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogy olvas újságot a mesterséges intelligencia és mit lát a képeken? @ Budapest Science Meetup

2017.09.14. 16:46 Szerző: zoltanvarju Címkék: meetup tartalomelemzés képfeldolgozás AI lda deep learning lda2vec

Ma a Budapest Science Meetupon találkozhattok velünk, ahol legújabb tartalomelemzési projektjeinkről fogunk beszélni. Kapcsolódó diánkat pedig itt találjátok:

mynetarch.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre