HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatok (12) adatújságírás (16) adatvizualizáció (16) AI (7) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (45) bing (14) CEU (6) clustering (6) conTEXT (7) dashboard (6) data science (8) deep learning (14) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (30) Facebook (9) facebook (8) gépi tanulás (10) Google (23) google (57) gyűlöletbeszéd (7) hackathon (9) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (35) könyvajánló (20) korpusznyelvészet (13) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) lda (10) LDA (9) live (13) magyar kereső (9) marketing (8) meetup (39) mesterséges intelligencia (9) metafora (6) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (27) nyelvtechnológia (70) open data (11) open knowledge (7) Pennebaker (6) politikai blogok (22) Precognox (42) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (6) szemantikus keresés (17) szemantikus kereső (9) szentimentelemzés (32) szövegbányászat (14) tartalomelemzés (53) tartalomjegyzék (6) tematikus kereső (19) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (11) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Nézzünk az adatokba!

2017.09.19. 13:05 Szerző: zoltanvarju Címkék: Python machine learning imbalanced-learn Facets

A machine learning esetében hatványozottan igaz a garbage in, garbage out elve. Az iparban nagy erőforrásokat teszünk abba, hogy az adatokat legyűjtsük, transzformáljuk, kitisztítsuk, majd a legtutibbnak mondott algoritmusokba dobjuk, hogy végül bosszankodjunk mert "a 99%-os pontosság csak az akadémiai világban létezik". Ilyenkor indul megint egy kör, még több adatot akarunk, vakarjuk a fejünket, hívjuk kutató barátainkat. Ezeknek a köröknek a jelentős része megspórolható, ha néha belenézünk az adatainkba.

nem_akadalymentesitett_num.jpeg

A fenti ábra egy jelenleg futó projektünkhöz készült. A projekthez van minden, amit szeretünk, szép feldolgozó pipeline, feature extraction, stb. Leszedünk több gigányi lakáshirdetést, hogy a végén legyen egy hatvanezer soros csv fájlunk. A feldolgozott adatokra aztán lesz minden, egy csodás report, modell mert prediktálni is kell és biztos vagyok benne, hogy menet közben sok más dolog is eszünkbe fog még jutni. Amíg a feldolgozósor elnyeri végső formáját, addig is lehet nézegetni az adatokat, nem árt egy leíró statisztika hogy lássuk mivel állunk szembe. Erre találták ki a Jupyter Notebook-ot.

test3_1.png

Ha nincs kéznél lelkes kolléga, aki alapos riportot készít Jupyter-ben, akkor van látványos és könnyen használható alternatíva; a Facets. A Google PAIR Code projektje a Jupyter notebookok használatát gondolta tovább, pár sorba sűríti a szokásos adatfelfedezést és egy interaktív felületet generál nekünk. Így tényleg szinte ránézésre látszik mivel is van dolgunk.

animation_1.gif

Habár elsőre megszerettük a Facets, úgy gondoljuk a munka első fázisában igazán hasznos, amikor sokat pörgünk az adatok beszerzésén és reszelésén, mi nem dobnánk el a szokásos riportot még.

 

De miért is olyan fontos folyton az adatainkat nézni? A legtöbb algoritmus amiről olvasunk remekül előkészített adatokon lett tanítva az őket bemutató publikációhoz. Ez annyit tesz, hogy pl. egy osztályozó minden osztályból kb. ugyanannyi példát lát. A "való világban" azonban nem ilyen adataink vannak, a legtöbb ügyfelünknél egy osztályból rengeteg, másból meg alig akad, ez egyenes út a "Class Imbalance Problem"-hez. Ha megismerjük alaposan az adatainkat, akkor egyrészt jó tippjeink lesznek arra, milyen eljárásokat érdemes bevetni majd a kívánt eredmények elérésére, másrészt felkészülhetünk lelkileg arra, hogy majd be kell vetnünk az imbalanced-learn-t.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

http://kereses.blog.hu/api/trackback/id/tr2112877068

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.