Nézzünk az adatokba!

2017.09.19. 13:05 Szerző: Zoltán Varjú Címkék: Python machine learning imbalanced-learn Facets

A machine learning esetében hatványozottan igaz a garbage in, garbage out elve. Az iparban nagy erőforrásokat teszünk abba, hogy az adatokat legyűjtsük, transzformáljuk, kitisztítsuk, majd a legtutibbnak mondott algoritmusokba dobjuk, hogy végül bosszankodjunk mert "a 99%-os pontosság csak az akadémiai világban létezik". Ilyenkor indul megint egy kör, még több adatot akarunk, vakarjuk a fejünket, hívjuk kutató barátainkat. Ezeknek a köröknek a jelentős része megspórolható, ha néha belenézünk az adatainkba.

A fenti ábra egy jelenleg futó projektünkhöz készült. A projekthez van minden, amit szeretünk, szép feldolgozó pipeline, feature extraction, stb. Leszedünk több gigányi lakáshirdetést, hogy a végén legyen egy hatvanezer soros csv fájlunk. A feldolgozott adatokra aztán lesz minden, egy csodás report, modell mert prediktálni is kell és biztos vagyok benne, hogy menet közben sok más dolog is eszünkbe fog még jutni. Amíg a feldolgozósor elnyeri végső formáját, addig is lehet nézegetni az adatokat, nem árt egy leíró statisztika hogy lássuk mivel állunk szembe. Erre találták ki a Jupyter Notebook-ot.

Ha nincs kéznél lelkes kolléga, aki alapos riportot készít Jupyter-ben, akkor van látványos és könnyen használható alternatíva; a Facets. A Google PAIR Code projektje a Jupyter notebookok használatát gondolta tovább, pár sorba sűríti a szokásos adatfelfedezést és egy interaktív felületet generál nekünk. Így tényleg szinte ránézésre látszik mivel is van dolgunk.

Habár elsőre megszerettük a Facets, úgy gondoljuk a munka első fázisában igazán hasznos, amikor sokat pörgünk az adatok beszerzésén és reszelésén, mi nem dobnánk el a szokásos riportot még.

De miért is olyan fontos folyton az adatainkat nézni? A legtöbb algoritmus amiről olvasunk remekül előkészített adatokon lett tanítva az őket bemutató publikációhoz. Ez annyit tesz, hogy pl. egy osztályozó minden osztályból kb. ugyanannyi példát lát. A "való világban" azonban nem ilyen adataink vannak, a legtöbb ügyfelünknél egy osztályból rengeteg, másból meg alig akad, ez egyenes út a "Class Imbalance Problem"-hez. Ha megismerjük alaposan az adatainkat, akkor egyrészt jó tippjeink lesznek arra, milyen eljárásokat érdemes bevetni majd a kívánt eredmények elérésére, másrészt felkészülhetünk lelkileg arra, hogy majd be kell vetnünk az imbalanced-learn-t.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogy olvas újságot a mesterséges intelligencia és mit lát a képeken? @ Budapest Science Meetup

2017.09.14. 16:46 Szerző: Zoltán Varjú Címkék: meetup tartalomelemzés képfeldolgozás AI lda deep learning lda2vec

Ma a Budapest Science Meetupon találkozhattok velünk, ahol legújabb tartalomelemzési projektjeinkről fogunk beszélni. Kapcsolódó diánkat pedig itt találjátok:

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

10 éves a Kereső Világ

2017.09.11. 10:06 Szerző: Zoltán Varjú Címkék: évforduló Precognox Kereső Világ

Tíz éve jelent meg az első poszt blogunkon. A kezdetek a keresőkről szóltak, azóta viszont kibővítettük témáinkat, megjelent a nyelvtechnológia, a mesterséges intelligencia és a gépi tanulás, meg minden más. Az alapító Jóföldi Endre mellett az évek során tizenketten csatlakoztak rövidebb vagy hosszabb időre rendszeres szerzőnek és számtalan vendégposztot is kaptunk. A blogban azt szeretjük a legjobban, hogy kapcsolatba kerülhetünk veletek, kedves olvasókkal; az idők során számtalan konferenciára jutottunk el, öt éve elindítottuk az NLP meetupot, rendszeresen együttműködünk a Nyelv és Tudománnyal, ott vagyunk a K-Monitor minden hackathonján. Köszönjük, hogy olvastok minket! Nem tudjuk kellően megköszönni kollégáink munkáját, akik nélkül nem tudnánk izgalmas projekteken dolgozni, melyek nélkül nem tudnánk nektek miről írni. Minden posztban, minden konferencia-előadásban ott van a Precognox csapatának munkája, köszönjük nektek!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

A migráció arcai @ nyest.hu

2017.09.04. 19:39 Szerző: Zoltán Varjú Címkék: tartalomelemzés képfeldolgozás adatvizualizáció AI

A nyest.hu-n elérhető legújabb tartalomelemzésünk melyben a migrációs válság során a magyar nyelvű online médiában megjelent képeket vizsgáltuk. A projekt során korábban már elemeztük a szöveges tartalmakat és beszámoltunk a képekkel kapcsolatos vizsgálódásaink előzetes eredményeiről itt.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az elméleti minimum...

2017.09.01. 11:50 Szerző: Zoltán Varjú Címkék: statisztika matek könyvajánló logika AI elmefilozófia machine learning

... azoknak, akik szeretnének a gépi tanulás és a mesterséges intelligencia alapjairól többet tudni.

Morris Kline: Mathematics for the Nonmathematician

Talán a legtöbbünknek az a baja az absztrakt matematikával, hogy nem tudjuk mire is találták ki. Kline könyve a matematika főbb területeit történeti kontextusba ágyazva mutatja be, ami rendkívül izgalmassá teszi az olvasást. Persze vannak feladatok dögivel, ezeken érdemes végigmenni, ami viszont nem minden esetben annyira szórakoztató. Senki nem válik egy könyvtől egy terület szakértőjévé, de Kline segítségével kaphat az olvasó egy kis térképet, ami segít tájékozódni.

Bertrand Russel: Introduction to Mathematical Philosophy

A 19. század végére a matematika válságba került. Persze ezt a válságot csak pár ember élte meg igazi válságként, ők dolgozták ki a modern logika alapjait. Russel könyve érthetően, minden formalizmustól mentesen foglalja össze röviden mi okozott problémát és hogyan is oldották ezt meg.

Charles Petzold: Code: The Hidden Language of Computer Hardware and Software

A matematika válsága megoldódott, de megannyi nyitott kérdést hagyott maga után. Ilyen pl. az Entscheidungsproblem, azaz a eldöntésprobléma, azaz annak megállapítása, hogy egy adott kijelentés bizonyítható. Ennek megoldására Turing és Church vállalkozott, aminek eredménye a modern számítógépek megjelenése lett. Shannon megírta minden idők legjelentősebb MSc tézisét, amiben a logikai műveleteket áramköri kapcsolók segítéségével modellezte megnyitva ezzel az utat a modern számítástudomány előtt. Petzold könyve nem lebutítva, nagyon okosan és didaktikusan mutatja be, hogyan juthatunk el az egyszerű logikai kapuktól a számítógépekig és a rajtuk futó programokig.

Charles Wheelan: Naked Statistics

Tudjuk, a statisztika megkerülhetetlen. Wheelan könyve annyira alaposan mutatja be a statisztika alapjait, amennyire csak lehetséges ez képletek nélkül. Aki a fenti videót bírja, annak a szerző stílusa be fog jönni és képletek hiánya ellenére is értékes tudásra tehet szert.

David Salsburg: The Lady Tasting Tea

Ahogy az absztrakt matematikával is sokszor az az átlagember problémája, hogy nem tudja elképzelni mire is lehet használni az eredményeit, a statisztikával sem más a helyzet. Salsburg könyve sem az elméleti háttérben erős, ellenben megtudhatjuk belőle, hogy nagyon szorító kérdés tud lenni a jövő évi termés megtippelése, vagy egy sörfőzdében is alakulhatnak úgy a dolgok, hogy kell egy brilliáns statisztikus.

Rudolf Carnap: An Introduction to the Philosophy of Science

Hogyan találkoznak össze a szigorú deduktív rendszerek és statisztika? Ez a tudomány világa, de ennek modellezésével foglalkozik a gépi tanulás is. A tudományfilozófia klasszikus korában nagyon sokat foglalkozott a valószínűségszámítás elméleti hátterével, az empirikus mérésekre alapozott következtetések természetével és ezekre épített rendszerek konzisztenciájával. A kötet eredeti címe Philosophy of Physics volt, mivel a legtöbb benne található példa a fizika világából való, de ettől nem kell félni, ez egy bevezető könyv, amiben a formalizmus a minimálisra van szorítva.

Pedro Domingos: The Master Algorithm

Ezt a könyvet korábban már bemutattuk itt, továbbra is csak azt tudjuk mondani róla, hogy alap.

Tim Crane: The Mechanical Mind

Ha valaki szeretne túllépni a közhelyszerű "a gépek majd egyszer ellenünk fordulnak" és "a gépek mindig hülyék maradnak" toposzokon, annak érdemes elgondolkoznia az elme és a tudatosság fogalmán. Megannyi kérdés merül fel, amire az elmefilozófusok évszázadok óta keresik a választ. Mit jelent tudni valamit? Hogyan reprezentáljuk a tudás különböző fajtáit? Milyen problémákat vet fel, ha szimbolikusan reprezentáljuk az információt, vagy ha éppen elosztottan? Az elme függ a hordozójától, vagy tök mindegy hogy egyes funkcióit sejtek, másokat meg áramkörök valósítják meg? Vigyázat! A filozófia természeténél fogva nem ad feltétlenül végleges válaszokat, hanem egy-egy megközelítési módot jár körül, annak pozitívumait és negatívumait bemutatva - de nincs ennél jobb szórakozás és egyáltalán nem haszontalan (legalábbis szeretnénk ezt hinni....)

Bónusz

Az Elméleti mimimum (The Theoretical Mimimum) Leonard Susskind fizikus előadásai a matematikailag nem kezdő érdeklődőknek szólnak, melyek rendkívül népszerűek. Az előadások anyagából készül könyvek magyarul is megjelentek (I. és II.). Mivel a gépi tanulás (meg a deep learning) eszközkészletének egy jelentős része a statisztikus mechanikából jött, ezért nem haszontalan ezt az elméleti minimumot elsajátítani valamennyire.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Nézzünk az adatokba!

2017.09.19. 13:05 Szerző: Zoltán Varjú Címkék: Python machine learning imbalanced-learn Facets

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogy olvas újságot a mesterséges intelligencia és mit lát a képeken? @ Budapest Science Meetup

2017.09.14. 16:46 Szerző: Zoltán Varjú Címkék: meetup tartalomelemzés képfeldolgozás AI lda deep learning lda2vec

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

10 éves a Kereső Világ

2017.09.11. 10:06 Szerző: Zoltán Varjú Címkék: évforduló Precognox Kereső Világ

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

A migráció arcai @ nyest.hu

2017.09.04. 19:39 Szerző: Zoltán Varjú Címkék: tartalomelemzés képfeldolgozás adatvizualizáció AI

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az elméleti minimum...

2017.09.01. 11:50 Szerző: Zoltán Varjú Címkék: statisztika matek könyvajánló logika AI elmefilozófia machine learning

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre