Az 1997-es év egy fontos időpont a sakk történetében, ekkor győzte le először egy computer – az IBM Deep Blue - az uralkodó sakkvilágbajnokot, Garri Kaszparov-ot.
Húsz évvel később a Google - Alpha Zero nevű tanuló algoritmusa csupán 4 óra tanulás után már megverte a 2016-os év legjobb sakkgépének kikiáltott Stockfish 8-at egy 100 játszmából álló játékban, mindezt úgy, hogy 28 győzelem mellett 72 döntetlent ért el. Az előre megadott szabály szerint 3-4 ismétlődő (mindkét gép részéről azonos, oda-vissza történő lépés) után automatikus döntetlen következik.
Hogyan történhetett meg mindez?
Míg a korábbi gépek számítási tudásuk – körülbelül 200 millió pozíció számítása alig 1 másodperc alatt – miatt voltak kimagasló eredményre képesek az emberek ellen, addig a modern gépek már mély neurális hálóra épülő – az emberi agy működését mintázó – algoritmusok.
Matthew Lai Imperial College London-on végzett munkája által kifejlesztett Giraffe elnevezésű mesterséges intelligenciája például képes saját magát tanítani mégpedig oly módon, hogy a különböző állásokat az emberhez hasonló módon értékeli, különbözve ezzel az eddigi sakkgépektől.
A Giraffe technikai hátterét biztosító neurális hálózat olyan színvonalú játékra képes, mint a korábban évekig tartó finomhangolást igénylő gépek. A több rétegből álló idegi háló hangolása-tanítása számos példával – álláshelyzettel – történik.
A neurális hálók térnyerése egyrészről a tanulási folyamat jobb megértése általi precízebb finomhangolásnak, másrészről a tanításhoz rendelkezésre álló hatalmas annotált adathalmaznak köszönhető.
Lehetővé vált, hogy az un. mély neurális hálók ma már jobban teljesítsenek mintafelismerésben (például arc- és kézírás felismerés) mint az emberek. Nem is csoda, hogy a minták beazonosítása által képesek legyőzni az embert egy olyan bonyolult gondolkodásmódot igénylő játékban is, mint a sakk.
A Lai által alkotott háló 4 rétegű és minden helyzetet 3 különböző módon vizsgál meg. A teljes kép (globális állapot – a bábuk típusa és mennyisége a két oldalon, a mozgási lehetőségek) mellett vizsgálja azok helyzetét, illetve a pozíciókat, melyeket a bábuk támadnak avagy védenek.
A gép kimondottan életszerű sakkállásokkal lett trenírozva, így pontosabban és célratörőbben képes a következő lépést meghatározni. Természetesen a profi sakkvilágban ritkán fordulnak elő nagyon egyenlőtlen állások, de ezen szituációk (adathalmazok) megadása a gép számára szintén relevánsak, hiszen a tanulási folyamat alatt ilyen helyzetek is előfordulhatnak.
A neurális háló finomhangolásához irdatlan méretű adatbázisra volt szükség, Lai ezt 5 millió véletlenszerűen kiválasztott helyzetből állította össze és az ezekhez szintén véletlenszerűen hozzáadott lépésekkel összesen 175 millió pozíciót kreált. Ekkora adatbázisból már egy hagyományos sakkgép is sikereket ért volna el, de Lai célja az volt, hogy gépe magától tanuljon. A gép önmaga ellen játszott azzal a céllal, hogy minél jobban megtanulja kiértékelni a jövőbeni állásokat. Ez igen jól működött, hiszen a sakkban vannak jól körülhatárolható referenciapontok, melyek meghatározzák egy állás értékét, annak függvényében, hogy az adott helyzet a játék megnyeréséhez, elvesztéséhez vagy döntetlenhez vezet. Így a gép megtanulja, hogy mely pozíciók gyengék, illetve erősek.
Az eredmény
Az elérhető 15.000 pontból a Giraffe már rövid időn belül 6.000 pontot ért el, 72 óra elteltével pedig 9.700-at, mely az addig legerősebb sakkgép eredményével vetekedett. Ez azért volt hihetetlen, mert ilyen eredményt korábban kizárólag a gépek évekig tartó manuális és automatikus hangolásával lehetett elérni.
A Giraffe egyetlen hátránya, hogy a neurális hálónak nagyjából tízszer tovább tart az adatfeldolgozás, mint egy hagyományos sakkgépnek.
Azonban a Giraffe nem attól válik különlegessé, hogy számtalan jövőbeni lépést és helyzetet tud analizálni, hanem attól, hogy trükkös helyzeteket is az embertől elvárható intuitív módon képes értékelni. Ilyen helyzetek általában a nyitólépések, illetve a végjáték, melyben a Giraffe kimagaslóan teljesít.
Ekkor 2015-öt írtunk. És 2017-ben jött az Alpha Zero:
A mesterséges intelligencia kutatásával foglalkozó Deepmind által megalkotott algoritmus 24 órán belül szintén legyőzte a Stockfish világbajnok programot. Az Alpha Zero új korszakot nyit a sakkgépek világában. Arról, hogyan nyit az Alpha Zero, a Sakkvilág oldalán bővebben elolvasható.
Sakk-matt?
A neurális hálót alkalmazó, új generációjú sakkgépek teljes mértékben megreformálhatják a sakkot és a sakkjátszmák menetéről eddig alkotott elképzeléseket. E módon tanulhat az ember a saját maga által alkotott mesterséges intelligenciától. Így lesz egy sakk-matt helyzetből egy win-win szituáció.
Érdekes videók a témáról:
AlphaZero vs. Stockfish
Alpha Zero és a francia védelem
Források:
https://www.technologyreview.com/s/541276/deep-learning-machine-teaches-itself-chess-in-72-hours-plays-at-international-master/
http://sakkvilag.hu/uj-hireink/Az_Alpha_Zero_megnyitastanulasanak_rejtelmei
https://en.wikipedia.org/wiki/AlphaZero
Képek:
Pixabay