GM Štěpán Žilka: AlphaZero a jeho starší brácha

GM Štěpán Žilka: AlphaZero a jeho starší brácha

Velmistr Štěpán Žilka je znám svou prací se šachovými enginy, o které dost prozradil již v rozhovoru na našem webu. Pro čtenáře šachuj.cz si nyní připravil seriál článků, který Vás nechá nahlédnout pod pokličku jejich myšlení. V prvním díle se přes staršího bratra AlphaGo dostaneme k mediálně nejznámějšímu šachovému enginu AlphaZero.

Menší výlet do Číny

Už mnoho her spatřilo světlo tohoto světa, ale těch, které se vryly do paměti lidí, je už výrazně méně. Jedna, jejíž počátky sahají hluboko do doby před naším letopočtem, je zde s námi už asi 3000 let a jak jistě správně tušíte, jedná se o hru Go.

Od doby, kdy jsem poprvé zapnul šachový engine, jsem pravidelně slýchával, že počítače asi zvládnou porazit hru na 64 polích, ale že plátno 19×19 jim kvůli rychle narůstající složitosti zůstane zapovězené navždy.

Cambridge, UCL, MIT i Harvard

A tak to chodí. Řeč se mluví, pivo teče. Demis Hassabis patřil mezi nejtalentovanější mládežníky ve Velké Británi. Byl hvězdou 64 polí, jeho herní záběr byl ale mnohem širší. Srdce ho ale od samého začátku táhlo úplně jinam. K inteligenci.

Prošel nejprestižnějšími univerzitami světa, aby lépe pochopil, co že to ten náš mozek vlastně dělá. A byl to právě on, kdo nechtěl jen bezradně psát do exponentů čísla, při jejichž čtení by se Francouzům uzloval jazyk. Už nechtěl další žížalu z nul, která na něj bude z papíru cenit své kombinatorické zuby.

AlphaGo a umělá inteligence

Jedná se o projekt, který předcházel tomu šachovému a datuje se na začátek roku 2014. Jednalo se tak trochu o prezentaci společnosti DeepMind směrem k jejich novému investoru – Googlu.

Cílem bylo dosáhnout nemožného, a sice porazit nejsilnějšího hráče světa na 361 polích. Do té doby Go programy sice uměly analyzovat a pomáhat, nic, co by se ale mistru světa byť jen přiblížilo, zatím neexistovalo.

To musí být omyl!

Podívejte se na to nejzajímavější ze dne, kdy Go ovládla umělá inteligence:

V průběhu dvou let práce pokračovaly, nejdříve došlo k předběhnutí tehdejších PC programů, poté k přemožení evropského šampiona Fan Hui, scházely už ale pouhé měsíce do zápasu pravdy – do souboje s Lee Sedolem. Tato verze AlphaGo by ním byla rozdrcena.

V březnu 2016 dochází k dlouho očekávanému zápasu a asi jen samotní tvůrci programu věří, že mají šanci vyhrát. Památný okamžik zápasu, 37. tah druhé partie, je milníkem, kdy dominance lidské kreativity byla poražena vyšší inteligencí. Něčím, co nejsme zvyklí chápat. Čemu nerozumíme.

Ztráta tahu obsazením zcela bezvýznamné lokality, kterou komentátoři nejdříve připisovali chybě v přenosu, začala dávat smysl až o několik hodin později, kdy se jednotlivé armády začaly pomalu potkávat a vliv tohoto malého strategického kopečku začal růst.

AlphaGo v popartiové analýze uvedl, že pravděpodobnost, že by takový tah udělal profesionální hráč, je zhruba jedna ku deseti tisícům. Zápas skončil přesvědčivým vítězstvím umělé inteligence a tak konečně přišel čas kouknout se i na hru králů.

AlphaZero

Zero v názvu zvýrazňuje informaci, kolik vědomostí program dostal do začátku. Nula. Pouze pravidla. Žádná hodnota figur, slabá pole, dvojpěšci ani aktivita. AlphaZero si jako malé dítě hrál sám proti sobě a sem tam, když se mu podařilo zvítězit, všímal si, k čemu v partii došlo. Hledal spojitosti.

A těch spojitostí bylo při tisícovce partií za vteřinu víc a víc. Pomalu si tak tento stroj budoval jednu neurální síť pro výběr tahů kandidátů a druhou pro určení šance na výhru. S každou novou zkušeností si je pak náležitě upravil.

Jeho hodnocení pozice není o tom spočítat materiál, bezpečí krále a mnoho dalších prvků pro jednu vyvolenou pozici na konci šíleného propočtu. Naopak je tvořeno součtem součinů očekávaného skóre a pravděpodobností daných pozic. Je to tipování zastřené v mlze pouze s minimem konkrétní taktiky.

Takové to, když ukončíte propočet, protože máte pět slibných tahů. Prostě jeden z nich musí vyhrát. A vy vůbec dopředu nepotřebujete vědět který! A to samé platí pro soupeřovu obranu. Bojíte se jednoho obranného schématu? Ok. Bojíte se tří? Pak šance, že oběť figury nevyjde, výrazně vzrostla!


Je to štěstí v pozici, když AlphaZero 15 tahů zpátky pozičně obětoval figuru a nyní mu do klína spadne geniální c4 s krytím polí a2, d5 a s potenciálním převodem Vb1-b7? Nebo je to už ta forma vyšší inteligence, která v dýmu pravděpodobností vidí souvislosti zcela mimo naše chápání?

Na závěr se podíváme na rozdíl v myšlení Stockfishe a AlphaZero

Zajímavý „obranný“ manévr jsme mohli vidět v partii, kterou Stockfish celou dobu hodnotil jako zcela vyrovnanou a věřil kombinaci materiálu a hrozeb bílému králi. AlphaZero se však s černým útokem vyrovnal po svém, když ho po 1. Kb1!? Dc7, 2. Se3 bxa3, 3. Ka2!! Ka8, 4. Vb1 Dc8, 4. c3 přetavil v další útočný potenciál a nově otevřený sloupec později uplatnil k výhře partie!

Autor blogu: GM Štěpán Žilka, aplikace Alien Chess

Tags: , , ,

Jedna odpověď

  1. […] Velmistr Štěpán Žilka připravil pro šachuj.cz seriál článků, kterými Vás nechá nahlédnout pod pokličku myšlení šachových enginů. Ve druhém díle se podíváme na jeho oblíbence Leela Chess Zero. První díl o AlphaZero naleznete zde. […]

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.