Vedci Vytvorili AI Samoučiaceho Sa Hráča, Ktorý Dokáže Hrať Všetky Hry - Alternatívny Pohľad

Obsah:

Vedci Vytvorili AI Samoučiaceho Sa Hráča, Ktorý Dokáže Hrať Všetky Hry - Alternatívny Pohľad
Vedci Vytvorili AI Samoučiaceho Sa Hráča, Ktorý Dokáže Hrať Všetky Hry - Alternatívny Pohľad

Video: Vedci Vytvorili AI Samoučiaceho Sa Hráča, Ktorý Dokáže Hrať Všetky Hry - Alternatívny Pohľad

Video: Vedci Vytvorili AI Samoučiaceho Sa Hráča, Ktorý Dokáže Hrať Všetky Hry - Alternatívny Pohľad
Video: Half-life 1 - Multiplayer - Part 2 - Dvaja múdry vedci zničily svet.... 2024, Marec
Anonim

Vývojári revolučného samoučiaceho sa systému umelej inteligencie AlphaGo Zero oznámili vytvorenie novej verzie tohto stroja, ktorý sa dokáže samostatne naučiť hrať akúkoľvek doskovú hru a poraziť človeka. Jeho popis bol uvedený v časopise Science.

Hĺbky mysle

Systém AI AlphaGo bol vyvinutý Davidom Silverom a jeho kolegami koncom roka 2014 a jeho práca bola „testovaná“na európskeho majstra Fan Huiho, ktorý stratil všetkých päť zápasov s autom. V marci 2016 AlphaGo porazil majstra sveta Go Leeho Sedola v sérii piatich zápasov, z ktorých iba jedno skončilo ľudským víťazstvom.

Silver a jeho kolegovia boli schopní dosiahnuť tieto úspechy budovaním ich AI na základe nie jednej, ale dvoch neurónových sietí naraz - špeciálnych algoritmov, ktoré napodobňujú prácu reťazcov neurónov v ľudskom mozgu. Jeden z nich je zodpovedný za vyhodnotenie aktuálnej pozície vo výbore a druhý využíva výsledky analýzy pripravené prvou sieťou, aby vybral ďalší krok.

Ďalším logickým krokom vo vývoji AlphaGo bolo odstránenie hlavnej nevýhody všetkých existujúcich neurónových sietí a systémov umelej inteligencie - potreba ich naučiť, čo majú robiť, pomocou obrovských archívov údajov, ktoré osoba manuálne spracuje alebo s priamou účasťou osoby, ako sa to stalo v prvých fázach. vývoj AlphaGo.

Silver a jeho tím vyriešili tento problém vytvorením úplne novej neurónovej siete založenej na tzv. Algoritmoch výučby zosilnenia. Táto neurónová sieť, na rozdiel od svojho hviezdneho predchodcu, ktorý bol pôvodne trénovaný v hrách s dobrovoľníkmi a mal vstavané primitívne herné stratégie, začala svoju prácu ako absolútny začiatočník s nulovou znalostnou základňou.

Inými slovami, poznala iba pravidlá hry Go, počiatočné podmienky a podmienky víťazstva, a potom sa počítač nezávisle naučila hrať túto starodávnu čínsku stratégiu, hrať sama so sebou a konať podľa pokusu a omylu. Jediným obmedzením v jej práci bol maximálny čas na premýšľanie - to bolo asi 0,4 sekundy.

Propagačné video:

Po každej takejto hre systém AI analyzoval všetky svoje pohyby a zapamätal si tie, ktoré priniesli jednu z jej „polovíc“bližšie k víťazstvu, a vstúpil do akejsi „čiernej listiny“tie kroky, ktoré úprimne strácajú. Pomocou týchto údajov sa neurónová sieť sama prebudovala a postupne dosiahla úroveň, ktorú dosiahla prvá verzia AlphaGo pred sérií hier s Lee Sedol.

Prechod na samoučiace sa algoritmy umožnil AlphaGo Zero nielen prekonať svojho predchodcu a poraziť ho 100-0, ale tiež vylepšil mnoho ďalších aspektov svojej práce. Konkrétne, proces jeho výcviku trval iba tri dni a asi päť miliónov hier, čo bolo o poriadok menej ako požiadavky prvej verzie AI.

Cesta k dokonalosti

Úspešné ukončenie experimentov s AlphaGo Zero viedlo Silvera a jeho tím k zváženiu, či by podobná neurónová sieť mohla byť použitá na získanie koruny šampióna v iných typoch strategických a stolových hier.

Za týmto účelom vedci do AlphaGo Zero zabudovali ďalší nový prvok - heuristické algoritmy pre náhodné hľadanie riešení, ako aj kód, ktorý zohľadňoval existenciu remízy v niektorých hrách. Okrem toho nová verzia alfa neustále zlepšovala svoju štruktúru, skôr ako sa aktualizovala v etapách ako jeho predchodca.

Tieto relatívne jednoduché zmeny, ako ukázali ďalšie experimenty, významne zvýšili rýchlosť samoučenia sa tohto systému umelej inteligencie a zmenili ho na univerzálny stroj schopný hrať všetky typy stolových stratégií.

Vedci vyskúšali svoju prácu na troch druhoch hier - go, obyčajné šachy a ich japonská rozmanitosť, shogi. Vo všetkých troch prípadoch Silverov nový intelektuál dosiahol úroveň veľmajstra za menej ako milión hier, čím dosiahol takmer ľudskú selektivitu pri výbere možných ťahov iba za 9 - 12 hodín výcviku pre šachy a 13 dní za sebou.

Predtým porazila najnáročnejšie počítačové programy, ktoré hrajú tieto hry - Stockfishov algoritmus sa vzdal na štvrtú hodinu tréningu AlphaZero, zatiaľ čo Elmo, súčasný majster v šógi, trval iba dve hodiny. Nakoniec sa prvá verzia AlphaGo začala vzdávať svojmu „vnukovi“asi 30 hodín svojho výcviku.

Vedci poznamenali, že ďalšími „obeťami“AlphaZero môžu byť „skutočné“počítačové hry, ako sú Starcraft II a Dota 2. Ak sa majstrovstvá v týchto disciplínach esportu stanú podľa ich názoru otvorenou cestou samoučiacej sa AI preniknúť do menej formalizovaných oblastí vedy a kultúry. a technológie.