Wetenschappers Hebben Een Zelflerende AI Ontwikkeld Die Alle Games Kan Spelen - Alternatieve Mening

Inhoudsopgave:

Wetenschappers Hebben Een Zelflerende AI Ontwikkeld Die Alle Games Kan Spelen - Alternatieve Mening
Wetenschappers Hebben Een Zelflerende AI Ontwikkeld Die Alle Games Kan Spelen - Alternatieve Mening

Video: Wetenschappers Hebben Een Zelflerende AI Ontwikkeld Die Alle Games Kan Spelen - Alternatieve Mening

Video: Wetenschappers Hebben Een Zelflerende AI Ontwikkeld Die Alle Games Kan Spelen - Alternatieve Mening
Video: AI | Hoe werkt zelflerende kunstmatige intelligentie? 2024, April
Anonim

De ontwikkelaars van het revolutionaire zelflerende kunstmatige intelligentiesysteem AlphaGo Zero hebben de creatie aangekondigd van een nieuwe versie van deze machine, die zelfstandig elk bordspel kan leren spelen en een persoon kan verslaan. De beschrijving ervan werd gepresenteerd in het tijdschrift Science.

Diepten van de geest

Het AI-systeem AlphaGo werd eind 2014 ontwikkeld door David Silver en zijn collega's en zijn werk werd "getest" op Europees kampioen Fan Hui, die alle vijf de wedstrijden van de auto verloor. In maart 2016 versloeg AlphaGo Go Wereldkampioen Lee Sedol in een reeks van vijf wedstrijden, waarvan er slechts één eindigde in een menselijke overwinning.

Silver en zijn collega's waren in staat om deze successen te behalen door hun AI te bouwen op basis van niet één, maar twee neurale netwerken tegelijk - speciale algoritmen die het werk van ketens van neuronen in het menselijk brein nabootsen. Een van hen is verantwoordelijk voor het evalueren van de huidige positie op het bord, en de tweede gebruikt de analyseresultaten van het eerste netwerk om de volgende stap te kiezen.

De volgende logische stap in de ontwikkeling van AlphaGo was het wegnemen van het belangrijkste nadeel van alle bestaande neurale netwerken en kunstmatige-intelligentiesystemen - de noodzaak om ze te leren wat ze moeten doen met behulp van enorme gegevensarchieven die handmatig door een persoon worden verwerkt of met de directe deelname van een persoon, zoals gebeurde in de eerste fasen. ontwikkeling van AlphaGo.

Silver en zijn team hebben dit probleem opgelost door een fundamenteel nieuw neuraal netwerk te creëren op basis van de zogenaamde versterkende leeralgoritmen. Dit neurale netwerk, in tegenstelling tot zijn geweldige voorganger, die oorspronkelijk was getraind in games met vrijwilligers en een aantal ingebouwde primitieve spelstrategieën had, begon zijn werk als een absolute beginner zonder kennisbasis.

Met andere woorden, ze kende alleen de regels van het Go-spel, de beginvoorwaarden en de overwinningsvoorwaarden, en daarna leerde de computer zelfstandig deze oude Chinese strategie spelen, met zichzelf spelen en met vallen en opstaan handelen. De enige beperking in haar werk was de maximale tijd om na te denken over de verhuizing - het was ongeveer 0,4 seconden.

Promotie video:

Na elk van deze spellen analyseerde het AI-systeem al zijn zetten en herinnerde het zich degene die een van zijn "helften" dichter bij de overwinning brachten, en ging het in een soort "zwarte lijst" die stappen die eerlijk gezegd verloren gingen. Met behulp van deze gegevens herbouwde het neurale netwerk zichzelf en bereikte het geleidelijk het niveau dat de eerste versie van AlphaGo bereikte vóór de reeks games met Lee Sedol.

De verschuiving naar zelflerende algoritmen stelde AlphaGo Zero niet alleen in staat om het niveau van zijn voorganger te overtreffen en te verslaan met een score van 100-0, maar verbeterde ook vele andere aspecten van zijn werk. In het bijzonder duurde het trainingsproces slechts drie dagen en ongeveer vijf miljoen spellen, wat een orde van grootte minder was dan de verzoeken van de eerste versie van AI.

De weg naar uitmuntendheid

De succesvolle afronding van experimenten met AlphaGo Zero bracht Silver en zijn team ertoe te overwegen of een vergelijkbaar neuraal netwerk zou kunnen worden gebruikt om de kroon van de kampioen te winnen in andere soorten strategie- en bordspellen.

Om dit te doen, hebben de wetenschappers nog een nieuw element in AlphaGo Zero ingebouwd: heuristische algoritmen voor willekeurig zoeken naar oplossingen, evenals code die rekening houdt met het bestaan van een gelijkspel in sommige games. Bovendien verbeterde de nieuwe versie van de alpha voortdurend zijn structuur, in plaats van in fasen te worden bijgewerkt zoals zijn voorganger.

Deze relatief eenvoudige veranderingen, zoals uit verdere experimenten bleek, verhoogden de snelheid van het zelfleren van dit kunstmatige intelligentiesysteem aanzienlijk en maakten het tot een universele machine die in staat was om allerlei bordstrategieën te spelen.

Wetenschappers hebben zijn werk getest op drie soorten spellen: go, gewoon schaken en hun Japanse variant, shogi. In alle drie de gevallen bereikte het nieuwe geesteskind van Silver het niveau van een grootmeester in minder dan een miljoen spellen, waarbij het bijna menselijke selectiviteit bereikte in de keuze van mogelijke zetten in slechts 9-12 uur training voor schaken en 13 dagen voor go.

Eerder versloeg ze de meest geavanceerde computerprogramma's die deze spellen spelen - Stockfish's algoritme gaf het vierde uur van AlphaZero-training op, terwijl Elmo, de huidige kampioen in shogi, slechts twee uur duurde. Uiteindelijk begon de eerste versie van AlphaGo na ongeveer 30 uur training te bezwijken voor zijn "kleinzoon".

De volgende 'slachtoffers' van AlphaZero, zoals wetenschappers opmerkten, kunnen 'echte' computerspellen zijn, zoals Starcraft II en Dota 2. Het behalen van het kampioenschap in dergelijke esports-disciplines zal naar hun mening de weg openen voor zelflerende AI om door te dringen in minder geformaliseerde gebieden van wetenschap en cultuur en technologie.

Aanbevolen: