Dromen Neuronen Van Elektrische Schapen? De Maker Van De Eerste Neurale Netwerken Vertelde Over Hun Evolutie En De Toekomst - Alternatieve Mening

2024 Auteur: Keith Bush | [email protected]. Laatst gewijzigd: 2023-12-16 14:35

Jeffrey Hinton is een co-creator van het concept van deep learning, een 2019 Turing Award-winnaar en een Google-ingenieur. Vorige week, tijdens een I / O-ontwikkelaarsconferentie, interviewde Wired hem en besprak zijn fascinatie voor de hersenen en zijn vermogen om een computer te modelleren op basis van de neurale structuur van de hersenen. Deze ideeën werden lange tijd als maf beschouwd. Een interessant en onderhoudend gesprek over bewustzijn, de toekomstplannen van Hinton en of computers kunnen worden geleerd te dromen.

Wat gebeurt er met neurale netwerken?

Laten we beginnen met de dagen dat u uw allereerste, zeer invloedrijke artikelen schreef. Iedereen zei: "Het is een slim idee, maar we kunnen echt geen computers op deze manier ontwerpen." Leg uit waarom je alleen aandrong en waarom je er zo zeker van was dat je iets belangrijks vond.

Het leek me dat de hersenen op geen enkele andere manier konden werken. Hij moet werken door de sterkte van de verbindingen te bestuderen. En als je een apparaat iets slims wilt laten doen, heb je twee opties: je programmeert het of het leert. En niemand heeft mensen geprogrammeerd, dus we moesten studeren. Deze methode moest kloppen.

Leg uit wat neurale netwerken zijn. Leg het oorspronkelijke concept uit

Je neemt relatief eenvoudige verwerkingselementen die heel vaag op neuronen lijken. Ze hebben inkomende verbindingen, elke verbinding heeft een gewicht, en dit gewicht kan tijdens de training veranderen. Wat het neuron doet, is de acties uitvoeren op de verbindingen vermenigvuldigd met de gewichten, ze optellen en dan beslissen of de gegevens moeten worden verzonden. Als de som groot genoeg wordt getypt, maakt het een uitvoer. Als het bedrag negatief is, wordt er niets verzonden. Dat is alles. Het enige wat je hoeft te doen is een wolk van deze neuronen aan gewichten te koppelen en uit te zoeken hoe je die gewichten kunt veranderen, en dan zullen ze alles doen. De enige vraag is hoe u de gewichten gaat veranderen.

Promotie video:

Wanneer realiseerde u zich dat dit een ruwe weergave is van hoe de hersenen werken?

O ja, alles was oorspronkelijk bedoeld. Ontworpen om op het brein op het werk te lijken.

Dus op een bepaald moment in je carrière begon je te begrijpen hoe de hersenen werken. Misschien was je twaalf jaar oud, misschien vijfentwintig. Wanneer heb je besloten om computers als hersenen te modelleren?

Ja onmiddellijk. Dat was het hele punt. Dit hele idee was om een leerapparaat te maken dat leert zoals de hersenen, volgens de ideeën van mensen over hoe de hersenen leren, door de sterkte van de verbindingen te veranderen. En dat was niet mijn idee, Turing had hetzelfde idee. Hoewel Turing veel van de grondslagen van de standaard computerwetenschap had uitgevonden, geloofde hij dat de hersenen een ongeorganiseerd apparaat waren met willekeurige gewichten en het leren van versterking gebruikte om verbindingen te veranderen, zodat hij alles kon leren. En hij geloofde dat dit de beste weg naar intelligentie is.

En je volgde Turing's idee dat de beste manier om een machine te bouwen, is door hem te ontwerpen zoals het menselijk brein. Dit is hoe het menselijk brein werkt, dus laten we een soortgelijke machine maken

Ja, niet alleen Turing dacht van wel. Velen dachten van wel.

Wanneer kwamen de donkere tijden? Wanneer gebeurde het dat andere mensen die eraan werkten en geloofden dat Turing's idee klopte, zich terugtrokken en jij bleef je lijn buigen?

Er zijn altijd een handjevol mensen geweest die hoe dan ook geloofden, vooral op het gebied van psychologie. Maar onder computerwetenschappers, denk ik in de jaren 90, gebeurde het dat de datasets vrij klein waren, en computers niet zo snel. En met kleine datasets presteerden andere methoden, zoals support vector machines, iets beter. Ze schaamden zich niet zozeer voor het lawaai. Dus het was allemaal triest, want in de jaren 80 ontwikkelden we een backpropagation-methode, die erg belangrijk is voor neurale netwerken. We dachten dat hij alles zou oplossen. En ze waren verbaasd dat hij niets had besloten. De vraag was echt op een schaal, maar toen wisten we het niet.

Waarom dacht je dat het niet werkte?

We dachten dat het niet werkte omdat we niet helemaal correcte algoritmen hadden en niet helemaal correcte objectieve functies. Ik dacht lange tijd dat dit kwam omdat we probeerden om onder toezicht te leren wanneer je de gegevens labelt, en we moesten zonder toezicht leren wanneer er werd geleerd op niet-gelabelde gegevens. Het bleek dat de vraag meestal op een schaal was.

Het is interessant. Het probleem was dus dat u niet genoeg gegevens had. U dacht dat u de juiste hoeveelheid gegevens had, maar u hebt deze onjuist getagd. Dus je hebt het probleem gewoon verkeerd gediagnosticeerd?

Ik dacht dat de fout was dat we überhaupt labels gebruiken. Het grootste deel van uw training vindt plaats zonder labels te gebruiken, u probeert alleen een structuur in de gegevens te modelleren. Ik denk het eigenlijk nog steeds. Ik denk dat aangezien computers sneller worden, als de computer snel genoeg is, het voor elke dataset van een bepaalde grootte beter is om zonder toezicht te trainen. En als u eenmaal leert zonder toezicht, kunt u leren met minder tags.

Dus in de jaren negentig zet je je onderzoek voort, zit je in de academische wereld, publiceer je nog steeds, maar je lost geen grote problemen op. Heb je ooit een moment gehad waarop je zei: "Weet je wat, dat is genoeg. Zal ik proberen iets anders te doen”? Of heb je jezelf net verteld dat je door zou gaan met diep leren [dat wil zeggen, het concept van diep leren, diep leren van neurale netwerken?

Ja. Zoiets zou moeten werken. Ik bedoel, de verbindingen in de hersenen leren op de een of andere manier, we moeten gewoon uitzoeken hoe. En er zijn waarschijnlijk veel verschillende manieren om verbindingen in het leerproces te versterken; de hersenen gebruiken er een van. Er kunnen andere manieren zijn. Maar je hebt zeker iets nodig dat deze verbindingen tijdens het leren kan versterken. Ik heb er nooit aan getwijfeld.

Je hebt er nooit aan getwijfeld. Wanneer leek het alsof het werkte?

Een van de grootste teleurstellingen van de jaren 80 was dat als we netwerken maakten met veel verborgen lagen, we ze niet konden trainen. Dit is niet helemaal waar, omdat je relatief eenvoudige processen zoals handschrift kunt trainen. Maar we wisten niet hoe we de meeste diepe neurale netwerken moesten trainen. En rond 2005 bedacht ik een manier om zonder toezicht diepe netwerken te trainen. Je voert gegevens in, zeg maar pixels, en traint verschillende detaildetectoren, wat zojuist goed heeft uitgelegd waarom de pixels waren zoals ze zijn. Vervolgens geef je deze deeldetectoren de data en train je een andere set deeldetectoren zodat we kunnen uitleggen waarom specifieke deeldetectoren specifieke correlaties hebben. Je blijft laag voor laag trainen. Maar het meest interessante wasdie wiskundig kunnen worden ontleed en bewezen dat elke keer dat u een nieuwe laag traint, u niet noodzakelijk het datamodel zult verbeteren, maar u zult te maken hebben met een reeks van hoe goed uw model is. En dat bereik werd beter met elke toegevoegde laag.

Wat bedoel je met het bereik van hoe goed je model is?

Als u eenmaal het model heeft, kunt u de vraag stellen: "Hoe ongebruikelijk vindt dit model deze gegevens?" Je laat haar de gegevens zien en stelt de vraag: "Vindt u dit allemaal zoals verwacht, of is het ongebruikelijk?" En dit kan worden gemeten. En ik wilde een model krijgen, een goed model dat naar de gegevens kijkt en zegt: “Ja, ja. Ik wist het. Dit is niet verwonderlijk ". Het is altijd erg moeilijk om precies te berekenen hoe ongebruikelijk een model de gegevens zal vinden. Maar je kunt het bereik hiervan berekenen. We kunnen zeggen dat het model deze gegevens minder ongebruikelijk zal vinden. En het zou kunnen worden aangetoond dat naarmate nieuwe lagen worden toegevoegd aan de detaildetectoren, het model wordt gevormd, en met elke laag die wordt toegevoegd terwijl het gegevens vindt, het begrip van hoe ongebruikelijk het de gegevens vindt, beter wordt.

Dus rond 2005 heb je deze wiskundige doorbraak gemaakt. Wanneer begon u de juiste antwoorden te krijgen? Met welke gegevens heb je gewerkt? Uw eerste doorbraak was met spraakgegevens, toch?

Het waren maar handgeschreven nummers. Erg makkelijk. En rond dezelfde tijd begon de ontwikkeling van GPU's (Graphics Processing Units). En mensen die neurale netwerken deden, begonnen in 2007 GPU's te gebruiken. Ik had een heel goede student die GPU's begon te gebruiken om wegen op luchtfoto's te vinden. Hij schreef de code, die vervolgens werd overgenomen door andere studenten die de GPU gebruikten om fonemen in spraak te herkennen. Ze gebruikten dit idee van vóór de training. En toen de pre-training klaar was, hingen ze gewoon de tags er bovenop en gebruikten ze terugpropagatie. Het bleek dat het mogelijk is om een heel diep netwerk te creëren dat eerder op deze manier is getraind. En dan kon backpropagation worden toegepast en het werkte echt. Bij spraakherkenning werkte het prima. In eerste instantie echterhet was niet veel beter.

Was het beter dan in de handel verkrijgbare spraakherkenning? Omzeild door de beste wetenschappelijke artikelen over spraakherkenning?

Op een relatief kleine dataset genaamd TIMIT, was het iets beter dan het beste academische werk. IBM heeft ook veel werk verzet.

Mensen realiseerden zich al snel dat dit alles - aangezien het voorbij de standaardmodellen gaat die al 30 jaar in ontwikkeling waren - prima zou werken als het een beetje werd ontwikkeld. Mijn afgestudeerden gingen naar Microsoft, IBM en Google, en Google creëerde heel snel een werkende spraakherkenner. In 2012 had dit werk, dat al in 2009 was gedaan, Android bereikt. Android is ineens veel beter in spraakherkenning.

Vertel me eens over een moment waarop u, die deze ideeën al 40 jaar hebt bewaard, al 20 jaar over dit onderwerp publiceert, plotseling uw collega's voorbijgaat. Hoe voelt dit?

Nou, in die tijd had ik deze ideeën maar 30 jaar bewaard!

Juist

Er was een groot gevoel dat dit allemaal eindelijk een echt probleem was geworden.

Weet u nog wanneer u voor het eerst de gegevens ontving die dit aangaven?

Niet.

Oke. Je krijgt dus het idee dat dit werkt met spraakherkenning. Wanneer ben je begonnen met het toepassen van neurale netwerken op andere problemen?

In eerste instantie begonnen we ze op allerlei andere problemen toe te passen. George Dahl, met wie we oorspronkelijk aan spraakherkenning werkten, gebruikte ze om te voorspellen of een molecuul ergens aan zou kunnen binden en een goed medicijn zou kunnen worden. En er was een wedstrijd. Hij paste simpelweg onze standaardtechnologie toe, gebouwd voor spraakherkenning, om drugsactiviteit te voorspellen en won de wedstrijd. Het was een teken dat we iets heel veelzijdigs aan het doen zijn. Toen verscheen er een student die zei: 'Weet je, Jeff, dit ding werkt met beeldherkenning, en Fei-Fei Li heeft daarvoor een geschikte dataset gemaakt. Er is een openbare wedstrijd, laten we iets doen."

We kregen resultaten die de standaard computervisie ver overtroffen. Het was 2012.

Dat wil zeggen, op deze drie gebieden blinkt u uit: het modelleren van chemicaliën, spraak, stem. Waar heb je gefaald?

Begrijp je dat tegenslagen tijdelijk zijn?

Welnu, wat scheidt de gebieden waar het allemaal het snelst werkt en de gebieden waar het het langst duurt? Het lijkt erop dat visuele verwerking, spraakherkenning en zoiets als de fundamentele menselijke dingen die we doen met zintuiglijke waarneming worden beschouwd als de eerste barrières die moeten worden overwonnen, toch?

Ja en nee, want er zijn andere dingen die we goed doen - dezelfde motorische vaardigheden. We zijn erg goed in motorbesturing. Onze hersenen zijn hier beslist op toegerust. En pas nu beginnen neurale netwerken hiervoor te concurreren met de beste andere technologieën. Ze zullen uiteindelijk winnen, maar nu beginnen ze net te winnen.

Ik denk dat abstract denken het laatste is dat we leren. Ik denk dat ze een van de laatste dingen zullen zijn die deze neurale netwerken leren doen.

En dus blijf je zeggen dat neurale netwerken uiteindelijk overal zullen zegevieren

Nou, we zijn neurale netwerken. Alles wat we kunnen, kunnen ze.

Dat is waar, maar het menselijk brein is verre van de meest efficiënte computer die ooit is gebouwd

Zeker niet.

Absoluut niet mijn menselijke brein! Is er een manier om machines te modelleren die veel efficiënter zijn dan het menselijk brein?

Filosofisch gezien heb ik er geen bezwaar tegen dat er een totaal andere manier zou kunnen zijn om dit allemaal te doen. Als je met logica begint, de logica probeert te automatiseren, met een of andere fraaie bewering voor stellingen komt, reden, en dan besluit dat je door middel van redenering tot visuele waarneming komt, kan het zijn dat deze benadering zal winnen. Maar nog niet. Ik heb geen filosofisch bezwaar tegen een dergelijke overwinning. We weten gewoon dat de hersenen hiertoe in staat zijn.

Maar er zijn ook dingen die onze hersenen niet goed kunnen. Betekent dit dat neurale netwerken ze ook niet goed zullen kunnen doen?

Misschien wel, ja.

En er is een apart probleem, namelijk dat we niet helemaal begrijpen hoe neurale netwerken werken, toch?

Ja, we begrijpen niet echt hoe ze werken.

We begrijpen niet hoe top-down neurale netwerken werken. Dit is een basiselement van hoe neurale netwerken werken dat we niet begrijpen. Leg dit uit en laat me me dan de volgende vraag stellen: als we weten hoe het allemaal werkt, hoe werkt het dan allemaal?

Als je naar moderne computer vision-systemen kijkt, zijn de meeste meestal toekomstgericht; ze gebruiken geen feedbackverbindingen. En dan is er nog iets anders in moderne computer vision-systemen die erg vatbaar zijn voor vijandige fouten. Je kunt een paar pixels een beetje veranderen, en wat een panda-afbeelding was en er nog steeds precies uitziet als een panda, zal plotseling een struisvogel worden in je begrip van een neuraal netwerk. Het is duidelijk dat de methode om pixels te vervangen zo is uitgedacht dat het neurale netwerk wordt misleid om aan een struisvogel te denken. Maar het punt is dat het nog steeds een panda voor jou is.

In eerste instantie dachten we dat het allemaal prima werkte. Maar toen ze geconfronteerd werden met het feit dat ze naar een panda keken en zeker wisten dat het een struisvogel was, maakten we ons zorgen. En ik denk dat een deel van het probleem is dat ze niet proberen te reconstrueren op basis van standpunten op hoog niveau. Ze proberen geïsoleerd te leren, waar alleen de lagen van detaildetectoren leren, en het hele doel is om de gewichten te veranderen om beter te worden in het vinden van het juiste antwoord. We hebben onlangs ontdekt, of Nick Frost ontdekte, in Toronto, dat het toevoegen van reconstructie de tegenstand vergroot. Ik denk dat in de menselijke visie reconstructie wordt gebruikt om te leren. En omdat we zoveel leren tijdens de wederopbouw, zijn we veel beter bestand tegen vijandige aanvallen.

U gelooft dat stroomafwaartse communicatie in een neuraal netwerk u in staat stelt te testen hoe iets wordt gereconstrueerd. Je controleert het en zorgt ervoor dat het een panda is, geen struisvogel

Ik denk dat dit belangrijk is, ja.

Maar hersenwetenschappers zijn het hier niet helemaal mee eens?

Hersenwetenschappers beweren niet dat als je twee gebieden van de cortex op het pad van waarneming hebt, er altijd omgekeerde verbindingen zullen zijn. Ze maken ruzie met waar het voor is. Het kan nodig zijn voor aandacht, om te leren of voor wederopbouw. Of voor alle drie.

En dus weten we niet wat feedback is. Bouw je je nieuwe neurale netwerken, uitgaande van de aanname dat … nee, zelfs niet - je bouwt feedback op, omdat het nodig is voor reconstructie in je neurale netwerken, hoewel je niet eens echt begrijpt hoe de hersenen werken?

Ja.

Is dit geen gimmick? Dat wil zeggen, als u iets als een brein probeert te doen, maar u weet niet zeker of het brein het doet?

Niet echt. Ik ben niet in computationele neurowetenschappen. Ik probeer niet te modelleren hoe de hersenen werken. Ik kijk naar de hersenen en zeg: "Het werkt, en als we iets anders willen doen dat werkt, moeten we kijken en erdoor geïnspireerd worden." We zijn geïnspireerd door neuronen, niet door een neuraal model te bouwen. Het hele model van neuronen dat we gebruiken, is dus geïnspireerd door het feit dat neuronen veel verbindingen hebben en dat ze van gewicht veranderen.

Het is interessant. Als ik een computerwetenschapper was die aan neurale netwerken werkte en Jeff Hinton wilde omzeilen, zou een optie zijn om neerwaartse communicatie op te bouwen en deze te baseren op andere modellen van hersenwetenschap. Gebaseerd op training, niet op reconstructie

Als er betere modellen waren geweest, had je gewonnen. Ja.

Het is heel erg interessant. Laten we een algemener onderwerp bespreken. Neurale netwerken kunnen dus alle mogelijke problemen oplossen. Zijn er raadsels in het menselijk brein die neurale netwerken niet kunnen of willen behandelen? Emoties bijvoorbeeld

Niet.

Dus liefde kan worden gereconstrueerd met een neuraal netwerk? Bewustzijn kan worden gereconstrueerd?

Absoluut. Als je eenmaal weet wat deze dingen betekenen. We zijn toch neurale netwerken? Bewustzijn is een bijzonder interessant onderwerp voor mij. Maar … mensen weten niet echt wat ze met dit woord bedoelen. Er zijn veel verschillende definities. En ik denk dat dat een behoorlijk wetenschappelijke term is. Daarom, als je 100 jaar geleden mensen vroeg: wat is het leven? Ze zouden antwoorden: “Wel, levende wezens hebben levenskracht, en als ze sterven, verlaat de levenskracht hen. Dit is het verschil tussen de levenden en de doden, of je hebt de vitaliteit of niet. Nu we geen levenskracht hebben, denken we dat dit concept vóór de wetenschap kwam. En als je eenmaal een beetje begint te begrijpen van biochemie en moleculaire biologie, heb je geen levenskracht meer nodig, je zult begrijpen hoe het allemaal echt werkt. En hetzelfde, denk ik, zal gebeuren met bewustzijn. I denk,dat bewustzijn is een poging om mentale verschijnselen te verklaren met behulp van een entiteit. En deze essentie is niet nodig. Als je het eenmaal kunt uitleggen, kun je uitleggen hoe we alles doen wat mensen tot bewuste wezens maakt, de verschillende betekenissen van bewustzijn uitleggen zonder speciale entiteiten erbij te betrekken.

Het blijkt dat er geen emoties zijn die niet kunnen worden gecreëerd? Is er geen gedachte die niet kan worden gecreëerd? Er is niets waar de menselijke geest toe in staat is dat theoretisch niet kan worden nagebootst door een volledig functionerend neuraal netwerk als we eenmaal begrijpen hoe de hersenen werken?

John Lennon zong iets soortgelijks in een van zijn liedjes.

Weet u dit 100% zeker?

Nee, ik ben Bayesiaan, dus ik weet het 99,9% zeker.

Oké, wat is dan 0,01%?

We zouden bijvoorbeeld allemaal deel kunnen uitmaken van een grotere simulatie.

Eerlijk genoeg. Dus wat leren we over de hersenen van ons werk op computers?

Welnu, ik denk dat van wat we de afgelopen 10 jaar hebben geleerd, het interessant is dat als je een systeem neemt met miljarden parameters en een objectieve functie - bijvoorbeeld om een leemte in een regel woorden op te vullen - het beter werkt dan zou moeten. Het werkt veel beter dan je zou verwachten. Je zou denken, en veel mensen in traditioneel AI-onderzoek zouden denken dat je een systeem met een miljard parameters kunt nemen, het op willekeurige waarden kunt uitvoeren, de gradiënt van de doelfunctie kunt meten en het vervolgens kunt aanpassen om de doelfunctie te verbeteren. Je zou kunnen denken dat een hopeloos algoritme onvermijdelijk vastloopt. Maar nee, het blijkt dat dit een heel goed algoritme is. En hoe groter de schaal, hoe beter het werkt. En deze ontdekking was in wezen empirisch. Er zat natuurlijk een theorie achter, maar de ontdekking was empirisch. En nu,aangezien we dit hebben gevonden, lijkt het waarschijnlijker dat de hersenen de gradiënt van een objectieve functie berekenen en de gewichten en sterkte van de synaptische verbinding bijwerken om deze gradiënt bij te houden. We moeten gewoon uitzoeken wat deze doelfunctie is en hoe deze erger wordt.

Maar we begrepen dit niet met het voorbeeld van de hersenen? Begrijp je de balansupdate niet?

Het was theorie. Lang geleden dachten mensen dat het mogelijk was. Maar op de achtergrond waren er altijd een paar computerwetenschappers die zeiden: "Ja, maar het idee dat alles willekeurig is en dat leren het gevolg is van gradiëntafdaling zal niet werken met een miljard parameters, je moet veel kennis verbinden." We weten nu dat dit niet het geval is. U kunt gewoon willekeurige parameters invoeren en alles leren.

Laten we een beetje dieper duiken. Naarmate we meer en meer leren, zullen we vermoedelijk steeds meer leren over hoe het menselijk brein werkt, terwijl we massale tests van modellen uitvoeren op basis van ons begrip van de hersenfunctie. Als we dit allemaal beter begrijpen, komt er dan een moment waarop we onze hersenen in wezen opnieuw bedraden om veel efficiëntere machines te worden?

Als we echt begrijpen wat er aan de hand is, kunnen we sommige dingen verbeteren, zoals onderwijs. En ik denk dat we zullen verbeteren. Het zou heel vreemd zijn om eindelijk te begrijpen wat er in je hersenen gebeurt, hoe het leert, en je niet aan te passen om beter te leren.

Hoe denk je dat we over een paar jaar wat we hebben geleerd over de hersenen en hoe diep leren werkt, zullen gebruiken om het onderwijs te transformeren? Hoe zou je de klassen veranderen?

Ik weet niet zeker of we over een paar jaar veel zullen leren. Ik denk dat het langer zal duren om van onderwijs te veranderen. Maar daarover gesproken, [digitale] assistenten worden behoorlijk slim. En als assistenten gesprekken kunnen begrijpen, kunnen ze met kinderen praten en hen opvoeden.

En in theorie, als we de hersenen beter begrijpen, kunnen we helpers programmeren om beter met kinderen te praten, op basis van wat ze al hebben geleerd

Ja, maar ik heb er niet veel over nagedacht. Ik doe iets anders. Maar dit lijkt allemaal behoorlijk op de waarheid.

Kunnen we begrijpen hoe dromen werken?

Ja, ik ben erg geïnteresseerd in dromen. Ik ben zo geïnteresseerd dat ik minstens vier verschillende droomtheorieën heb.

Vertel ons over hen - over de eerste, tweede, derde, vierde

Lang geleden was er zoiets als Hopfield-netwerken, en ze bestudeerden herinneringen als lokale attractors. Hopfield ontdekte dat als je te veel herinneringen probeert op te slaan, ze in de war raken. Ze nemen twee lokale attractors en combineren die tot één attractor ergens halverwege.

Toen kwamen Francis Crick en Graham Mitchison en zeiden dat we van deze valse dieptepunten af kunnen komen door te leren (dat wil zeggen, te vergeten wat we hebben geleerd). We schakelen de gegevensinvoer uit, plaatsen het neurale netwerk in een willekeurige toestand, laten het kalmeren, zeggen dat het slecht is, veranderen de verbindingen zodat het niet in deze toestand terechtkomt, en zo kunnen we het netwerk meer herinneringen laten opslaan.

Toen kwamen Terry Seinowski en ik binnen en zeiden: "Kijk, als we niet alleen de neuronen hebben die herinneringen opslaan, maar een aantal andere neuronen, kunnen we dan een algoritme vinden dat al deze andere neuronen gebruikt om herinneringen op te roepen?" … Als resultaat hebben we een Boltzmann-algoritme voor machine learning ontwikkeld. En het algoritme voor machine learning van Boltzmann had een buitengewoon interessante eigenschap: ik toon de gegevens en het gaat min of meer door de rest van de eenheden totdat het in een zeer gelukkige toestand komt, en daarna vergroot het de sterkte van alle verbindingen, gebaseerd op het feit dat twee eenheden tegelijkertijd actief zijn.

Je zou ook een fase moeten hebben waarin je de invoer uitschakelt, het algoritme laat 'ritselen' en hem in een staat brengt waarin hij gelukkig is, zodat hij fantaseert, en zodra hij een fantasie heeft, zeg je: 'Neem alle paren neuronen die actief zijn en de sterkte van de verbindingen verminderen."

Ik leg het algoritme aan je uit als een procedure. Maar in werkelijkheid is dit algoritme het product van wiskunde en de vraag: "Hoe moet je deze ketens van verbindingen veranderen zodat dit neurale netwerk met al deze verborgen data-eenheden niet verrassend lijkt?" En er zou ook een andere fase moeten zijn, die we de negatieve fase noemen, wanneer het netwerk werkt zonder gegevensinvoer en afleert, ongeacht in welke toestand je het hebt geplaatst.

We dromen elke nacht vele uren. En als je plotseling wakker wordt, kun je zeggen dat je net hebt gedroomd, omdat de droom is opgeslagen in een kortetermijngeheugen. We weten dat we dromen vele uren zien, maar 's morgens, na het ontwaken, kunnen we ons alleen de laatste droom herinneren, en we herinneren ons de andere niet, wat erg succesvol is, omdat je ze voor realiteit zou kunnen aanzien. Dus waarom herinneren we ons onze dromen helemaal niet? Volgens Crick is dit de betekenis van dromen: deze dingen afleren. Je leert een beetje andersom.

Terry Seinovski en ik hebben laten zien dat dit eigenlijk de leerprocedure met maximale waarschijnlijkheid is voor Boltzmann-machines. Dit is de eerste theorie over dromen.

Ik wil verder gaan met je andere theorieën. Maar mijn vraag is: heb je een van je deep learning-algoritmen kunnen trainen om echt te dromen?

Enkele van de eerste algoritmen die konden leren werken met verborgen eenheden waren Boltzmann-machines. Ze waren buitengewoon ineffectief. Maar later vond ik een manier om met benaderingen te werken, wat efficiënt bleek te zijn. En dat diende eigenlijk als aanzet voor de hervatting van het werk met deep learning. Dit waren dingen die één laag kenmerkdetectoren tegelijk trainden. En dat was een effectieve vorm van Boltzmann's beperkende machine. En dus deed ze dit soort omgekeerd leren. Maar in plaats van in slaap te vallen, kon ze na elke gegevensmarkering gewoon een beetje fantaseren.

Oké, androïden dromen eigenlijk over elektrische schapen. Laten we verder gaan met theorieën twee, drie en vier

Theorie twee werd het Wake Sleep-algoritme genoemd. Je moet een generatief model trainen. En je hebt een idee om een model te maken dat gegevens kan genereren, lagen met kenmerkdetectoren heeft en de hogere en lagere lagen activeert, enzovoort, tot aan de activering van pixels - in wezen een afbeelding creëren. Maar je zou haar iets anders willen leren. U wilt dat het de gegevens herkent.

En dus moet je een algoritme maken met twee fasen. In de ontwakingsfase komen de gegevens binnen, hij probeert ze te herkennen, en in plaats van de verbindingen te bestuderen die hij gebruikt voor herkenning, bestudeert hij de generatieve verbindingen. De gegevens komen binnen, ik activeer de verborgen eenheden. En dan probeer ik deze verborgen eenheden te leren deze gegevens te herstellen. Hij leert in elke laag te reconstrueren. Maar de vraag is: hoe leer je directe verbanden? Dus het idee is dat als je directe verbindingen kende, je omgekeerde verbindingen zou kunnen leren, omdat je zou kunnen leren reverse-engineeren.

Nu blijkt ook dat als je reverse joins gebruikt, je ook direct joins kunt leren, want je kunt gewoon bovenaan beginnen en wat data genereren. En aangezien u gegevens genereert, kent u de toestanden van alle verborgen lagen en kunt u directe verbindingen bestuderen om die toestanden te herstellen. En dit is wat er gebeurt: als je begint met willekeurige verbindingen en beide fasen afwisselend probeert te gebruiken, zal je slagen. Om het goed te laten werken, moet je verschillende opties proberen, maar het zal werken.

Oké, dus hoe zit het met de andere twee theorieën? We hebben nog maar acht minuten, ik denk dat ik geen tijd zal hebben om alles te vragen

Geef me nog een uur en ik vertel je over de andere twee.

Laten we praten over wat er komt. Waar gaat je onderzoek naartoe? Welke problemen probeer je nu op te lossen?

Uiteindelijk zul je aan iets moeten werken dat het werk nog niet af is. Ik denk dat ik misschien aan iets werk dat ik nooit zal afmaken - capsules genaamd, een theorie over hoe visuele waarneming wordt gedaan door middel van reconstructie en hoe informatie naar de juiste plaatsen wordt geleid. De twee belangrijkste motiverende factoren waren dat in standaard neurale netwerken informatie, activiteit in een laag eenvoudigweg automatisch ergens naartoe wordt gestuurd, en dat je geen beslissing neemt over waar je het naartoe wilt sturen. Het idee achter de capsules was om beslissingen te nemen over waar informatie naartoe gestuurd moest worden.

Nu ik aan capsules begon te werken, hebben hele slimme mensen bij Google transformatoren uitgevonden die hetzelfde doen. Ze beslissen waar ze de informatie naartoe sturen, en dat is een grote overwinning.

We komen volgend jaar terug om te praten over droomtheorieën nummer drie en nummer vier.

Ilya Khel