Neurale Netwerken Hebben Geleerd Om Gedachten In Realtime Te Lezen. Wat? Niet! - Alternatieve Mening

Neurale Netwerken Hebben Geleerd Om Gedachten In Realtime Te Lezen. Wat? Niet! - Alternatieve Mening
Neurale Netwerken Hebben Geleerd Om Gedachten In Realtime Te Lezen. Wat? Niet! - Alternatieve Mening

Video: Neurale Netwerken Hebben Geleerd Om Gedachten In Realtime Te Lezen. Wat? Niet! - Alternatieve Mening

Video: Neurale Netwerken Hebben Geleerd Om Gedachten In Realtime Te Lezen. Wat? Niet! - Alternatieve Mening
Video: Neurale Netwerken 2024, Mei
Anonim

Een paar dagen geleden publiceerde de preprintportal bioRxiv.org het werk van Russische onderzoekers van het Moscow Institute of Physics and Technology en de bedrijven Neurobotics and Neuroassistive Technologies, die zich bezighouden met het creëren van neurocomputerinterfaces. De paper stelt dat wetenschappers en ontwikkelaars erin zijn geslaagd om een algoritme in realtime te leren om een video te reconstrueren die door een persoon wordt bekeken met behulp van EEG-signalen. Klinkt echt gaaf en interessant - bijna als gedachtenlezen. In feite is alles natuurlijk niet zo eenvoudig: computers hebben niet geleerd gedachten te lezen. Kortom, de computer leerde van de EEG-opname om te bepalen welk beeld van vijf verschillende eerder bekende klassen de proefpersoon zag. Over hoe het experiment werd gebouwd, welke taken de wetenschappers hebben gesteld en waarom het onwaarschijnlijk is dat gedachtenlezen in de nabije toekomst zal worden gerealiseerd, vertellen we in onze blog.

Image
Image

Over het algemeen lijkt het idee om het elektrische signaal van de hersenen te lezen en te ontcijferen, zodat je kunt zien wat een persoon op een bepaald moment denkt of doet, gezien het tempo van de huidige technologische vooruitgang, niet zo moeilijk. Hier is een signaal, en hier is wat dit signaal betekent: voeg twee en twee toe, train de classificator en verkrijg het resultaat dat we nodig hebben.

Het resultaat is wat futuristen en onwetende mensen 'gedachtenlezen' zouden noemen. En het lijkt erop dat een dergelijke technologie zichzelf in een verscheidenheid aan toepassingen zou kunnen vinden: van perfecte hersencomputerinterfaces waarmee u slimme prothesen kunt bedienen, tot het creëren van een systeem dat eindelijk vertelt wat uw kat daar denkt.

In werkelijkheid is alles natuurlijk helemaal niet zo eenvoudig, en het idee om zo'n algoritme te maken, valt bijna onmiddellijk op het belangrijkste obstakel: we hebben te maken met de hersenen. Het brein is een heel complex ding: het heeft meer dan 80 miljard neuronen en de verbindingen daartussen zijn duizenden keren groter.

Zelfs voor een leek is het duidelijk: dit is te veel voor ons om te begrijpen waarvoor elke cel en hun aggregaat verantwoordelijk is. Wetenschappers hebben het menselijke connectoom nog niet ontcijferd - ook al proberen ze het met relatief succes te doen.

Een logische vraag rijst: is het überhaupt nodig om de functies van elk neuron te begrijpen om nauwkeurig weer te geven wat er in de hersenen gebeurt? Zijn er bijvoorbeeld echt niet genoeg functionele kaarten?

Het antwoord op deze vraag zou eigenlijk "ja" moeten zijn, maar zelfs hier is het niet zo eenvoudig. Als de mensheid zou vertrouwen op het decoderen van het connectoom als de enige sleutel om het mysterie van de hersenen te ontsluiten, dan zouden we vandaag heel dichtbij zijn. We weten echter wel iets over hoe ons brein werkt en we kunnen het natuurlijk met succes gebruiken.

Promotie video:

Een van de helderste en meest voor de hand liggende voorbeelden van het gebruik van de kennis die wetenschappers hebben verzameld over het werk van de hersenen, zijn natuurlijk neuro-interfaces. Over het algemeen zijn er tegenwoordig echt technologieën die het lezen van hersenactiviteit mogelijk maken en deze gebruiken om bijvoorbeeld de cursor van een computermuis of zelfs de bewegingen van een prothese te besturen.

Er zijn twee manieren om een efficiënte werking van de neurale interface te bereiken. De eerste methode is 'evoked potentials': we kijken naar de curve van elektrische activiteit van bepaalde delen van de hersenen en selecteren daarop die veranderingen in het signaal die, zoals we zeker weten, op een bepaald moment na de presentatie van de stimulus verschijnen.

De tweede manier is om helemaal niet op stimulatie te vertrouwen, maar om de verbeelding van de persoon te gebruiken om een elektrisch signaal te genereren dat kan worden gelezen. Een persoon kan bijvoorbeeld worden gevraagd om te visualiseren hoe hij zijn been of arm beweegt.

Beide methoden hebben aanzienlijke nadelen. De eerste wordt gehinderd door het feit dat het aantal betrouwbaar opgeroepen potentialen dat ons bekend is niet zo groot is: hun aantal kan niet precies alle mogelijke acties die door een persoon worden uitgevoerd, dekken. Het nadeel van de tweede is dat er een lange training nodig is om tenminste enig effect te bereiken.

De auteurs van de preprint besloten om beide benaderingen te combineren om neurocomputerinterfaces te creëren, terecht in de overtuiging dat dit beide methoden van aanzienlijke beperkingen zou redden en het mogelijk zou maken om een nieuwe en meest effectieve methode te ontwikkelen om vandaag met neuro-interfaces te werken.

Er werd ook aangenomen dat deze methode gesloten zal zijn (gesloten lus), dat wil zeggen dat het resultaat dat met zijn hulp wordt verkregen, op zijn beurt de werking van het algoritme zal beïnvloeden. Maar daarover later meer.

Helemaal aan het begin splitst het algoritme alle afbeeldingen op in afzonderlijke componenttekens, verdeeld in de vectorruimte, met behulp waarvan ze vervolgens kunnen worden gecorreleerd met bepaalde hersensignalen die zijn geregistreerd met behulp van het EEG.

In deze eerste fase wordt een binaire classificator gebruikt - grofweg de "twee en twee": met een redelijk schoon signaal (de EEG-opname is gewist van motorische artefacten), kun je de ene of de andere kiezen met een grotere nauwkeurigheid dan een willekeurige treffer.

In hun experimenten gebruikten de wetenschappers video's van objecten van vijf klassen: afbeeldingen van mensen, watervallen, abstracte geometrische vormen, extreme sporten en Goldberg-auto's. Enerzijds lijkt zo'n set vreemd, maar anderzijds lijkt het erop dat al deze objecten heel verschillend van elkaar zijn. Is er inderdaad iets gemeen tussen menselijke gezichten en abstracte geometrische vormen?

Ondertussen zijn volgens de binaire classificator abstracte figuren en menselijke gezichten niet van elkaar te onderscheiden: de resultaten van negen van de 17 deelnemers aan de studie laten zien dat de neurale interface er blijkbaar geen onderscheid tussen heeft gemaakt. Maar de machines van Goldberg en dezelfde gezichten, vanuit het oogpunt van de hersenen, verschillen daarentegen goed van elkaar.

Classificatieresultaten. A - abstracte vormen, W - watervallen, HF - menselijke gezichten, GM - Goldberg-auto's, E - extreme sporten
Classificatieresultaten. A - abstracte vormen, W - watervallen, HF - menselijke gezichten, GM - Goldberg-auto's, E - extreme sporten

Classificatieresultaten. A - abstracte vormen, W - watervallen, HF - menselijke gezichten, GM - Goldberg-auto's, E - extreme sporten.

Op het eerste gezicht is het niet erg duidelijk waarom dit gebeurt: dezelfde machines en geometrische vormen zijn eerder niet van elkaar te onderscheiden. Alles wordt een beetje duidelijker als je kijkt naar een voorbeeld van frames uit de gebruikte video's.

Voorbeeldafbeeldingen uit vijf klassen
Voorbeeldafbeeldingen uit vijf klassen

Voorbeeldafbeeldingen uit vijf klassen.

Hoogstwaarschijnlijk (we kunnen hier natuurlijk alleen maar aannemen), hangt het succes van de classificator af van hoeveel de afbeeldingen die in de twee klassen worden gebruikt, van elkaar verschillen in sommige oppervlakkige basiskenmerken - allereerst in kleur. Dit correleert ook goed met het feit dat de dimensie van de latente ruimte in de autoencoder 10 is.

Over het algemeen is een dimensie van vijf voldoende om afbeeldingen van vijf klassen te classificeren, maar in dit geval wordt dit gedaan met een maximum van het kleurenhistogram - wat betekent dat dimensie 10 niet te veel zal verbeteren en het resultaat zal verduidelijken.

Het is niet erg duidelijk waarom de auteurs geen lineaire classificator voor vijf klassen tegelijk hebben gebruikt in plaats van tien binaire classificaties: hoogstwaarschijnlijk zou het beter zijn geweest.

Dan komt het stadium van reconstructie van het resulterende beeld. Het feit dat het uitgesmeerd naar buiten komt, is begrijpelijk - het punt bevindt zich in dezelfde dimensie van de latente ruimte. Maar hier verwarren twee dingen.

De eerste is dat de originele en gereconstrueerde afbeeldingen erg op elkaar lijken. Hier wil ik natuurlijk niemand van streek maken (inclusief wijzelf - we zijn nog steeds voor vooruitgang), maar dit is niet te wijten aan het feit dat het signaal zo goed is opgenomen en gedecodeerd (en zelfs in realtime!), Maar vanwege het feit dat het algoritme precies de afbeeldingen herstelt die het al had.

Bovendien werkt dit niet altijd zo goed als we zouden willen: als je bijvoorbeeld naar de video van de werking van het systeem kijkt, zul je merken dat in de video met een huilende man de neurale interface om de een of andere reden een vrouw ziet. Dit komt omdat het algoritme geen afbeeldingen reconstrueert, maar objecten van een bepaalde klasse: zelfs als het het efficiënt genoeg doet, belet niets het algoritme om een boot te zien in de afbeelding van een motorfiets - simpelweg omdat ze tot dezelfde klasse behoren.

Daarom is wat tijdens de reconstructie op het scherm verschijnt vaak slechts een gemiddelde afbeelding van alle gebruikte klasseobjecten.

Wat betreft de betekenis van het gebruik van een gesloten systeem, alles is er niet erg duidelijk mee: bij het uitvoeren van een taak ziet een persoon zowel een opname van EEG-signalen als een beeld geleidelijk uit zijn hoofd komen. Of dit echt helpt, is moeilijk te zeggen - de auteurs hebben de prestaties van de interface niet met en zonder versterking vergeleken. Maar op het eerste gezicht lijkt dat niet echt. Als het helpt, wil ik echt weten hoe.

Over het algemeen kunnen we veilig concluderen dat computers niet hebben geleerd gedachten te lezen. En ze leerden niet eens hoe ze de video opnieuw moesten maken. Het enige dat ze hebben geleerd, gebaseerd op het werk van wetenschappers, is om de objecten die ze hebben gezien in vijf klassen in te delen op basis van enkele basiscriteria. Hebben computers dit eerder kunnen doen? Natuurlijk konden ze dat. Zijn er hersenen hier? Natuurlijk wel: maar het zijn de hersenen die zien, niet de hersenen die begrijpen wat hij precies zag.

Elizaveta Ivtushok

Aanbevolen: