Wanneer Begint Kunstmatige Intelligentie De Serie Te Uiten - Alternatieve Mening

Inhoudsopgave:

Wanneer Begint Kunstmatige Intelligentie De Serie Te Uiten - Alternatieve Mening
Wanneer Begint Kunstmatige Intelligentie De Serie Te Uiten - Alternatieve Mening

Video: Wanneer Begint Kunstmatige Intelligentie De Serie Te Uiten - Alternatieve Mening

Video: Wanneer Begint Kunstmatige Intelligentie De Serie Te Uiten - Alternatieve Mening
Video: Kunnen we kunstmatige intelligentie nog doorgronden? 2024, Maart
Anonim

Russische uitgevers experimenteren al met het automatisch opnemen van audioboeken; in de toekomst kan kunstmatige intelligentie worden belast met het vertalen van series en het nasynchroniseren ervan met de stemmen van hun favoriete acteurs. Over de kenmerken van dergelijke technologieën en hoe lang het duurt om ze te maken.

Mondelinge spraak wordt geschreven

Op YouTube worden automatische ondertitels voor video's gemaakt door spraakherkenning en spraak-naar-tekst vertaalsoftware. Het is gebaseerd op zelflerende neurale netwerken. Deze optie is al meer dan tien jaar oud, maar het resultaat is nog verre van ideaal. Vaker wel dan niet, kun je alleen de algemene betekenis van wat er werd gezegd begrijpen. Wat is de moeilijkheid?

Laten we zeggen, legt Andrey Filchenkov, hoofd van het Machine Learning-laboratorium aan de ITMO University, uit dat we een algoritme bouwen voor spraakherkenning. Dit vereist het trainen van een neuraal netwerk op een grote gegevensreeks.

Het kost honderden, duizenden uren aan spraakopnames en hun correcte vergelijking met teksten, inclusief het markeren van het begin en einde van zinnen, het wisselen van gesprekspartners, enzovoort. Dit wordt de behuizing genoemd. Hoe groter het is, hoe beter de training van het neurale netwerk is. Er zijn echt grote corpora gemaakt voor de Engelse taal, dus herkenning is veel beter. Maar voor Russisch of bijvoorbeeld Spaans zijn er veel minder gegevens, en voor veel andere talen zijn er helemaal geen gegevens.

'En het resultaat mag er zijn', besluit de wetenschapper.

“Daarnaast beoordelen we de betekenis van een woord, een zin in een film niet alleen op geluid, ook de intonatie van de acteur en zijn gezichtsuitdrukkingen zijn belangrijk. Hoe interpreteer je dit? - voegt Sergey Aksenov toe, universitair hoofddocent van de afdeling Informatietechnologie van de Tomsk Polytechnic University.

Promotie video:

“Hoe om te gaan met de kenmerken van vloeiend spreken? Vage articulatie, schetsmatigheid, tussenwerpsels, pauzes? Afhankelijk hiervan verandert immers de betekenis, zoals in "je kunt niet vergeven worden". Hoe leer je een machine om te bepalen waar de spreker een komma heeft? En in poëzie? " - vermeldt Marina Bolsunovskaya, hoofd van het laboratorium "Industriële streaming gegevensverwerkingssystemen" van het NTI SPbPU Center.

De meest succesvolle projecten bevinden zich volgens de expert in kleine ruimtes. Een systeem voor het herkennen van de professionele toespraak van artsen met behulp van medische termen, ontwikkeld door de RTC-bedrijvengroep, helpt artsen bijvoorbeeld een medische geschiedenis bij te houden.

“Hier kun je het onderwerpgebied duidelijk omlijnen en sleutelwoorden in spraak markeren. De arts legt met intonatie specifiek de nadruk op bepaalde secties: klachten van patiënten, diagnose”, verduidelijkt Bolsunovskaya.

Een ander probleem wordt opgemerkt door Mikhail Burtsev, hoofd van het laboratorium voor neurale systemen en diep leren bij MIPT. Feit is dat de machine tot dusverre succesvoller is in het herkennen van tekst wanneer één persoon spreekt dan meerdere, zoals in films.

Vertaling met context

Laten we bijvoorbeeld een Engelstalige video nemen, een fragment uit de tv-serie "Game of Thrones", en automatische Russische ondertitels inschakelen. Wat we zien, zal ons waarschijnlijk aan het lachen maken.

Nog steeds uit * Game of Thrones *
Nog steeds uit * Game of Thrones *

Nog steeds uit * Game of Thrones *.

Bij machinevertalingen heeft de technologie echter indrukwekkend succes geboekt. Google Translate vertaalt teksten in gewone talen dus redelijk tolerant, vaak is slechts minimale bewerking vereist.

Feit is dat de neurale netwerkvertaler ook getraind is op een groot aantal aanvankelijke, correct gelabelde gegevens - een parallel corpus, dat laat zien hoe elke zin in de oorspronkelijke taal eruit zou moeten zien in het Russisch.

“Het bouwen van dergelijke gebouwen is erg arbeidsintensief, duur en tijdrovend, het kost maanden en jaren. Om een neuraal netwerk te trainen, hebben we teksten nodig ter grootte van de Bibliotheek van Alexandrië. De modellen zijn universeel, maar veel hangt af van de taal. Als je bijvoorbeeld veel gegevens in Avar verstrekt, en de vertaling van hoge kwaliteit is, maar voor Avar is er gewoon niet zo'n hoeveelheid gegevens”, zegt Andrey Filchenkov.

"Vertalen is een apart product dat verwant is aan het origineel, maar niet hetzelfde is", zegt Ilya Mirin, directeur van de School of Digital Economy aan de Far Eastern Federal University. - Een typisch voorbeeld zijn de vertalingen van Dmitry Puchkov (Goblin) van buitenlandse films in de jaren 90. Pas na zijn werk werd duidelijk wat daar gebeurde. We konden niets passend vinden uit de VHS-versies. Of probeer te vertalen in een taal die u goed kent, iets uit De meester en Margarita. Bijvoorbeeld "in een zwarte mantel met een bloederige voering". De machine kan dat niet."

Neurale netwerken leren goed van veel typische voorbeelden, maar films zitten vol met complexe betekenissen en connotaties, grappen die niet toegankelijk zijn voor de machine - het kan ze niet onderscheiden.

“In elke aflevering van de animatieserie Futurama wordt verwezen naar de klassieke Amerikaanse cinema - Casablanca, Roman Holiday enzovoort. Op zulke momenten moet de vertaler, om de betekenis te vangen en opnieuw te verpakken voor degenen die deze films niet hebben gezien, een dicht analoog uit de Russische context bedenken. Een verkeerde automatische vertaling kan de kijker erg ontmoedigen”, vervolgt Mirin.

Volgens hem is de kwaliteit van machinevertalingen bijna 80 procent, de rest is specificiteit die handmatig moet worden toegevoegd, waarbij experts betrokken zijn. "En als 20-30 procent van de zinnen handmatige correctie vereist, wat is dan het nut van automatische vertaling?" - zegt de onderzoeker.

"Vertalen is de meest problematische fase", beaamt Sergey Aksenov. - Alles hangt af van semantiek en context. De beschikbare tools kunnen worden gebruikt voor vertaling en machinaal stemacteren, bijvoorbeeld kindercartoons met een eenvoudig vocabulaire. Maar met de interpretatie van fraseologische eenheden, eigennamen, woorden die kijkers naar bepaalde culturele realiteiten verwijzen, ontstaan er problemen."

In films en video's is de context altijd visueel en gaat vaak gepaard met muziek en lawaai. We speculeren op de foto waar de held het over heeft. Spraak die in tekst wordt omgezet, bevat deze informatie niet, dus vertaling is moeilijk. Dit is het geval voor vertalers die met tekstondertitels werken zonder de film te zien. Ze hebben het vaak mis. Machinevertaling is hetzelfde verhaal.

AI verwoordt spraak

Om een serie vertaald in het Russisch te kopiëren, heb je een algoritme nodig om natuurlijke spraak uit tekst te genereren - een synthesizer. Ze zijn gemaakt door veel IT-bedrijven, waaronder Microsoft, Amazon, Yandex, en ze doen het redelijk goed.

Volgens Andrey Filchenkov duurde een minuut van het nasynchroniseren van een spraaksynthesizer een paar jaar geleden, nu is de verwerkingssnelheid enorm toegenomen. De taak van spraaksynthese voor sommige gebieden waar neutrale dialogen vereist zijn, is redelijk goed opgelost.

Velen beschouwen een gesprek met een robot aan de telefoon al als vanzelfsprekend, de uitvoering van opdrachten van een auto-navigator, een dialoog met Alice in een Yandex. Drive-auto. Maar voor het nasynchroniseren van tv-series zijn deze technologieën nog niet toereikend.

“Het probleem is emotie en acteren. We hebben geleerd om de stem van de machine menselijk te maken, maar zodat het nog steeds passend klinkt in de context en vertrouwen wekt, is nog ver weg. Slechte stemacteurs kunnen de perceptie van een film gemakkelijk doden,”zei Filchenkov.

Volgens Mikhail Burtsev is spraaksynthese vrij reëel. Dit is echter rekenkundig intensief en kan niet in realtime voor een redelijke prijs worden gedaan.

“Er zijn algoritmen die spraak synthetiseren die vergelijkbaar is met die van een bepaalde actor. Dit is het timbre, de manier van spreken en nog veel meer. Dus elke buitenlandse acteur zal Russisch spreken”, voorspelt Burtsev. Hij verwacht de komende jaren een merkbare vooruitgang.

Sergei Aksenov geeft vijf tot tien jaar de tijd om tools te ontwikkelen voor het vertalen en nasynchroniseren van complexe werken uit de meest voorkomende talen, zoals het Engels. De wetenschapper noemt het voorbeeld van Skype, dat enkele jaren geleden de mogelijkheid demonstreerde om online lessen te organiseren voor schoolkinderen die verschillende talen spreken. Maar zelfs dan zal het systeem niet ideaal zijn, het zal constant moeten leren: woordenschat verwerven, rekening houden met de culturele context.