Het Neurale Netwerk Werd Geleerd De Menselijke Stem Bijna Perfect Te Kopiëren - Alternatieve Mening

Inhoudsopgave:

Het Neurale Netwerk Werd Geleerd De Menselijke Stem Bijna Perfect Te Kopiëren - Alternatieve Mening
Het Neurale Netwerk Werd Geleerd De Menselijke Stem Bijna Perfect Te Kopiëren - Alternatieve Mening

Video: Het Neurale Netwerk Werd Geleerd De Menselijke Stem Bijna Perfect Te Kopiëren - Alternatieve Mening

Video: Het Neurale Netwerk Werd Geleerd De Menselijke Stem Bijna Perfect Te Kopiëren - Alternatieve Mening
Video: Heesheid. Stemcheck KNO. Vocal-TV. Deel 1 "Ontstemd" Zangeres Sophie op zoek naar een oplossing. 2024, April
Anonim

Vorig jaar deelde het kunstmatige intelligentiebedrijf DeepMind details over zijn nieuwe project WaveNet, een diepgaand lerend neuraal netwerk dat wordt gebruikt om realistische menselijke spraak te synthetiseren. Onlangs is er een verbeterde versie van deze technologie uitgekomen, die zal worden gebruikt als basis voor de digitale mobiele assistent Google Assistant.

Een spraaksynthesesysteem (ook bekend als een tekst-naar-spraakfunctie, TTS) is meestal opgebouwd rond een van de twee basismethoden. De aaneenschakelingsmethode (of compilatiemethode) omvat de constructie van zinnen door afzonderlijke stukken opgenomen woorden en delen die eerder zijn opgenomen met de betrokkenheid van een stemacteur te verzamelen. Het grootste nadeel van deze methode is de noodzaak om de geluidsbibliotheek constant te vervangen wanneer er updates of wijzigingen worden aangebracht.

Een andere methode wordt parametrische TTS genoemd en de functie ervan is het gebruik van parametersets waarmee de computer de gewenste frase genereert. Het nadeel van de methode is dat het resultaat zich meestal manifesteert in de vorm van onrealistisch of zogenaamd robotgeluid.

WaveNet daarentegen produceert vanaf nul geluidsgolven met behulp van een convolutioneel neuraal netwerksysteem waarbij geluid in verschillende lagen wordt gegenereerd. Ten eerste, om het platform te trainen voor het synthetiseren van "live" spraak, wordt het een enorme hoeveelheid samples "gevoed", waarbij wordt opgemerkt welke geluidssignalen realistisch klinken en welke niet. Dit geeft de spraaksynthesizer de mogelijkheid om naturalistische intonatie en zelfs details zoals smakkende lippen te reproduceren. Afhankelijk van welke spraakmonsters door het systeem worden gevoerd, kan het hierdoor een uniek "accent" ontwikkelen, dat op lange termijn kan worden gebruikt om veel verschillende stemmen te creëren.

Scherp op de tong

Misschien was de grootste beperking van het WaveNet-systeem dat het een enorme hoeveelheid rekenkracht vereiste om te werken, en zelfs als aan deze voorwaarde was voldaan, verschilde het niet in snelheid. Het kostte bijvoorbeeld ongeveer 1 seconde tijd om 0,02 seconden geluid te genereren.

Na een jaar werken hebben DeepMind-ingenieurs nog steeds een manier gevonden om het systeem te verbeteren en te optimaliseren, zodat het nu in staat is om in slechts 50 milliseconden een rauw geluid van één seconde te produceren, wat 1000 keer sneller is dan de oorspronkelijke mogelijkheden. Bovendien slaagden de specialisten erin om de audiobemonsteringsfrequentie te verhogen van 8-bit naar 16-bit, wat een positief effect had op de tests met luisteraars. Deze successen hebben de weg geëffend voor WaveNet om te integreren in consumentenproducten zoals Google Assistant.

Promotie video:

Momenteel kan WaveNet worden gebruikt om Engelse en Japanse stemmen te genereren via Google Assistant en alle platforms die deze digitale assistent gebruiken. Aangezien het systeem een speciaal type stemmen kan creëren, afhankelijk van welke set samples het voor training heeft gekregen, zal Google in de nabije toekomst hoogstwaarschijnlijk ondersteuning introduceren voor het synthetiseren van realistische spraak in WaveNet in andere talen, inclusief het in aanmerking nemen daarvan. lokale dialecten.

Spraakinterfaces komen steeds vaker voor op een breed scala aan platforms, maar hun uitgesproken onnatuurlijke aard van het geluid schakelt veel potentiële gebruikers uit. De inspanningen van DeepMind om deze technologie te verbeteren, zullen zeker bijdragen aan de bredere acceptatie van dergelijke spraaksystemen, evenals de gebruikerservaring door het gebruik ervan verbeteren.

Voorbeelden van Engelse en Japanse gesynthetiseerde spraak met behulp van het WaveNet neurale netwerk zijn te vinden door deze link te volgen.

Nikolay Khizhnyak

Aanbevolen: