Neurónová Sieť Sa Naučila Takmer úplne Kopírovať ľudský Hlas - Alternatívny Pohľad

Video: Neurónová Sieť Sa Naučila Takmer úplne Kopírovať ľudský Hlas - Alternatívny Pohľad

Video: Táto AI robí „hlboké falošné zvuky“ 2024, Smieť

2024 Autor: Keith Bush | [email protected]. Naposledy zmenené: 2023-12-16 14:46

V minulom roku spoločnosť DeepMind poskytovala umelú inteligenciu podrobnosti o svojom novom projekte WaveNet, hlbokej vzdelávacej neurónovej sieti, ktorá sa používa na syntézu realistickej ľudskej reči. Nedávno bola vydaná vylepšená verzia tejto technológie, ktorá bude použitá ako základ digitálneho mobilného asistenta Google Assistant.

Systém syntézy hlasu (známy tiež ako funkcia prevodu textu na reč, TTS) je zvyčajne postavený na jednej z dvoch základných metód. Metóda zreťazenia (alebo kompilácie) zahŕňa zostavenie fráz zbieraním jednotlivých častí zaznamenaných slov a častí predtým zaznamenaných s účasťou hlasového herca. Hlavnou nevýhodou tejto metódy je nutnosť neustáleho nahrádzania zvukovej knižnice pri každej aktualizácii alebo zmene.

Iná metóda sa nazýva parametrická TTS a jej vlastnosťou je použitie súborov parametrov, pomocou ktorých počítač vygeneruje požadovanú frázu. Nevýhodou metódy je, že sa výsledok najčastejšie prejavuje vo forme nerealistického alebo tzv. Robotického zvuku.

WaveNet, na druhej strane, vytvára zvukové vlny od nuly pomocou systému konvolučnej neurónovej siete, kde sa zvuk generuje vo viacerých vrstvách. Po prvé, trénovať platformu na syntézu „živej“reči, je „kŕmené“obrovským množstvom vzoriek, pričom sa upozorňuje na to, ktoré zvukové signály znejú realisticky a ktoré nie. To dáva hlasovému syntetizátoru schopnosť reprodukovať naturalistickú intonáciu a dokonca aj detaily, ako sú facky pier. V závislosti na tom, ktoré vzorky reči sú vedené systémom, to umožňuje vyvinúť jedinečný „prízvuk“, ktorý sa z dlhodobého hľadiska môže použiť na vytvorenie mnohých rôznych hlasov.

Ostro na jazyku

Možno najväčším obmedzením systému WaveNet bolo to, že na spustenie bolo potrebné obrovské množstvo výpočtového výkonu, a aj keď bola táto podmienka splnená, nelíšila sa v rýchlosti. Napríklad generovanie zvuku 0,02 sekundy trvalo približne 1 sekundu.

Po roku práce inžinieri spoločnosti DeepMind stále našli spôsob, ako vylepšiť a optimalizovať systém tak, aby bol teraz schopný produkovať prvotný zvuk za sekundu iba za 50 milisekúnd, čo je 1000-krát rýchlejšie ako jeho pôvodné schopnosti. Okrem toho sa odborníkom podarilo zvýšiť rýchlosť vzorkovania zvuku z 8-bit na 16-bit, čo malo pozitívny vplyv na testy zahŕňajúce poslucháčov. Tieto úspechy vydláždili cestu, aby sa WaveNet integroval do spotrebiteľských produktov, ako je napríklad Google Assistant.

Propagačné video:

V súčasnej dobe je možné program WaveNet použiť na generovanie anglických a japonských hlasov prostredníctvom služby Google Assistant a všetkých platforiem, ktoré používajú tohto digitálneho asistenta. Pretože systém môže vytvoriť špeciálny typ hlasov, v závislosti od toho, ktorá sada vzoriek bola poskytnutá na školenie, Google v blízkej budúcnosti s najväčšou pravdepodobnosťou zavedie podporu pre syntézu realistickej reči vo WaveNet v iných jazykoch vrátane ich zohľadnenia. miestne dialekty.

Rozhranie reči sa stávajú čoraz bežnejšie na širokej škále platforiem, ale ich výrazná neprirodzená povaha zvuku vypína mnoho potenciálnych používateľov. Úsilie DeepMindu o zlepšenie tejto technológie určite prispeje k širšiemu prijatiu takýchto hlasových systémov, ako aj k zlepšeniu užívateľského komfortu pri ich používaní.

Príklady anglickej a japonskej syntetizovanej reči pomocou neurónovej siete WaveNet nájdete po kliknutí na toto prepojenie.

Nikolay Khizhnyak