Kedy Umelá Inteligencia Začne Hlasovať O Sérii - Alternatívny Pohľad

Obsah:

Kedy Umelá Inteligencia Začne Hlasovať O Sérii - Alternatívny Pohľad
Kedy Umelá Inteligencia Začne Hlasovať O Sérii - Alternatívny Pohľad

Video: Kedy Umelá Inteligencia Začne Hlasovať O Sérii - Alternatívny Pohľad

Video: Kedy Umelá Inteligencia Začne Hlasovať O Sérii - Alternatívny Pohľad
Video: Umelá inteligencia v medicíne 2024, Apríl
Anonim

Ruskí vydavatelia už experimentujú so strojovým nahrávaním zvukových kníh, v budúcnosti môže byť umelá inteligencia poverená prekladaním seriálov a dabovaním ich hlasmi svojich obľúbených hercov. O vlastnostiach týchto technológií a o tom, ako dlho bude trvať, kým sa vytvoria.

Ústna reč sa stáva písanou

V službe YouTube sa automatické titulky pre videá vytvárajú pomocou softvéru na rozpoznávanie hlasu a preklad textu do textu. Je založená na samoučiacich sa neurónových sieťach. Táto možnosť je staršia ako desať rokov, ale výsledok nie je ani zďaleka ideálny. Častejšie ako ne môžete zachytiť iba všeobecný význam toho, čo bolo povedané. Aký je problém?

Povedzme, Andrej Filchenkov, vedúci laboratória strojového učenia na ITMO univerzite, že budujeme algoritmus na rozpoznávanie reči. Vyžaduje si to tréning neurónovej siete na veľkom dátovom poli.

Bude trvať stovky, tisíce hodín nahrávok reči a ich správne porovnanie s textami, vrátane označenia začiatku a konca fráz, zmeny účastníkov rozhovoru atď. Toto sa nazýva uzáver. Čím je väčšia, tým lepší je tréning neurónovej siete. Pre anglický jazyk boli vytvorené skutočne veľké korpusy, takže rozpoznávanie je omnoho lepšie. Ale pre ruštinu alebo, napríklad, španielčinu, existuje oveľa menej údajov a pre mnoho ďalších jazykov neexistujú vôbec žiadne údaje.

„A výsledok je vhodný,“uzatvára vedec.

„Okrem toho hodnotíme význam slova, frázy vo filme nielen zvukom, intonáciu herca a jeho výrazy tváre. Ako to interpretujete? “- doplňuje Sergej Aksenov, docent Katedry informačných technológií Tomskovej polytechnickej univerzity.

Propagačné video:

„Ako zvládnuť vlastnosti plynulej reči? Fuzzy artikulácia, skica, prestávky, pauzy? Koniec koncov, v závislosti od toho sa význam mení, ako v časti „nemôžete byť milostený“. Ako naučiť stroj určiť, kde má rečník čiarku? A v poézii? “- uvádza Marina Bolsunovskaya, vedúca laboratória „Systémy na spracovanie údajov v priemyselnom prúde“centra NTI SPbPU.

Podľa odborníkov sú najúspešnejšie projekty v úzkych oblastiach. Napríklad systém rozpoznávania odbornej reči lekárov pomocou lekárskych výrazov, ktorý vyvinula skupina spoločností RTC, pomáha lekárom udržiavať lekársku anamnézu.

„Tu môžete jasne načrtnúť predmet a zvýrazniť kľúčové slová v reči. Lekár osobitne zdôrazňuje určité oddiely s intonáciou: sťažnosti pacientov, diagnostika, “objasňuje Bolsunovskaja.

Ďalší problém poukazuje Michail Burtsev, vedúci laboratória nervových systémov a hlbokého učenia sa na MIPT. Faktom je, že zatiaľ je stroj úspešnejší v rozpoznávaní textu, keď jedna osoba hovorí viac ako niekoľko filmov, napríklad vo filmoch.

Preklad s kontextom

Zoberme si napríklad video v anglickom jazyku, napríklad rez z televízneho seriálu „Hra o tróny“a zapneme automatické ruské titulky. To, čo vidíme, nás pravdepodobne rozosmeje.

Stále z * Game of Thrones *
Stále z * Game of Thrones *

Stále z * Game of Thrones *.

V strojovom preklade však technológia dosiahla pôsobivý úspech. Prekladač Google Prekladá texty do bežných jazykov celkom tolerantne, často je potrebná iba minimálna úprava.

Faktom je, že prekladateľ neurónovej siete je tiež trénovaný na veľké množstvo počiatočných, správne označených údajov - paralelný korpus, ktorý ukazuje, ako by mala každá fráza v pôvodnom jazyku vyzerať v ruštine.

„Stavba takýchto budov je veľmi pracná, nákladná a časovo náročná, trvá mesiace a roky. Na zaškolenie neurónovej siete potrebujeme texty veľkosti Alexandrijskej knižnice. Modely sú univerzálne, ale veľa záleží na jazyku. Ak napríklad poskytnete veľa údajov, napríklad v Avare, a preklad bude mať vysokú kvalitu, ale pre Avar jednoducho nie je také množstvo údajov, “hovorí Andrey Filchenkov.

„Preklad je samostatný produkt, ktorý súvisí s originálom, ale s ním sa nerovná,“hovorí Ilya Mirin, riaditeľka školy digitálnej ekonomiky na Ďalekej východnej federálnej univerzite. - Typickým príkladom sú preklady zahraničných filmov Dmitrija Puchkova (Goblin) v 90. rokoch. Až po jeho práci sa ukázalo, čo sa tam deje. Z verzií VHS sme nenašli nič adekvátne. Pokúste sa preložiť do jazyka, ktorý dobre poznáte, niečo od Majstra a Margarity. Napríklad „v čiernom plášti s krvavou podšívkou“. Stroj to nemôže urobiť. ““

Neurónové siete sa dobre učia z mnohých typických príkladov, ale filmy sú plné zložitých významov a konotácií, vtipov, ktoré nie sú prístupné stroju - nedokáže ich rozlíšiť.

„V každej epizóde animovaného seriálu Futurama sa nachádza odkaz na klasické americké kino - Casablanca, Roman Holiday atď. V takých chvíľach, aby prekladateľ mohol zachytiť a prebaliť význam tých, ktorí tieto filmy nepozerali, musí prekladať blízky analóg z ruského kontextu. Nesprávny strojový preklad môže byť pre diváka veľmi odrádzajúci, “pokračuje Mirin.

Podľa jeho názoru je kvalita strojového prekladu takmer 80 percent, zvyšok je špecifickosť, ktorú je potrebné pridať ručne, do ktorej sú zapojení odborníci. „A ak 20 - 30 percent fráz vyžaduje manuálnu opravu, čo je potom strojový preklad?“- hovorí výskumník.

„Preklad je najproblematickejšou fázou,“súhlasí Sergej Aksenov. - Všetko závisí od sémantiky a kontextu. Dostupné nástroje sa dajú použiť na preklad a strojové hlasové pôsobenie, napríklad detské karikatúry s jednoduchou slovnou zásobou. Pri interpretácii frazeologických jednotiek, vlastných mien, slov, ktoré poukazujú divákov na niektoré kultúrne skutočnosti, vznikajú ťažkosti. ““

Vo filmoch a videách je kontext vždy vizuálny a často ho sprevádza hudba a hluk. Z obrázku špekulujeme o čom hovorí hrdina. Reč zmenený na text nemá tieto informácie, takže preklad je zložitý. To je situácia prekladateľov, ktorí pracujú s textovými titulkami bez toho, aby videli film. Často sa mýlia. Strojový preklad je rovnaký príbeh.

Hlasy AI hovoria

Ak chcete kopírovať sériu preloženú do ruštiny, potrebujete algoritmus na generovanie prirodzenej reči z textu - syntetizátor. Tvoria ich mnohé IT spoločnosti vrátane spoločností Microsoft, Amazon, Yandex a darí sa im celkom dobre.

Podľa Andreyho Filchenkova, pred pár rokmi, minúta dabovania syntetizátora reči trvala niekoľko hodín, teraz sa rýchlosť spracovania výrazne zvýšila. Úloha syntézy reči v niektorých oblastiach, kde sú potrebné neutrálne dialógy, je vyriešená celkom dobre.

Mnohí už berú ako samozrejmosť rozhovor s robotom v telefóne, vykonávanie príkazov z navigátora automobilu, dialóg s Alice v aute Yandex. Drive. Ale pre dabing televíznych seriálov tieto technológie ešte nie sú dostatočné.

„Problém je emócie a konania. Naučili sme sa, aby sa strojový hlas stal ľudským, ale aby to znelo primerane k kontextu a vzbudzovalo dôveru, je ešte ďaleko. Zlé hlasové hranie môže ľahko zabiť vnímanie filmu, “uviedol Filchenkov.

Podľa Michaila Burtseva je syntéza reči celkom reálna. Je to však výpočtovo náročné a nedá sa to urobiť v reálnom čase za primeranú cenu.

„Existujú algoritmy, ktoré syntetizujú reč, ktorá je podobná algoritmu konkrétneho herca. Toto je zafarbenie a spôsob rozprávania a oveľa viac. Takže každý zahraničný herec bude skutočne hovoriť rusky, “predpovedá Burtsev. Očakáva výrazný pokrok v nasledujúcich rokoch.

Sergey Aksenov poskytuje päť až desať rokov na vývoj nástrojov na preklad a dabing zložitých diel z najbežnejších jazykov, ako je angličtina. Vedec cituje príklad programu Skype, ktorý pred niekoľkými rokmi ukázal možnosť organizovania lekcií online pre žiakov hovoriacich rôznymi jazykmi. Ale ani vtedy nebude systém ideálny, bude sa neustále učiť: osvojiť si slovnú zásobu, zohľadniť kultúrny kontext.