Ako Sú Odhalené Tajomstvá Rukopisu Voynich: Vyšetrovanie - Alternatívny Pohľad

Obsah:

Ako Sú Odhalené Tajomstvá Rukopisu Voynich: Vyšetrovanie - Alternatívny Pohľad
Ako Sú Odhalené Tajomstvá Rukopisu Voynich: Vyšetrovanie - Alternatívny Pohľad

Video: Ako Sú Odhalené Tajomstvá Rukopisu Voynich: Vyšetrovanie - Alternatívny Pohľad

Video: Ako Sú Odhalené Tajomstvá Rukopisu Voynich: Vyšetrovanie - Alternatívny Pohľad
Video: Манускрипт Войнича. Voynich Manuscript. 2024, Apríl
Anonim

Čo stojí za senzačnými správami o Voynichovom rukopise a o ruských vedcoch, je možné z textu presne určiť jazyk, aký je adekvátny matematik pri práci na „poli“lingvistiky.

19. apríla ruské médiá šírili správy o „epochálnom“objave ruských matematikov: pomocou novej metódy vedci nielen preukázali zmysluplnosť slávneho „Voynichovho rukopisu“, ale dokázali určiť aj to, že bol napísaný v dvoch jazykoch a s výnimkou listov pre samohlásky.

Voynichov rukopis je stredoveký ilustrovaný rukopis zakúpený v roku 1912 starožitníkom Wilfredom Voynichom. Vytvorený v 15. storočí (na základe rádiokarbónovej analýzy pergamenu - ale väčšina vedcov v súčasnosti nepovažuje samotný text za neskorší podvrh), je napísaný v neznámom jazyku s použitím neznámej abecedy. Súdiac podľa ilustrácií, text pozostáva z tematických blokov: botanický, astronomický, farmakologický a ďalšie. Zložitosť dekódovania textu urobila z Voynichovho rukopisu „svätý grál“pre kryptografov a objekt mnohých štúdií, vrátane tých, ktoré využívajú metódy Big Data.

O správach rukopisu sa hovorilo ako o niečom senzačnom. To okamžite vzbudilo určité podozrenie. „Predtým zlyhali všetky pokusy o dešifrovanie jedinečného dokumentu a dokonca iba pochopenie, či ide o zmysluplný text. 600 rokov zbytočného úsilia!.. Kryptografovia CIA a NSA, superpočítače a dokonca aj lekári „okultných vied“podpísali svoju úplnú impotenciu. Posledná správa kryptológa Gordona Rugga z Keele University vo Veľkej Británii znie: „Voynichov rukopis je falošný. Takýto „zložitý text“je ľahko zostaviteľný pre každého, kto je oboznámený s jednoduchými metódami kopírovania, “uvádza sa v článku.

Po prvé, zmysluplnosť textu bola uznaná už v 70. rokoch a niekoľkokrát potvrdená v štúdiách z 10. rokov, o ktorých sa písalo dosť podrobne aj v domácich médiách. Po druhé, objav zverejnený v správach bol predstavený iba vo forme predtlače inštitútu, a nie v článku v medzinárodnom recenzovanom časopise (predtlač bola zverejnená tiež v roku 2016).

Tieto zvláštnosti prezentácie materiálu nás prinútili hľadať vysvetlenie najskôr u autora štúdie, až potom u nezávislých odborníkov - lingvistov, ktorí pracujú so štatistickými a matematickými metódami, ako aj s dekódovaním starodávnych skriptov.

Je ľahké napísať vzorec, ale je veľmi nákladné vykonať numerickú analýzu

Propagačné video:

Najprv stručne o podstate štúdie. Autori predtlače, matematici z Moskovského ústavu fyziky a techniky a Ústavu aplikovanej matematiky Ruskej akadémie vied, sa opierajú o svoje práce, podľa ktorých „frekvenčné rozdelenie textových symbolov je stabilnou charakteristikou nie pre autora alebo predmet textu, ale pre jazyk“. To znamená, že pomocou množiny pomocou matematických nástrojov môžete určiť, v akom jazyku sa píše, a to kvôli skutočnosti, že každý jazyk má svoj charakteristický „profil“(distribúcia Hurstovho exponenta). Vedci ďalej vychádzali z týchto metód a zistili, že text rukopisu bol napísaný v niekoľkých jazykoch. Zároveň do nej boli pridané falošné medzery a odstránené symboly označujúce zvuky samohlások.

Vedúci autor štúdie Jurij Orlov (IPM RAS a MIPT) zdôraznil, že Voynichov rukopis nie je vôbec hlavným cieľom ich práce. „‚ Senzačný ‘rukopis je iba ilustráciou matematickej metódy rozpoznávania jazykov od textu - čo je v skutočnosti problém pre strojové učenie,“uviedol Orlov.

Samotný rukopis pre nás nie je absolútne zaujímavý. Veda sa konkrétne odvoláva na štatistiku jazykov. Prostredníctvom nej môžeme pochopiť, v akom jazyku je tento rukopis napísaný. Ale nie to, čo je tam napísané, je to dôležitý bod. - Jurij Orlov. MIPT a Ústav aplikovanej matematiky pomenovaný po M. V. Keldysh

Pokiaľ ide o jazykovú metódu použitú v práci, Orlov poznamenáva, že samotná analýza frekvencie kombinácií písmen v textoch je známa vec. Hurstov indikátor je však lingvistom málo známy, pretože je ťažké ho vypočítať ani z matematického hľadiska. Samotný vzorec sa ľahko píše, ale numerická analýza je veľmi nákladná. Z tohto dôvodu superpočítač umiestnený v Inštitúte pomenovanom po M. V. Keldysh, zdôrazňuje matematik.

Výber indoeurópskych jazykov na analýzu sa vysvetľuje skutočnosťou, že všetky sú si veľmi podobné, tvrdí Orlov. Ukazovatele vyvinuté matematikmi uľahčujú rozlíšenie jazykov v rámci tej istej jazykovej skupiny, ale nie medzi rodinami. Samozrejme, je teoreticky možné vykonávať rovnakú prácu s inými skupinami (Ural, Altaj alebo inými), ale hodnota analýzy spočíva v jej úplnosti, je si istý Orlov. V prípade indoeurópskych jazykov nie je ťažké napísať korpus textov pre každý jazyk, ťažšie je to urobiť s inými rodinami.

Vrátiac sa k rukopisu Voynichov Orlov poznamenal, že on a jeho kolegovia citovali päť dôkazov (logaritmický profil frekvenčného usporiadania písmen v texte v jednom a niekoľkých jazykoch, distribúcia Hurstovho exponenta, spektrálny portrét matice podmienených pravdepodobností a ďalšie) hypotézy o zmesi jazykov v rukopise a vypustení písmená pre samohlásky. Dôrazne sa dištancujú od „stretnutia okolo rukopisu“, predstavili však jedinečný výsledok - otvorenú metódu, štatistickú analýzu s hodnotením spoľahlivosti, ktorú je možné nezávisle overiť.

„Záver vyjadruje poľutovanie nad skutočnosťou, že nerozumieme, z akého materiálu odvodili a čo skontrolovali ich vzorec.“

Samotná domnienka, že text rukopisu Voynicha nemá písmená pre samohlásky, s nesprávne umiestnenými medzerami, je krásna a dobrá, poznamenáva lingvistka Evgenia Korovina, ktorá sa venuje matematickej štatistike jazyka (Jazykovedný ústav Ruskej akadémie vied). Predtým nikto takúto hypotézu nepredložil. Napríklad nádherne vysvetľuje, prečo existuje menej písmen, ako by sa očakávalo od európskeho textu. Problém však je, že autori štúdie ani len neuviedli, ktoré texty v rôznych jazykoch porovnávali a aký bol objem týchto testov. V predtlači sa spomína obrovské množstvo jazykov. Štúdia preto nie je reprodukovateľná: ak budete brať ľubovoľné texty v rovnakých jazykoch, nie je pravda, že vyjdú rovnaké vzory.

Maria Molina, špecialistka na korpusové metódy pri štúdiu starodávnych jazykov (Jazykovedný ústav, RAS), s Korovinou súhlasí. Nové metódy spracovania jazykových údajov podľa jej názoru pomáhajú získať informácie o tom, čo bolo predtým uzavreté pre jazykových výskumníkov. Nesprávne pripravený vstupný materiál však často diskredituje aj tie najjemnejšie techniky spracovania údajov.

Záver odpisuje skutočnosť, že nerozumieme, z akého materiálu ho odvodili a na základe čoho svoj vzorec testovali. Pokiaľ ide o môj materiál, s istotou viem, že došlo k malej metodickej chybe - a dostávam kriticky odlišné čísla. - Maria Molina. Jazykovedný ústav RAS

„Garbage in - garbage out,“dodáva Molina (GIGO je princíp v počítačovej vede, čo znamená, že nesprávne vstupné údaje budú mať za následok nesprávne výsledky, aj keď je samotný algoritmus správny, - poznámka Indicator. Ru).

„Štatistické metódy stále naznačujú výsledky, nie výsledky.“

Ešte ostrejšie hovoril Albert Davletshin (pracovník Centra pre lingvistické komparatívne štúdie Inštitútu pre komparatívne štúdie Ruskej štátnej univerzity pre humanitné vedy, študuje mayský a polynézsky jazyk). Ak sa autori predtlače nechystali dešifrovať Voynichov rukopis, prečo to robia? A ďalej, ak hovoríme konkrétne o dekódovaní neznámeho písma, vzniká otázka za otázkou: „Neexistujú žiadne počiatočné údaje o písaní - aký typ písmena? Ako sa získavajú rôzne prepisy? Koľko znakov? Čo vychádza z existujúcich predpokladov o povahe písma? Aká je dĺžka slova oddeleného medzerami a bez medzier? Čo znamenajú medzery? Aký veľký je slovník? Aký je pomer podpisov a kresieb?

Spočiatku sa ukazuje, že text je dánsky a iba dánsky (a to je historicky nemožné, o čom v práci nie je ani slovo). Potom sa ukáže, že text je v dvoch neznámych jazykoch (overenie v tejto fáze sa ukazuje ako nemožné a je prijaté na základe viery). Existuje navyše veľa konzervatívnych spôsobov, ako ukázať, že dve (veľké) stránky sú napísané jedným písmenom, ale v rôznych jazykoch, bez toho, aby sa museli uchýliť k zložitým matematickým modelom. Nakoniec, ak sa z textu odstránia samohlásky, koľko to potvrdzujú štandardné, dlho známe metódy (napríklad Sukhotin, Shevoroshkina a Ventris)? “

Davletshin tiež kritizuje necitlivosť na filológiu a históriu charakteristickú pre tento druh výskumu:

Čo vidím v texte: často sú ľudia, ktorí si chcú vziať prameň X a zabudnúť, že je to prameň a existuje v nejakom historickom, vrátane lingvistického, kontextu a niečo v ňom spočítajú. Hypotéza, že rukopis obsahuje viac ako jeden jazyk, je zaujímavá. Ale dalo by sa to nejako ľudsky prejaviť. Štatistické metódy sú stále náznakmi výsledkov, nie výsledkov. -Albert Davletshin. Centrum lingvistických porovnávacích štúdií, IVKA RSUH

Neexistuje kritérium na odlíšenie zaujímavých výsledkov od hrozných

Vyváženejšie stanovisko zaujal Georgy Starostin, expert na komparatívnu historickú lingvistiku (RSUH). Viac ho zaujímalo, aké užitočné sú nové matematické metódy pri riešení problémov, ktorým čelia lingvisti. „Model uvedený v článku pôsobí zvláštnym dojmom. Na jednej strane sa zdá, že patrí do kategórie „nevidiacich“, pričom analyzuje textové údaje bez predbežného posúdenia štruktúry abecedy (napríklad digrafy, ako napríklad anglické ch, sh, by sa mali považovať za kombinácie dvoch písmen, aj keď v skutočnosti ide o jedno zvuk). Na druhej strane sa z porovnávaných strún vyhadzujú samohlásky, ktoré podľa autorov textu obsahujú menej informácií a skôr pridávajú šum. Všeobecne je testovacia základňa zjavne veľmi malá, nemožno hovoriť o niečom zásadnom v toľkých jazykoch. ““

Výsledky porovnania indoeurópskych a uralských jazykov uvedené v porovnávacej tabuľke 3 v článku nenadchýnajú v prípade Starostina osobitný optimizmus. Niektoré ukazovatele stupňa blízkosti jazykov sú zachytené dobre (napríklad vnútremecké alebo vnútrorománske súvislosti), niektoré nedostatočne (napríklad metodika už neidentifikuje indoeurópsku rodinu). Hlavná vec je, že neexistuje žiadne kritérium na rozlíšenie zaujímavých výsledkov od hrozných. V najlepšom prípade metóda umožňuje vyčleniť malé jazykové skupiny (hoci ani tu nefunguje medzi úzko súvisiacimi fínskymi a estónskymi), ale všetky tieto skupiny je možné spoľahlivo identifikovať aj bez nej.

Tabuľka 3 z predtlače, ktorá predstavuje výsledky porovnania indoeurópskych a uralských jazykov. Rovnaká farba v tabuľke. Identifikujú sa 3 skupiny jazykov, ktoré sú si párovo blízke (v zmysle normy L1 distribúcie usporiadaných frekvencií v textoch bez samohlásky). Niektoré neočakávane blízke jazykové páry sú označené červenou farbou, napríklad nemecký / maďarský, anglický / estónsky, latinský / baskický a grécky / fínsky. Autori predtlače: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
Tabuľka 3 z predtlače, ktorá predstavuje výsledky porovnania indoeurópskych a uralských jazykov. Rovnaká farba v tabuľke. Identifikujú sa 3 skupiny jazykov, ktoré sú si párovo blízke (v zmysle normy L1 distribúcie usporiadaných frekvencií v textoch bez samohlásky). Niektoré neočakávane blízke jazykové páry sú označené červenou farbou, napríklad nemecký / maďarský, anglický / estónsky, latinský / baskický a grécky / fínsky. Autori predtlače: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

Tabuľka 3 z predtlače, ktorá predstavuje výsledky porovnania indoeurópskych a uralských jazykov. Rovnaká farba v tabuľke. Identifikujú sa 3 skupiny jazykov, ktoré sú si párovo blízke (v zmysle normy L1 distribúcie usporiadaných frekvencií v textoch bez samohlásky). Niektoré neočakávane blízke jazykové páry sú označené červenou farbou, napríklad nemecký / maďarský, anglický / estónsky, latinský / baskický a grécky / fínsky. Autori predtlače: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Nakoniec, určiť genetickú charakteristiku jazyka distribúciou Hurstovho exponenta je zaujímavý nápad, ktorý sa možno dočkal aj vedeckého bodu. Bude si to však vyžadovať spracovanie veľkého množstva textov v rôznych jazykoch. A okamžite nastáva problém: veľa jazykov je nepísaných a aké správne je porovnávať abecedné záznamové systémy s fonetickými prepismi, zostáva nejasné. Z tejto myšlienky bude mať veľmi malý praktický zmysel, Starostin si je istý. V najlepšom prípade sa to dá skutočne použiť na príhody, ako je rukopis Voynichov, keď existuje hypotéza, že niektorý jazyk so štandardným abecedným písmom je šifrovaný podľa určitých princípov (napríklad vymazaním samohlások atď.). Na svete je však len veľmi málo takýchto incidentov.

Zhrnutie

Čo je v konečnom dôsledku? Diskusia okolo výskumu IPM a MIPT odhalila hlboký rozkol medzi jazykovou komunitou (dokonca aj tými, ktorí používajú štatistické metódy) a „outsidermi“ohľadne lingvistických odborníkov, ktorí sa rozhodli uplatniť svoje matematické nástroje na jazykový materiál.

Skutočnosť, že matematici nechcú spolupracovať s lingvistami, nespôsobuje len hrubé chyby, ktoré potom prechádzajú do médií (napríklad baskičtina v predtlači sa volá indoeurópska, existuje výraz „samohláskové písmená“). Krása modelov a výpočtový výkon superpočítačov sú v skutočnosti znehodnotené chybami v mieste vstupu. Opäť s túžbou a otvorenosťou kontaktov s kolegami z inej disciplíny sa týmto chybám dalo ľahko vyhnúť.

Samotný Voynichov rukopis nájdete tu.