Hoe De Geheimen Van Het Voynich-manuscript Worden Onthuld: Een Onderzoek - Alternatieve Mening

Inhoudsopgave:

Hoe De Geheimen Van Het Voynich-manuscript Worden Onthuld: Een Onderzoek - Alternatieve Mening
Hoe De Geheimen Van Het Voynich-manuscript Worden Onthuld: Een Onderzoek - Alternatieve Mening

Video: Hoe De Geheimen Van Het Voynich-manuscript Worden Onthuld: Een Onderzoek - Alternatieve Mening

Video: Hoe De Geheimen Van Het Voynich-manuscript Worden Onthuld: Een Onderzoek - Alternatieve Mening
Video: 10) Reading of the Keys of the Voynich Manuscript! 2024, Mei
Anonim

Wat er achter het sensationele nieuws over het Voynich-manuscript en over Russische wetenschappers zit, is dat het mogelijk is om nauwkeurig de taal uit de tekst te bepalen, hoe adequaat wiskundigen zijn in het werken op het "veld" van de taalkunde.

Op 19 april verspreidden de Russische media het nieuws over de 'baanbrekende' ontdekking van Russische wiskundigen: met behulp van de nieuwe methode bewezen wetenschappers niet alleen de betekenis van het beroemde 'Voynich-manuscript', maar konden ze ook vaststellen dat het in twee talen was geschreven, met uitzondering van letters voor klinkers.

Het Voynich-manuscript is een middeleeuws geïllustreerd manuscript dat in 1912 werd gekocht door de antiekhandelaar Wilfred Voynich. Gemaakt in de 15e eeuw (gebaseerd op radiokoolstofanalyse van perkament - maar de meeste wetenschappers beschouwen de tekst op dit moment niet als een latere vervalsing), is geschreven in een onbekende taal met een onbekend alfabet. Afgaande op de illustraties, bestaat de tekst uit thematische blokken: botanisch, astronomisch, farmacologisch en andere. De complexiteit van het decoderen van de tekst maakte het Voynich-manuscript tot een ‘heilige graal’ voor cryptografen en het onderwerp van veel studies, ook voor degenen die Big Data-methoden gebruiken.

Het nieuws van het manuscript werd als iets sensationeels gemeld. Dit wekte meteen argwaan. “Voordien mislukten alle pogingen om een uniek document te ontcijferen en zelfs maar te begrijpen of het een zinvolle tekst is. 600 jaar van nutteloze inspanningen!.. Cryptografen van de CIA en NSA, supercomputers en zelfs doktoren van "occulte wetenschappen" tekenden hun volledige onmacht. Het laatste bericht van cryptoloog Gordon Rugg van Keele University in het VK luidt: “Het Voynich-manuscript is nep. Zo'n "complexe tekst" is gemakkelijk te construeren voor iedereen die bekend is met eenvoudige kopieermethoden ", aldus het artikel.

Ten eerste werd de betekenis van de tekst al in de jaren zeventig erkend en meerdere keren bevestigd in studies uit de jaren 2010, waarover zelfs in de binnenlandse media voldoende gedetailleerd werd geschreven. Ten tweede werd de ontdekking die aan het nieuws werd voorgelegd alleen gepresenteerd in de vorm van een instituutsvoordruk, en niet in een artikel in een internationaal peer-reviewed tijdschrift (de voordruk werd ook al in 2016 gepubliceerd).

Deze eigenaardigheden bij de presentatie van het materiaal dwongen ons om eerst opheldering te zoeken bij de auteur van de studie en vervolgens bij onafhankelijke experts - linguïsten die werken met statistische en wiskundige methoden, evenals met het decoderen van oude scripts.

Het is gemakkelijk om een formule te schrijven, maar het is erg duur om een numerieke analyse uit te voeren

Promotie video:

Eerst kort over de essentie van het onderzoek. De auteurs van de voordruk, wiskundigen van het Moscow Institute of Physics and Technology en het Institute of Applied Mathematics van de Russian Academy of Sciences, vertrouwen op hun werken, volgens welke 'de frequentieverdeling van tekstsymbolen een stabiel kenmerk is, niet van de auteur of het onderwerp van de tekst, maar van de taal'. Dat wil zeggen, door een set te gebruiken met behulp van wiskundige tools, kunt u bepalen in welke taal deze is geschreven, omdat elke taal zijn eigen karakteristieke "profiel" heeft (verdeling van de Hurst-exponent). Verder stelden de wetenschappers op basis van deze methoden vast dat de tekst van het manuscript in een mengsel van verschillende talen was geschreven. Tegelijkertijd werden er valse spaties aan toegevoegd en werden de symbolen die klinkergeluiden aanduiden verwijderd.

De hoofdauteur van de studie, Yuri Orlov (IPM RAS en MIPT), benadrukte dat het Voynich-manuscript helemaal niet het hoofddoel van hun werk is. "Het 'sensationele' manuscript is slechts een illustratie van de wiskundige methode om talen uit tekst te herkennen - in feite een probleem voor machine learning," zei Orlov.

Het manuscript zelf is voor ons absoluut niet interessant. Wetenschap verwijst specifiek naar de statistieken van talen. Hierdoor kunnen we begrijpen in welke taal dit manuscript is geschreven. Maar niet wat daar staat, dit is een belangrijk punt. - Yuri Orlov. MIPT en het Instituut voor Toegepaste Wiskunde genoemd naar M. V. Keldysh

Met betrekking tot de linguïstische methode die in het werk wordt gebruikt, merkt Orlov op dat de analyse van de frequentie van lettercombinaties in teksten zelf een bekend iets is. De Hurst-indicator is echter slecht bekend bij taalkundigen, omdat deze zelfs in wiskundige termen moeilijk te berekenen is. De formule zelf is gemakkelijk te schrijven, maar numerieke analyse is erg kostbaar. Hiervoor is de supercomputer die zich bij het Instituut bevindt, vernoemd naar M. V. Keldysh, benadrukt de wiskundige.

De keuze van Indo-Europese talen voor analyse wordt verklaard door het feit dat ze allemaal erg op elkaar lijken, zegt Orlov. Indicatoren die door wiskundigen zijn ontwikkeld, maken het gemakkelijk om talen binnen dezelfde taalgroep te onderscheiden, maar niet tussen families. Natuurlijk is het theoretisch mogelijk om hetzelfde werk uit te voeren met andere groepen (Ural, Altai of anderen), maar de waarde van de analyse ligt in de volledigheid ervan, is Orlov zeker. In het geval van Indo-Europese talen is het niet moeilijk om voor elke taal een corpus van teksten te typen; het is moeilijker om het met andere gezinnen te doen.

Terugkerend naar het Voynich-manuscript, merkte Orlov op dat hij en zijn collega's vijf bewijzen aanhaalden (het logaritmische profiel van de frequentie-ordening van letters in de tekst in een en meerdere talen, de verdeling van de Hurst-exponent, het spectrale portret van de matrix van voorwaardelijke waarschijnlijkheden en andere) van de hypothese over de combinatie van talen in het manuscript en de schrapping letters voor klinkers. Ze distantiëren zich nadrukkelijk van de "hangout rond het manuscript", maar ze presenteerden een uniek resultaat: een open methode, statistische analyse met een betrouwbaarheidsbeoordeling die onafhankelijk kan worden geverifieerd.

De conclusie wordt afgeschreven door het feit dat we niet begrijpen van welk materiaal ze hebben afgeleid en waarvan ze hun formule hebben gecontroleerd

Alleen al de veronderstelling dat de tekst van het Voynich-manuscript geen letters voor klinkers bevat, met onjuist gespatieerde spaties, is mooi en goed, merkt de linguïst Evgenia Korovina op, die zich bezighoudt met wiskundige statistiek van taal (Institute of Linguistics, Russian Academy of Sciences). Eerder kwam niemand met zo'n hypothese. Ze legt bijvoorbeeld prachtig uit waarom er minder letters zijn dan je zou verwachten van een Europese tekst. Maar het probleem is dat de auteurs van de studie niet eens hebben aangegeven welke teksten in verschillende talen ze vergeleken en wat de omvang van deze tests was. Op de voordruk wordt een groot aantal talen genoemd. Daarom is de studie niet reproduceerbaar: als je willekeurige teksten in dezelfde talen neemt, is het geen feit dat dezelfde patronen naar voren zullen komen.

Maria Molina, een specialist in corpusmethoden in de studie van oude talen (Institute of Linguistics, RAS), is het met Korovina eens. Nieuwe methoden voor het verwerken van taalkundige gegevens helpen volgens haar om informatie te verkrijgen over wat voorheen niet toegankelijk was voor taalonderzoekers. Maar onvoldoende voorbereid invoermateriaal brengt zelfs de beste gegevensverwerkingstechnieken vaak in diskrediet.

De conclusie wordt afgeschreven door het feit dat we niet begrijpen van welk materiaal ze het hebben afgeleid en op welke basis ze hun formule hebben getest. Voor mijn materiaal weet ik zeker dat er een kleine methodologische fout is - en ik krijg kritisch verschillende cijfers. - Maria Molina. Instituut voor Linguïstiek RAS

"Garbage in - garbage out", voegt Molina toe (GIGO is een principe in de informatica dat betekent dat onjuiste invoergegevens zullen resulteren in onjuiste resultaten, zelfs als het algoritme zelf correct is, - let op Indicator. Ru).

Statistische methoden zijn nog steeds hints van resultaten, geen resultaten

Albert Davletshin (een medewerker van het Center for Linguistic Comparative Studies van het Institute for Comparative Studies van de Russian State University for the Humanities, bestudeert de Maya- en Polynesische talen) sprak zelfs nog scherper. Als de auteurs van de voordruk het Voynich-manuscript niet zouden ontcijferen, waarom doen ze het dan? En verder, als we het specifiek hebben over het decoderen van onbekend schrift, rijst vraag na vraag: “Er zijn geen initiële gegevens over schrijven - wat voor soort brief? Hoe worden de verschillende transcripties verkregen? Hoeveel karakters? Wat ligt ten grondslag aan bestaande aannames over de aard van schrijven? Wat is de lengte van een woord gescheiden door spaties en zonder spaties? Wat betekenen spaties? Hoe groot is het woordenboek? Wat is de verhouding tussen handtekeningen en tekeningen?

In eerste instantie blijkt dat de tekst Deens is en alleen Deens (en dit is historisch onmogelijk, waarover geen woord in het werk staat). Dan blijkt dat de tekst in twee onbekende talen is (verificatie in dit stadium blijkt onmogelijk en wordt op geloof aangenomen). Bovendien zijn er veel conservatieve manieren om aan te tonen dat twee (grote) pagina's in één letter zijn geschreven, maar in verschillende talen, zonder toevlucht te nemen tot complexe wiskundige modellen. Ten slotte, als klinkers uit de tekst worden verwijderd, hoeveel wordt dit dan bevestigd door standaard, lang bekende methoden (bijvoorbeeld Sukhotin, Shevoroshkina en Ventris)?"

Davletshin bekritiseert ook de ongevoeligheid voor filologie en geschiedenis die kenmerkend is voor dit soort onderzoek:

Wat ik zie in de tekst: er zijn vaak mensen die bron X willen nemen en vergeten dat het een bron is en bestaat in een of andere historische, inclusief taalkundige context, en er op de een of andere manier iets in meetellen. De hypothese dat een manuscript meer dan één taal bevat, is interessant. Maar je zou het op de een of andere manier menselijk kunnen laten zien. Statistische methoden zijn nog steeds hints van resultaten, geen resultaten. -Albert Davletshin. Centrum voor taalvergelijkende studies, IVKA RSUH

Er is geen criterium om interessante resultaten te onderscheiden van vreselijke

Een evenwichtiger standpunt werd ingenomen door Georgy Starostin, een expert in vergelijkende historische taalkunde (RSUH). Hij was meer geïnteresseerd in hoe nuttig nieuwe wiskundige methoden zijn voor het oplossen van problemen waarmee taalkundigen worden geconfronteerd. “Het model dat in het artikel wordt gepresenteerd, maakt een vreemde indruk. Aan de ene kant lijkt het te behoren tot de categorie 'blinden', waarbij tekstgegevens worden geanalyseerd zonder enige voorlopige beoordeling van de structuur van het alfabet (digraphs, zoals het Engelse ch, sh, moeten bijvoorbeeld worden beschouwd als combinaties van twee letters, hoewel dit in feite een geluid). Aan de andere kant worden klinkers uit de vergeleken snaren geworpen, die volgens de auteurs van de tekst minder informatie bevatten en eerder ruis toevoegen. Over het algemeen is de testbasis duidelijk erg klein, het is onmogelijk om in zoveel talen over iets fundamenteels te praten."

De resultaten van de vergelijking van Indo-Europese en Uralische talen, gepresenteerd in vergelijkende tabel 3 in het artikel, wekken geen bijzonder optimisme bij Starostin. Sommige indicatoren van de mate van nabijheid van talen worden goed weergegeven (bijvoorbeeld intra-Germaanse of intra-romaanse verbindingen), andere slecht (de methodologie identificeert bijvoorbeeld niet langer de Indo-Europese familie). Het belangrijkste is dat er geen criterium is om interessante resultaten te onderscheiden van vreselijke. In het beste geval maakt de methode het mogelijk om kleine taalgroepen te identificeren (hoewel ze zelfs hier niet werkt tussen nauw verwante Fins en Ests), maar zonder deze methode kunnen al deze groepen betrouwbaar worden geïdentificeerd.

Tabel 3 van de voordruk, die de resultaten presenteert waarin de Indo-Europese en Uralic-talen worden vergeleken. Dezelfde kleur in de tafel. Er worden 3 groepen talen geïdentificeerd die paarsgewijs dicht bij elkaar liggen (in de zin van de L1-norm van de verdelingen van geordende frequenties in teksten zonder klinker). Sommige onverwacht nauwe talencombinaties zijn rood gemarkeerd, zoals Duits / Hongaars, Engels / Ests, Latijn / Baskisch en Grieks / Fins. Preprint-auteurs: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
Tabel 3 van de voordruk, die de resultaten presenteert waarin de Indo-Europese en Uralic-talen worden vergeleken. Dezelfde kleur in de tafel. Er worden 3 groepen talen geïdentificeerd die paarsgewijs dicht bij elkaar liggen (in de zin van de L1-norm van de verdelingen van geordende frequenties in teksten zonder klinker). Sommige onverwacht nauwe talencombinaties zijn rood gemarkeerd, zoals Duits / Hongaars, Engels / Ests, Latijn / Baskisch en Grieks / Fins. Preprint-auteurs: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

Tabel 3 van de voordruk, die de resultaten presenteert waarin de Indo-Europese en Uralic-talen worden vergeleken. Dezelfde kleur in de tafel. Er worden 3 groepen talen geïdentificeerd die paarsgewijs dicht bij elkaar liggen (in de zin van de L1-norm van de verdelingen van geordende frequenties in teksten zonder klinker). Sommige onverwacht nauwe talencombinaties zijn rood gemarkeerd, zoals Duits / Hongaars, Engels / Ests, Latijn / Baskisch en Grieks / Fins. Preprint-auteurs: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Ten slotte is het een interessant idee om het genetische kenmerk van een taal te bepalen door de verspreiding van de Hurst-exponent, en misschien zelfs tot een wetenschappelijk punt gebracht. Maar hiervoor moet een groot aantal teksten in verschillende talen worden verwerkt. En het probleem doet zich meteen voor: veel talen zijn ongeschreven, en hoe correct het is om de alfabetische opnamesystemen te vergelijken met fonetische transcripties, blijft onduidelijk. Dit idee heeft weinig praktisch nut, is Starostin zeker. In het beste geval kan het echt worden toegepast op incidenten zoals het Voynich-manuscript, wanneer er een hypothese is dat een taal met een standaard alfabetisch schrift is gecodeerd volgens bepaalde principes (bijvoorbeeld met het verwijderen van klinkers, enz.). Er zijn echter maar heel weinig van dergelijke incidenten in de wereld.

Opsommen

Wat staat er op de onderste regel? De discussie rond het IPM- en MIPT-onderzoek bracht een diepe kloof aan het licht tussen de taalgemeenschap (zelfs degenen die statistische methoden gebruiken) en "buitenstaanders" met betrekking tot taalkundespecialisten die besloten hun wiskundige hulpmiddelen toe te passen op taalkundig materiaal.

Het feit dat wiskundigen niet met taalkundigen willen samenwerken, leidt niet alleen tot grove blunders, die vervolgens naar de media migreren (de Baskische taal in de voordruk wordt bijvoorbeeld Indo-Europees genoemd, er is de uitdrukking "klinkerletters"). De schoonheid van de modellen en de rekenkracht van supercomputers wordt in feite gedevalueerd door fouten op het punt van binnenkomst. Nogmaals, met de wens en openheid van contacten met collega's uit een andere discipline, konden deze fouten gemakkelijk worden vermeden.

Bekijk hier het Voynich-manuscript zelf.

Aanbevolen: