martes, 23 de octubre de 2018

La solución al enigma del Manuscrito Voynich

Qué encontrarás en esta entrada?
  • Historia y curiosidades del Manuscrito Voynich.
  • Un poco de análisis estadístico sin ningún rigor científico.
  • El resumen de la "verdadera" trama del manuscrito tras mi traducción. 

Me gustaría deciros que he resuelto el escurridizo enigma que encierra el misterioso Manuscrito Voynich, y que además era trivial, que se veía a "simple vista"... pero, como ya sospecharéis, os estaría mintiendo.

Para los que no conozcáis el Manuscrito Voynich, se trata un antiguo texto datado de principios del siglo XV y su peculiaridad es que está escrito en una lengua que nadie ha sabido descifrar hasta el momento, a la que se le ha bautizado como voynichés, en honor a Wilfrid M. Voynich (el especialista en libros antiguos que lo adquirió en 1912 y gracias al cual se ha popularizado esta obra).

La datación se hizo por carbono 14 (con un 95% de fiabilidad) y parece no haber discrepancia en aceptar que el manuscrito es auténticamente medieval. Con respecto al texto que contiene, parece escrito en una lengua "natural", ya que cumple la Ley de Zipf (los idiomas ficticios, al no haber sufrido el desgaste del uso real, no la cumplen). Por las ilustraciones, parece una suerte de manual botánico/alquímico con referencias a la fertilidad y a la astrología. Quizás su temática potencialmente pagana fue motivo para encriptarlo, aunque la encriptación - dependiendo de cómo se hiciese - choca un poco con el cumplimiento de la Ley de Zipf. En definitiva, un texto lleno de misterio.

Muchos han sido los que han dicho estar a punto de resolverlo, pero parece que nadie puede mantener por mucho tiempo esa afirmación. La última noticia fue el uso de una inteligencia artificial por parte de la Universidad de Alberta que supuestamente identificó el idioma como hebreo, sin embargo, hay muchos expertos que ponen en duda este descubrimiento y de momento no ha conseguido mucho más como para determinar que estemos a las puertas de una traducción completa del documento.

Páginas como esta o esta otra han recopilado completos estudios sobre el misterioso texto, empezando por su abecedario:

Fuente: http://skyknowledge.com/voynich.htm
Fuente: http://www.voynich.nu/transcr.html

Como la gente lleva mucho tiempo realizando estudios serios, yo me he dedicado a hacer un poco el tonto con Octave. Al intentar aproximarme al problema por primera vez (antes de ver las tablas de arriba), me di cuenta de que era necesario asignar letras a cada símbolo para construir un alfabeto y poder realizar cálculos estadísticos. Abajo muestro mi primera asignación (un poco errónea, ya que probablemente habría agrupado varios símbolos distintos como si fuesen uno solo).


La idea era que la asignación podría ser arbitraria, porque luego iba a "encontrar" el conjunto de caracteres más adecuados. Para esto hice una hipótesis totalmente falsa: que la frecuencia con las que aparecen las letras no varían de un idioma a otro. En inglés ya podemos ver cómo el uso de letras como la "w" no tienen nada que ver con el castellano, por lo que está claro que la idea estaba abocada al fracaso, pero había que probarlo.

Con el abecedario anterior, y alguna que otra metedura de pata en mi transcripción chapucera, me puse a trabajar en la página 5 del manuscrito por parecerme de fácil lectura y no muy larga:


"pgdawg    gfrok    daw    oprak        gfraw    hokdg
doqroqg                rpaqs        roq    hg    ho
eopaw                Hcgg        roq    rg    gdg        raw
iandg                rpoddg        fg    daks        ropaw    d
oporoq    ak            iodaw        rokdw        gpraw    gw
saw    dawd        dpok    soq        gpokdg    drok        drg    hg
ioq    hg        dawg    rokdw

pgdaw    raw        eog    q    iok    fodw            gpi    okiccg    dankdg
dkqio    pok    iccg        eopcg gpodg    so            rok    gpg    daw    danqog
etpg        rokaw    rok        icpg        daw        hccg        pcok        zaw    zaw
graw    dakrg    dakoq        iw    dw        okqaw        iccg    hcoq
opok    rg    roq    hcoq    goq    w    rw        qaw        rcpg        rgpg yak
io    gpccg    rcg        daw    rhg"

¡Precioso! ¡Qué poesía! Es escuchar "w rw qaw rcpg rgpg yak" y se me pone la piel de gallina... Ahora en serio: vamos a suponer que la frecuencia con la que aparece cada una de las letras es la misma que la del castellano. Es decir, no sé si lo que yo he llamado "w" es una "w" o una "e", pero vamos a suponer que la podemos identificar con la letra que aparezca con igual frecuencia en nuestro idioma. Por justificar un poco lo injustificable, si fuese una encriptación que simplemente recodificase cambiando la grafía de las letras, pero estuviese escrito en castellano, este método no sería tan tonto como suena a priori. Igual si estuviese escrito en una lengua romance, a lo mejor recolocando las letras nos daba alguna pista.

El caso es que no queda mucho más claro:

"RESOIE    EVLAN    SOI    ARLON        EVLOI    MANSE
SAULAUE                LROUY        LAU    ME    MA
HAROI                MDEE        LAU    LE    ESE        LOI
TOGSE                LRASSE        VE    SONY        LAROI    S
ARALAU    ON            TASOI        LANSI        ERLOI    EI
YOI    SOIS        SRAN    YAU        ERANSE    SLAN        SLE    ME
TAU    ME        SOIE    LANSI

RESOI    LOI        HAE    U    TAN    VASI            ERT    ANTDDE    SOGNSE
SNUTA    RAN    TDDE        HARDE ERASE    YA            LAN    ERE    SOI    SOGUAE
HJRE        LANOI    LAN        TDRE        SOI        MDDE        RDAN        COI    COI
ELOI    SONLE    SONAU        TI    SI        ANUOI        TDDE    MDAU
ARAN    LE    LAU    MDAU    EAU    I    LI        UOI        LDRE        LERE PON
TA    ERDDE    LDE        SOI    LME"

La verdad es que el método es bastante malo, y de hecho no funciona ni con el propio texto de muestra en castellano (para medir la frecuencia de la aparición de letras en castellano, las he contado directamente de un fragmento de El Quijote).

Frecuencia de la traducción basada sólo en la página 5

Frecuencia del texto completo

En las gráficas de arriba vemos, primero, la frecuencia con la que aparecen las letras en la muestra (el fragmento de El Quijote). Después, la frecuencia con la que aparecen las letras del manuscrito con una asignación dada, y a qué letras de la muestra se parecen por su frecuencia de uso. Por último, la frecuencia de las letras reordenadas según la frecuencia de la muestra.

Uno podría pensar que el programa afinaría un poco más contra mayor sean los textos usados (tanto la muestra en castellano como el texto a traducir del voynichés), por lo que en la segunda gráfica de arriba utilizamos el texto completo del manuscrito. He utilizado esta transcripción (podéis ver más aquí). Sin embargo, el resultado no es muy alentador. Os dejo un poco del principio:

"ZAOA2 ASON OD AUOC TRN TRDA 0S0DE2 ASRD TRN8A 2RDA SIOD RDA SOFD LUOC TRD OD UIOD UIOD 8OXO 2AOFFD TESA RD ASOC TR8 UIRODA UIE2 8ODOC 2A 0RC RUEEA RUEOD DRNRUA UIOOD 8OC RSOC RD RSOX 2OFDA LEOD UIOC HIOD ZIOC A8ODOFTA R8OD TA TRN HIRA RA8OD T 2 ZIROC TR8ODA ATEA TR8A RSLR A RULRN LRUIA R2LA 8OJ LRD SR2 8OC TRD ZIRN TR8A 8OJ 02 UER8A A8OJ HIE2OC RN2 HIEA AUOJ TRTA HIR8ONE2 RSTR STRA RUOFDJ RUERN RSOX TR8OJ 2SIEA 8OC TRA SIEA SR8OC HIA HI08OFFN2 UIEA TE RN8OJ 8 8OJ RC LRN R8OC LR8OJ L8A RSRJ 80D UIA SR8 8OC TSIEA SIRD LRD TEA SRN LRN LRN SRD LRN TR LRN TR8OX STA SLA 8RD LR8OC TR SREOG ALR ULEA LESOJ TER HTRN 8A8A8 UIA 8OFUIA AUR TRN TE SR8TEA HIEONA 8ODOJ 8OJ SIA82 8LOD TUIOC RSOFFD LEA 2LA HIURN UIRN2 8OREUO TRS LRD LEA 8OJ SIEA RURN 8OFC HIR TOC TRSLEEA LRN UTR8EE2A TEA HA8EEA LA DR8 00RJ LRN 8OJ UION 8OD TEOD SOC 8OD TEA UIEOD"

También es cierto que en esta transcripción se usan números que yo he obviado, ya que tenía en mente mi "segunda gran idea". Para ver estadísticas sobre los caracteres del Voynich, os recomiendo esta página.

Segunda disparatada hipótesis: las palabras (con sus funciones y significados) son igualmente frecuentes en todos los idiomas. Es decir, esta loca propuesta supone que si la palabra "perro", por ejemplo (me lo voy a inventar) aparece un 0,05% de las veces en el castellano, si encuentro una palabra en un texto desconocido que aparezca el 0,05% de las veces, esa palabra significará "perro".

Evidentemente, esto es una idea bastante absurda, más aun si lo aplicamos a un texto técnico como el que nos ocupa: está claro que el Manuscrito Voynich contendrá términos botánicos con mucha mayor frecuencia que con la que los usamos de media en el castellano. Sin embargo, pensé que podría salir algo que, si no acertado, al menos podría ser divertido.

Para comparar las frecuencias me he basado en el listado de frecuencias de palabras en castellano de la RAE, y en un recuento que he hecho yo mismo con Octave de las palabras transcritas del manuscrito.


Con ello, he podido verificar por mi mismo de paso la Ley de Zipf:


Aunque hay que echarle un poco de imaginación. Matemáticamente, la Ley de Zipf se puede expresar como que la frecuencia decae como una potencia de la inversa del número de orden. Si se toman logaritmos en esta expresión, nos sale que en una doble representación logarítmica deberíamos ver una recta. La ley indica también la pendiente de la recta, porque asegura que la potencia debe ser un número real positivo, y eso se traduce en una recta de pendiente negativa. Pues bien, vemos la pendiente negativa, vemos una tendencia a comportarse como la curva del castellano, pero la verdad es que asegurar que eso es una recta me parece un poco cogido por los pelos. Sin embargo sí parece que ambas siguen algún tipo de ley, y diría que tanto castellano como voynichés la cumplen "igual de bien".

Recordemos que esta gráfica es "la prueba" de que el voynichés es un "lenguaje natural" en lugar de uno inventado. No hay más voynichés que el que aparece en este manuscrito, y lo hemos analizado entero para obtener la gráfica de arriba, así que en ella está representada la tendencia del 100% de las palabras del voynichés con sus respectivas frecuencias. Si no he metido la pata, 7.420 palabras distintas para formar un texto de 33.750 (aunque según estos datos, serían 36.300 con 6.992 únicas, supongo que depende de lo completa que sea la transcripción escogida).

El texto traducido con la última hipótesis, como adelantábamos, no tiene mucho sentido y es relativamente extenso (concretamente, 33.750 palabras), así que destacaré sólo algunas frases. El texto empezaría así:

"Surge tenía su ser lo policía debían amor gente dispuestos quince decir nunca fuentes le su toda toda pensado pepe parte una era he secretos..." 

Donde yo leo claramente que había gente con miedo a la policía que estaban dispuestos a no revelar nunca sus fuentes para guardar algún tipo de secreto. Contra todo pronóstico, el Manuscrito Voynich es claramente una novela negra de intriga policíaca.

Otro fragmento interesante sería:

"...mientras experiencia pues los si religiosa cuando por vecino sobre hoy afirmó como en federico siempre me hace llevar cosas lugar horas más otra mayor niveles son hoy tradicional..."

En el texto se nos presenta al protagonista como un "llanero solitario". Quemado por una serie de malas experiencias en sus relaciones personales, se centra en ser el mejor en su trabajo. Podemos leer en el párrafo anterior, sin lugar a duda, cómo éste ha tenido una "revelación", o "experiencia religiosa", al darse cuenta de que su desconsiderado vecino (un tal Federico) siempre le tiene liado con recados, llevando cosas a cualquier lugar y a todas horas, hasta tal nivel que ha sentado tradición. Esto le quema y le hace sentir utilizado.

"...sustancias minutos cierra mientras denominado cortar trabajadores excepto garantías en cultura madre ambiente envió guerra qué explotación entonces en industrias niños rapidez poner en le mercado entonces en dijo con niños comportamiento un reformas mercado en guardia las existen entonces organización..."

El drama social aparece con el cierre de una fábrica por emitir sustancias tóxicas para el medio ambiente, (o "madre" naturaleza). Esto implica cortar el trato con algunos trabajadores con despidos improcedentes que no respetan la mínima garantía legal. En paralelo, la empresa contrata a niños que realizan con rapidez el trabajo en las sombras por un salario mínimo. La aparición de mafias que ésto conlleva establece los pilares del sórdido ambiente en el que trascurre la trama.

En frases como la siguiente:

"...eso niños a sólo primer entonces calidad acto duda pensé debe unos desempleo en era balón suficiente niños razón o comisión..."

Se ve que la situación era tal, que en algunos casos el único pago que recibían estos niños por sus trabajos ilegales manipulando residuos tóxicos era tan solo un balón. O aceptaban el balón como "razón o comisión", o les esperaba el desempleo.

Evidentemente, esta situación es insostenible, y la ciudad se alza en armas:

"...hubo niños hechos dinero minutos número una república a según comisión francisco hicieron sangre no obras dinero nervios razón salvo quienes por del por interna tras poder bancos justicia no año traducción economía justicia en militares ahora dolor tenido dinero tenido movimientos quienes poner razón razón fuego tiempo a ahora..."

Mucha gente hizo dinero aprovechándose de la precariedad existente: "¡hubo niños hechos dinero!", clama dramáticamente la novela. "Hicieron sangre, no obras, dinero", destacando lo peligroso del trabajo que se justificaba en nombre del vil metal. Detrás de todo esto estaba implicado el poder financiero (encarnado por los bancos), y se especulaba con la participación del poder judicial e incluso los militares, a los que se les recriminaba que si se habían aprovechado del dinero, ahora les tocaría dolor, que si ellos justificaron la razón, ahora la razón justificaría el fuego.

Y no os cuento más para no reventaros el final. Espero que os lo leáis (podéis encontrarlo en "Voynich, la novela negra") y os guste tanto como a mi.

4 comentarios:

  1. y que tal si asignaras un numero a cada sibolo y analizas la combinaciones talvez decubririas cuales son vocales o consonantes o palabras, o podrias comparala con otros alfabetos ya conocidos como el mandarin, para ver cual tiene la mismas combinaciones

    ResponderEliminar
    Respuestas
    1. Jeje, lo que necesitaría es el análisis de un buen lingüista :)! El problema de las sílabas es que no sabría cómo aislarlas en cada palabra. Por otra parte, no tengo conocimiento alguno de otras lenguas, por lo que no sabría qué criterios seguir para realizar comparaciones (por eso uso criterios meramente estadísticos). En cualquier caso, es un misterio que lleva años teniendo en vela a eruditos de todo el mundo :), no pensaba resolverlo yo en 5 minutos con un script cutre :).

      Eliminar
  2. EL TEXTO SEGUN UN DOCUMENTAL H¿DE HISTORY CHANEL SUGIERE QUE ES ITALIANO, ¿CREES QUE AL CAMBIAR EL CATELLANO EN ITALIANO (PUESTO QUE AMBOS VIENEN DEL LATIN) CAMBIE LA PRECISION DEL TEXTO VOYNICH?????

    ResponderEliminar
    Respuestas
    1. Hola DEYRA,

      ¿Te refieres a cambiar en mi método el español por el italiano? Bueno, está claro que los métodos que comentaba aquí no tienen mucha validez (ya sea en español o en italiano). Hubiese sido interesante que saliese algo con sentido, pero son métodos construidos sobre premisas muy malas: sería un milagro que diesen algo distinto a un galimatías.

      Por otra parte, hay mucha gente que ha trabajado mucho más en serio que yo en este problema. Espero que algún día se resuelva el misterio y confirmemos si se trataba o no de la novela policíaca que predije, jejeje.

      ¡Muchas gracias por tu comentario! ¡Un saludo!

      Eliminar

Querido astarothista!,

Si te ha gustado la entrada y quieres dejar constancia de ello, tienes alguna sugerencia para completarla o corregirla, quieres mostrar tu opinión respecto a algo de lo que se haya hablado en esta entrada (con respeto) o simplemente quieres dejarme un mensaje a mi o a la comunidad, no dudes en comentar ;)!

Recuerda que también estamos en Facebook y en Google+.