Correlaciones de largo alcance en el genoma humano (NOTA 1)

Dr. Ricardo Mansilla
Dr. Nelson del Castillo
(NOTA 2)

[Agradecemos a los doctores Enrique Ruelas Barajas, Ricardo Mansilla, Javier Rosado,  coordinadores del libro, así como al autor del artículo la autorización para su publicación.]

Sin duda alguna, el descubrimiento del código genético es una de las conquistas científicas más notables alcanzadas por nuestra civilización. Solamente transcurrieron 53 años desde el seminal trabajo de J. Watson y F. Crick(NOTA 3) hasta el extraordinario logro intelectual de la secuenciación del genoma humano.(NOTA 4) No obstante, en ese breve lapso, nuestra cultura logró una comprensión primordial de la molécula que rige los aspectos fundamentales de la replicación de buena parte de los seres vivos. El alcance del conocimiento acumulado nos coloca en una encrucijada donde se avizoran extraordinarios progresos en muchas ramas de la medicina, las ciencias forenses, la antropología, la fabricación de fármacos, etc. En contraparte, estos logros extraordinarios tienen una cara opuesta relacionada con dilemas esenciales para nuestra especie: la clonación de seres vivos, la manipulación genética de alimentos y el uso perverso del pronóstico de enfermedades degenerativas, los cuales ponen a la humanidad ante disyuntivas de alcances éticos, jurídicos y filosóficos nunca antes vistos.

En opinión del físico de origen ruso G. Garnov, el trabajo de J. Watson y F. Crick, “incorporó la biología al conjunto de las ciencias exactas”,(NOTA 5) y dio inicio a una etapa de acumulación de datos genéticos que ha culminado con la completa secuenciación de muchos genomas, en particular el del ser humano y el del chimpancé. A partir de esto hemos comprendido, en principio, lo que sería el hardware de la molécula de la vida. No obstante, sólo se ha logrado alcanzar una mínima comprensión de la manera como funciona el software de la misma. Si bien los procesos moleculares de edición y trascripción se conocen muy bien, la compleja maquinaria del metabolismo celular, constituida por una intrincada red de reacciones funcionales, está lejos de ser bien comprendida. Además, se desconoce buena parte de las funciones del genoma de los organismos eucariotes. Se puede citar como ejemplo, en particular, el caso del genoma humano del cual sólo el 5%, aproximadamente, codifica para la producción de proteínas o participa en otros procesos de regulación, mientras que las funciones del 95% restante, si las tienen, no son conocidas. Más aún, es bien sabido que los cromosomas humanos son muy diferentes, uno de otro, en cuanto a tamaño, densidad de genes y características estructurales.(NOTA 6)

Otro aspecto importante en el estudio de la molécula de la vida es el relativo a la interacción de sus características estructurales y funcionales, así como al de su historia evolutiva. Desde sus versiones primigenias hasta los actuales genomas, las mutaciones han influido en la composición de su estructura. Estas últimas han tenido que rivalizar con las funciones de las secuencias que afectan. Si bien algunas de ellas se han incorporado de manera definitiva a la secuencia de los nucleótidos, otras han ocasionado la muerte de los organismos en los cuales han aparecido. En cierto sentido, la evolución de la molécula de ADN es resultado de la historia de la interacción entre las mutaciones que ha sufrido y la adaptación de los organismos de los que forma parte.
Es importante mencionar que, una vez que fueron secuenciados los primeros sectores de algunos genomas, se iniciaron estudios sobre la estructura de los mismos. Estos trabajos fueron básicamente de carácter estadístico,(NOTA 7) y se enfocaron en especial a la investigación de las propiedades elementales de las secuencias, tales como la frecuencia de aparición de los nucleótidos y de ciertos dímeros, en particular el contenido de citosina y guanina.
El conocimiento de la estructura cromosómica en los organismos eucariotes estimuló la investigación de correlaciones entre nucleótidos separados a diferentes distancias en una misma cadena. Dicho estudio se emprendió para entender la complicada estructura espacial de varios niveles de solenoides en los que se encuentra empaquetado el ADN en los cromosomas, lo que hace que nucleótidos separados a distancias grandes sobre la cadena lineal puedan estar próximos en la estructura cromosómica. En otras palabras, se planteó que debían existir correlaciones entre diferentes nucleótidos situados a grandes distancias. Por lo mismo, como veremos más adelante, se supuso que cabría esperar un comportamiento cuasi periódico en la estructura de las secuencias genéticas.
La primera referencia(NOTA 8) que apareció en la literatura especializada, en torno a las correlaciones de largo alcance en el ADN se abocó a describir éstas a partir de las funciones de autocorrelación de los diferentes nucleótidos, considerando la secuencia de los mismos como un texto; habida cuenta de que se trata de una cadena de símbolos (A , C , G , T ) y se pretende obtener una medida numérica de la correlación.
En la literatura se ha reportado que existen al menos siete maneras diferentes de codificar las cadenas de nucleótidos,(NOTA 9) conforme a la fortaleza del enlace entre los mismos (dos o tres puentes de hidrógeno, ver figura 1), el tipo de las bases (purina o pirimidina), etc. Por ejemplo, si elegimos la siguiente codificación:

A, T → 1
C, G → 2

se obtiene una cadena de nucleótidos como la que sigue:

---AGCGCGATAGCTATATCGGATGCGATAGCGATAGCGAT----

que se convierte en la siguiente cadena de números:

-----12222211122111111222211222211122211122211-----

Así, la función de autocorrelación de la cadena anterior se define de la siguiente manera:

donde Pαβ es la probabilidad de encontrar el símbolo α separado del símbolo β a una distancia d, y  es la probabilidad de hallar el símbolo α en la cadena  y Є{1,2} .


Figura 1. Vista esquemática de una porción de la molécula de ADN. La estructura dentro del cuadro es un nucleótido compuesto por un grupo fosfato, un azúcar y una de las cuatro posibles bases: Adenina, Citosina, Guanina y Timina. En la parte superior aparece una descripción más precisa de los nucleótidos, donde se aprecian los puentes de hidrógeno que forman los "peldaños" de la doble hélice del ADN. Nótese que la Adenosina y la Guanina son moléculas más grandes que la Citosina y la Timina, los números 3' y 5' representan los carbonos 3 y 5 de los anillos de Desoxyribosa.

Si nucleótidos separados a gran distancia en la cadena lineal debían tener afinidad electroquímica para garantizar el empaquetamiento del ADN en la estructura cromosómica, cabría esperar un comportamiento cuasi periódico de la función anterior como se muestra en la figura 2. Entonces valores altos de esta función indicarían una correlación fuerte a la distancia correspondiente; mas, como se sabe, en realidad ocurre algo diferente.
Para asombro de todos, la propiedad que ofrecieron los primeros estudios de este tipo(NOTA 10) fue que la función de autocorrelación parecía seguir una ley de potencias:

Como veremos más adelante, esto es apenas una primera aproximación, pero de cualquier manera generó una serie de trabajos que proponían analogías, algunas muy aventuradas y otras muy fructíferas entre el comportamiento de las secuencias de nucleótidos y otros fenómenos físicos, tales como la transmisión de datos, computación al borde del caos, invarianza de escala en las estructuras, etc. Discutiremos a continuación con cierto detalle las más relevantes para esta exposición.
Como hemos dicho antes, se tenía un conocimiento aceptable del hardware del ADN, pero su software era prácticamente desconocido. Esta analogía iba mucho más allá, pues en la molécula de ADN se encuentra codificada la información que genera todas las estructuras de los seres vivos. La maquinaria molecular “calcula” las proteínas a partir de los inputs encriptados en la secuencia de ADN. Por ende, el intento de usar conceptos tomados de la teoría de la computación estaba razonablemente justificado.


Figura 2. Aspecto esperado de la función de autocorrelación para una secuencia genética, habida cuenta de que el ADN se encuentra empaquetado en los cromosomas en una estructura de varios niveles de solenoide, por lo que se supuso que era de esperar que nucleótidos cercanos entre sí en esa estructura estuviesen separados a gran distancia sobre la cadena lineal. En consecuencia, debían de existir correlaciones de largo alcance entre nucleótidos; pero, como se sabe, no sucede así entre los mismos a diferentes distancias, entonces podría codificarse la secuencia de nucleótidos en una secuencia numérica.

En este sentido fue muy influyente el trabajo de C. Langton,(NOTA 11) el cual mostró cómo ciertas estructuras computacionales, llamadas autómatas celulares, tenían transiciones de fase similares en su comportamiento a las de algunos fenómenos físicos. En dichas transiciones se observó invarianza de escala en algunas de sus propiedades. En su caso, emergían procesos de cómputo basados en la cooperación de diferentes células del autómata. Langton utilizó la función de información mutua para medir la correlación entre las células participantes.
El concepto de función de información mutua apareció por primera vez en el notable trabajo original de Claude Shannon.(NOTA 12) Más tarde, sus resultados fueron generalizados por varios matemáticos soviéticos a los alfabetos abstractos, lo que culminó en el trabajo de R. L. Dobrushin.(NOTA 13) La idea original era medir la incertidumbre promedio entre diferentes puntos de un canal de comunicación, pero, como ocurre con frecuencia, con las ideas brillantes se introdujo en otros campos de investigación. Se define como sigue:
Sea  , donde ai Є{0,1}. Llamamos función de información mutua de la cadena x a:

donde Pα'β (d) y Pα tienen el mismo sentido que para la función de autocorrelación definida con anterioridad. Conviene aclarar aquí, que la función de información mutua es más sensible que la de autocorrelación,(NOTA 14)es decir, logra detectar correlaciones aun cuando la función de autocorrelación no las detecta.
Langton mostró la interesante propiedad según la cual los valores de la función de información mutua eran más altos para determinados niveles de la entropía de Boltzman-Shannon:

Este último hecho revistió la mayor importancia, pues como se sabe,(NOTA 15) el almacenamiento de información disminuye la entropía mientras que su transmisión la aumenta. Si un sistema computa, debe realizar ambos procesos y en consecuencia tiene que ocurrir un balance entre los dos mecanismos antagónicos. El trabajo de Langton mostró que esto ocurría exactamente en la transición de fases del sistema.(NOTA 16)
Por tanto, el comportamiento de la función de autocorrelación de las secuencias de ADN, como una ley de potencia, parecía ser el rastro de los procesos de cómputo que la molécula realizaba.
Lo anterior enfrentó a los investigadores con la inevitable pregunta: ¿cuál mecanismo daba lugar a este comportamiento? Más precisamente, ¿cuáles características de la historia evolutiva del ADN eran responsables de la conducta observada en la función de autocorrelación de las secuencias de nucleótidos?
En lo que atañe a este tema fue muy relevante el trabajo de A. Lindenmayer,(NOTA 17)quien buscó crear un marco teórico para explicar el desarrollo de tejidos celulares a partir de la interacción local de éstas. Su enfoque tenía mucho en común con ciertos aspectos de la teoría de la computación, en particular con los lenguajes libres de contexto. Si bien su trabajo no tenía la intención de describir el proceso de mutaciones en las secuencias de ADN, brindó, sin duda, una referencia teórica adecuada para la construcción de modelos posteriores.
W. Li(NOTA 18) fue uno de los que los desarrolló en un estudio que proponía modelos muy generales cuya finalidad consistía en describir el surgimiento de estructuras con espectro espacial de tipo  . No obstante, como se expone más adelante, algunos casos particulares sugerían una posible explicación para las correlaciones de largo alcance en el ADN.
El concepto fundamental de su trabajo se refiere a los sistemas de expansión-modificación, que se exponen enseguida brevemente.
Denotemos con Ω el conjunto de todas las cadenas binarias infinitas. Esto es, si   x Є Ω, entonces  , donde ai Є{0,1}. Sea ahora  una aplicación estocástica definida como sigue:
Si x Є Ω,  , entonces cada dígito binario de x evoluciona por medio de  en la siguiente manera:(NOTA 19)

Nótese que si x Є Ω, entonces  :(x) Є Ω. El mecanismo anterior amplía la longitud de la cadena en cada posición con probabilidad 1 — p, y la modifica con probabilidad  p. El proceso de expansión tiende a aumentar la correlación entre los dígitos binarios, mientras que el de mutación de un dígito binario en otro tiende a destruirla.
Al hacer algunas aproximaciones bastantes audaces en el trabajo de W. Li podía mostrarse que, en efecto, la función de autocorrelación se comportaba como una ley de potencias, esto es:

además, este estudioso encontró una relación analítica entre el exponente ε y la probabilidad de mutación p antes descrita:

donde d0 es la distancia más probable a la que dos elementos de la cadena simbólica se separan, k corresponde al factor de dilatación promedio de toda la cadena y   viene a ser valor propio dominante de la matriz de transición de estados de la distancia d1 a la distancia d2 en un sistema de Lindenmayer libre de contexto (ver referencia 14). En este sentido el trabajo de W. Li es un digno heredero de la formulación original de A. Lindenmayer.
La relación entre el exponente teórico calculado con la ecuación anterior y el exponente empírico obtenido de las simulaciones era relativamente buena en lo que respecta a valores pequeños de la probabilidad de mutación p, pero divergía notablemente para valores grandes (ver figura 4 de la referencia 15). Esto constituía una limitación importante de la aproximación obtenida.
¿Qué relación tenía todo esto con la evolución del ADN? A lo largo de su historia, desde las moléculas primigenias hasta las actuales, las mutaciones han afectado la estructura de las cadenas de nucleótidos. De todos los tipos de mutaciones reportados en la literatura, solamente las puntuales (esto es, cambio de un nucleótido por otro) y las inserciones (introducción en algún punto de la cadena de una secuencia de nucleótidos) tenían la capacidad de generar correlaciones de largo alcance con las características observadas en las secuencias reales de ADN. En este aspecto, el modelo de W. Li, antes descrito, captaba los ingredientes básicos de esta dinámica mutacional.
Como ya hemos dicho, el ansatz de que la función de autocorrelación era una ley de potencias no resultaba completamente satisfactorio, como tampoco para la función de información mutua. La razón básica era que tanto para valores muy pequeños como para los muy grandes de la distancia d, el comportamiento de la función real, esto es, calculada a partir de los datos y de la aproximación teórica, divergía.
Se sugirieron diversas hipótesis para explicar este fenómeno. En lo que respecta a los valores grandes de d el argumento favorito fue la finitud de los datos.(NOTA 20) No obstante, años más tarde, cuando ya existían genomas completamente secuenciados, se siguió observando esta divergencia entre los valores reales de la función y su aproximación teórica. Vale abundar que dicha divergencia era además estadísticamente consistente y robusta,(NOTA 21) tanto para las cadenas en las zonas codificadoras como en las no codificadoras del ADN. Por tanto, debía existir una explicación a este hecho. La más razonable(NOTA 22) era que el comportamiento de la función de autocorrelación o de información mutua fuera del tipo:



Es decir, que en vez de una sola ley de potencias, la suma de ellas, entre las cuales debía de haber un término predominante.
Años más tarde se logró hacer una demostración completa de esta hipótesis.(NOTA 23) A partir de la regla de expansión-modificación antes mencionada, que, como hemos dicho, captaba los ingredientes básicos de la dinámica mutacional del ADN, se obtuvo analíticamente una expresión para la función de autocorrelación como suma de leyes de potencia, la expresión analítica de sus exponentes, la expresión analítica de la expansión promedio de la cadena k en término de la probabilidad p de mutación y una expresión analítica asintótica de la distancia más probable de expansión. Esto último permitió obtener una expresión analítica del término predominante en la sumatoria de leyes de potencia. El acuerdo entre estos resultados teóricos y los resultantes de las simulaciones de sistemas de expansión-modificación es notable.(NOTA 24)
Por otra parte, algunos trabajos realizados sobre secuencias reales(NOTA 25) mostraban también un acuerdo importante entre la predicción teórica y los resultados obtenidos de manera empírica.
Todo el análisis anterior sólo centraba su atención en la incidencia de los dos tipos de mutaciones (que afectan la replicación de las secuencias simbólicas) que podían tener influencia en la formación de correlaciones de largo alcance en las mismas. No obstante, la molécula de ADN está compuesta por cuatro tipos de nucleótidos y su evolución se ha visto condicionada por presiones selectivas. De manera natural surgió la siguiente pregunta: ¿qué ocurre si los modelos antes expuestos se generalizan a alfabetos de cuatro letras y se toman en cuenta las restricciones selectivas?
El intento de extender estos modelos a alfabetos de cuatro letras conllevó dificultades técnicas intratables y, hasta donde sabe el autor de estas líneas, el problema aún no ha sido resuelto. En lo que respecta a la introducción de las restricciones selectivas era necesario precisar un criterio de adaptación de las cadenas simbólicas. Se puede demostrar(NOTA 26) que el vector P de las frecuencias de aparición de los diferentes dímeros, caracteriza a las secuencias de ciertas partes del ADN humano. Más aún, permite discriminar entre secuencias codificadoras y no codificadoras. Utilizando este vector como medida de adaptación de las secuencias de ADN, se desarrolló un modelo de simulación computacional(NOTA 27) que tenía en cuenta tanto la dinámica mutacional como las restricciones selectivas. Pasaremos a continuación a describirlo brevemente:
A partir de una población de cadenas compuestas por cuatro símbolos (A, C, G, T), cuya composición inicial era aleatoria se realizaron en torno a ellas todos los tipos de mutaciones con las frecuencias y características reportadas en la literatura. Las restricciones selectivas se simularon por medio de una adaptación de un algoritmo genético, el cual permitía la reproducción de estas cadenas en dependencia de su propio ajuste a la restricción selectiva representada por el vector P. Este proceso se repetía iterativamente.


Figura 3. Forma típica de la función de información mutua de cualquiera de los cromosomas humanos. El gráfico aparece en escala logarítmica, lo que permite observar varias pendientes. Implica la existencia de varios exponentes en la función. Compárese la parte final de esta figura con la parte final de la figura 1 del trabajo S. V. Buldyrev et al, “Long-range correlation properties of coding and noncoding DNA sequences: GenBank analysis”, Phys. Rev. E, 51, pags. 5084-5091, 1995. Para construir la función de información mutua, aquí representada utilizó el cromosoma 4 con más de 30,000,000 de pares de bases. Por tanto, la suposición de que ese comportamiento se debe a la finitud de los datos es insostenible.

Se calculó para la población de cadenas resultantes la función de información mutua (figura 3); los resultados obtenidos fueron muy similares a los que se obtienen en cadenas reales. Más aún, la composición de las cadenas en esta población varió ampliamente. Esto permitió arribar a dos conclusiones importantes:
a. La formación de correlaciones de largo alcance podía generarse bajo la presencia de un filtro selectivo basado en la estructura de dímeros.
b. Cadenas de composición muy diferentes en cuanto a su densidad de nucleótidos podían tener funciones de información mutua similares.
Cuando se realizó todo este trabajo teórico aún no se había secuenciado completamente el genoma humano, tarea que como se sabe se concluyó en el año 2001. Una vez que la secuencia del ADN humano estuvo disponible se inició el trabajo de calcular la función de información mutua de los diferentes cromosomas humanos,(NOTA 28) una tarea que ha requerido un extraordinario esfuerzo de cómputo. Los resultados se muestran en la figura 4.


Figura 4. Función de información mutua de los primeros 22 cromosomas humanos más el X y el Y. Obsérvese en primer lugar que todos tienen la misma forma y que sólo varía la intensidad de la correlación. Por otra parte, a pesar de que el gráfico no está en escala logarítmica se observan diferentes pendientes, lo que sugiere la existencia de más de un exponente.

Resulta en primer lugar notable el hecho de que todas las funciones de información mutua de los diferentes cromosomas tengan la misma forma. Para hacerlo más explícito, supongamos que tenemos una novela, en la cual en cada capítulo ocurre (como es de esperar) un suceso diferente. Tomemos ahora la sucesión de letras de cada capítulo y calculémosle la función de autocorrelación o la función de información mutua. ¿No sería muy sorprendente que todas ellas fueran iguales?
Lo anterior sugiere que la correlación entre las bases tiene los mismos patrones a pesar de las diferencias marcadas en las funciones, tamaño y estructura de los distintos cromosomas. Este hecho sugiere un mecanismo único de evolución estructural y refuerza la afirmación hecha en el inciso b) anterior. Otro aspecto interesante son las diferentes pendientes en diversos lugares de las curvas. Esto se observa con claridad a pesar de que la figura 4 no está en escala logarítmica, lo cual implica la existencia de más de un exponente como sugieren los modelos antes descritos.
Si las características anteriores dependieran de la evolución genética deberíamos de esperar que en organismos menos desarrollados que el ser humano hubiese diferencias perceptibles. El chimpancé es nuestro más cercano pariente evolutivo. En fecha reciente quedó completamente secuenciado su genoma(NOTA 29)y se ha iniciado el trabajo de calcular la función de información mutua de todos los cromosomas del mismo. Los resultados se muestran en la figura 5.


Figura 5. Función de información mutua de los primeros 23 cromosomas del chimpancé más el X y el Y. Nótese que existen algunas diferencias en los valores de la función para distancias comprendidas entre 2 y 50. A partir de aquí, la caída de estas funciones es más rápida que en el ser humano.


Figura 6. Comparación de las funciones de información mutua de los cromosomas del chimpancé y del ser humano. La figura superior muestra los resultados correspondientes al chimpancé y la figura inferior al ser humano. Nótese que a distancia 21 el ser humano tiene un pico que no aparece en el chimpancé.

En la figura 6 se muestra una comparación de las funciones de información mutua del chimpancé y del ser humano para distancias entre 2 y 25. Nótese que las posiciones de los “picos” en ambas especies están desplazadas. Esto puede ser explicado por la incidencia de la actividad mutacional. Resulta sin duda un reto enorme entender cómo la interacción de las restricciones selectivas y de la dinámica mutacional han producido estos resultados. Las dinámicas de expansión- modificación, así como los modelos computacionales antes descritos son buenos candidatos para ello.
Los años venideros nos auguran grandes hallazgos en la comprensión del funcionamiento de la maquinaria molecular. Esto no puede ocurrir al margen del entendimiento de la historia evolutiva del ADN, la cual es básicamente la síntesis de dos procesos antagónicos, a saber, la dinámica mutacional y las presiones selectivas. La comprensión de esa síntesis precisa del trabajo de grupos interdisciplinarios, formados en particular por físicos, computólogos y biólogos.


Referencias bibliográficas

(NOTA 1) Del libro: Las ciencias de la complejidad y la innovación médica, Ensayos y Modelos. Coordinadores: Enrique Ruelas Barajas, Ricardo Mansilla, Javier Rosado. México, Secretaría de Salud e Instituto de Física del Centro de Investigaciones Interdisciplinarias en Ciencias y Humanidades, Universidad Nacional Autónoma de México, Grama Editora, S.A., 2006
(al texto)
(NOTA 2) Dr. Ricardo Mansilla. doctor en matemáticas por la Universidad de la Habana, Cuba, 1997. Maestro en Ciencias Económicas por la Universidad de Carleston, Canadá, 1998. Estancia posdoctoral en el Instituto de Física de la UNAM entre 1998 y 2000. actualmente se desempeña como coordinador del Programa de Ciencia y Tecnología del Centro de Investigaciones Interdesciplinarias en Ciencias y Humanidades de la UNAM. lleva a cabo investigaciones relacionadas con la estructura del ADN, complejidad de las series de tiempo financieras y modelación computacional de fenómenos sociales.
(al texto)
(NOTA 3) Watson J D, Crick FH. Nature 1953;171:737-738.
(al texto)
(NOTA 4) International Human Genome Sequencing Consortium, Nature 2001; 409:860-921.
(al texto)
(NOTA 5) Casi inmediatamente después de la publicación en Nature del trabajo de Watson y Crick, G. Gamov (1904-1968) les envió una carta a ambos en la cual se podía leer: “But I’m very excited by your article in May 30 Nature and I think that bring Biology over into the group of exact sciences………..This would open a very exciting possibility of theoretical research based on combinatorics and the theory of numbers……What do you think?”.
(al texto)
(NOTA 6) Este hecho será relevante en la discusión posterior.
(al texto)
(NOTA 7) Sueoka N. A statistical analysis of the deoxyribonucleic acid distribution in density gradient centrifugation. PNAS 1959;45:1480-1490. Sueoka N et al. Heterogeneity in deoxyribonucleic acid II: dependence of the density of deoxyribonucleic acids on guanine-cytosine contents. Nature 1959;183:1429-1433. Rolfe R, Mendelson M. The relative homogeneity of microbial DNA. PNAS 1959;45:1039-1043.
(al texto)
(NOTA 8) Tavare S, Giddings BW. Some statistical aspects of the primary structure of nucleotide sequences. En Mathematical Methods for DNA sequences, editor: M. S. Waterman, Boca Raton: CRC Press, 1989.
(al texto)
(NOTA 9) Borsnik B et al. Analysis of apparent 1/f spectrum in DNA sequences. Europhys. Lett. 1993;23:389-394. Peng CK et al. Mosaic organization of DNA nucleotide. Phys. Rev. E 1994;49:1685-1689. Buldyrev SV et al. Long-range correlation properties of coding and noncoding DNA sequences: GenBank analysis. Phys. Rev. E 1995;51:5084--5091.
(al texto)
(NOTA 10) Li W, Kaneko K. Long-range correlation and partial 1/f spectrum in a noncoding DNA sequence. Europhys. Lett. 1992;17:655-660. Li W, Kaneko K. DNA correlations. Nature 1992;360:635-636. Peng CK et al. Long-range correlations in nucleotide sequences. Nature 1992;356:168-170. Peng CK et al. Finite size effects on long-range correlation: implications for analyzing DNA sequences. Phys. Rev. E 1993;47:3730-3733. Chatzidimitrou-Dreismann CA, Larhamar D. Long-range correlation in DNA. Nature 1993;361:212-213. Chatzidimitrou-Dreismann CA, Larhamar D. Biological origin of long-range correlation and compositional variations in DNA . Nucl. Ac. Res. 1993;21: 5167-5170. Borsnik B et al. Analysis of apparent 1/f spectrum in DNA sequences. Europhys. Lett. 1993;23:389-394. Karlin S, Brendel V. Patchiness and correlations in DNA sequences. Science 1993;259:677-680. Buldyrev SV et al. Long-range correlation properties of coding and noncoding DNA sequences: GenBank analysis, Phys. Rev. E 1995;51:5084-5091.
(al texto)
(NOTA 11) Langton C. Computation at the edge of chaos: phase transition and emergent computation. Phys. D 1990;42:12-37.
(al texto)
(NOTA 12)  Shannon C. A mathematical theory of communication. Bell Syst. Tech. J. 1948; 27:379-423.
(al texto)
(NOTA 13) Dobrushin RL. General formulation of Shannon’s main theorem in Information Theory. Usp. Mat. Nauk 1959;14:1-104. La traducción al inglés de este trabajo puede encontrarse en Am. Math. Soc. Trans., 1959;33: 323-438.
(al texto)
(NOTA 14) Li W. Mutual information function versus correlation function. J. Stat. Phys. 1990;60:823-837.
(al texto)
(NOTA 15) Gatlin LL. Information theory and the living systems. Columbia Univ. Press, 1972.
(al texto)
(NOTA 16) Un atisbo de estas ideas fue esbozado por el Premio Nobel de 1965, J. Monod. En uno de sus cuadernos de notas aparece esta frase: “From the point of view of the theory of information, the works of Shakespeare, with the same number of letters and signs aligned at random by a monkey, would have the same value. It is this lack of definition of the value of information that makes it difficult to use in biology. What could be considered as "objective" in the Shakespearean information that would distinguish it from the monkey's information? Essentially the transmissibility. The value of influence, therefore of evolution.”
(al texto)
(NOTA 17) Lindenmayer A. Mathematical models for cellular interaction in development I. Filaments with one-sided inputs. J. Theoret. Biol. 1968;18:280-299.
(al texto)
(NOTA 18) Li W. Expansion-modification systems: a model for spatial 1/f spectra”, Phys. Rev. A, 1991;43:5240-5260.
(al texto)
(NOTA 19) En el trabajo de W. Li antes citado se estudian modelos más generales. Como hemos dicho antes, para los efectos del tema que nos ocupa, el arriba referido es suficiente.
(al texto)
(NOTA 20) Las probabilidades que forman parte de la función de información mutua o de la función de autocorrelación deben ser calculadas a partir de secuencias finitas. Para distancias muy grandes, la cantidad de datos disponibles disminuye, asimismo, por el Teorema del Límite Central (o su caso particular, la Ley de los Grandes Números) la exactitud de las mismas no resulta satisfactoria.
(al texto)
(NOTA 21) Ver, por ejemplo, la figura 1 de: Buldyrev SV et al. Long-range correlation properties of coding and non coding DNA secuences: GenBank analysis. Phys. rev. E 1995 (51): 5084-5091.
(al texto)
(NOTA 22) Que por cierto fue sugerida en Li W. Expansion-modification systems: a model for spatial 1/f spectra”, Phys. Rev. A 1991;43:5240-5260.
(al texto)
(NOTA 23) Mansilla R, Cocho G. Multiscaling in expansion-modification systems: an explanation for long range correlation in DNA. Comp. Syst. 2000;12:207-240.
(al texto)
(NOTA 24) Ver, por ejemplo, la figura 4 de Mansilla R, Cocho G. Multiscaling in expansion-modification systems: an explanation for long range correlation in DNA”, Comp. Syst. 2000;12:207-240.
(al texto)
(NOTA 25) Chatzidimitriou-Dreismann CA, Larhamar D. Long-range correlation in DNA. Nature 1993;361:212-213.
(al texto)
(NOTA 26) Mansilla R et al. Energetical regularities of introns in HUMHBB. Annual Meeting of the Society for Mathematical Biology, Oaxtepec, Mayo 27-31, 1995.
(al texto)
(NOTA 27) Mansilla R, Mateo-Reig R. On the mathematical modeling of intronics sectors of DNA molecule. Int. J. of Bif. and Ch. 1995;5:1235-1241.
(al texto)
(NOTA 28) Mansilla R et al. Long-range correlations in the whole human genome, http://arxiv.org/abs/q-bio.GN/0402043, 2003
(al texto)
(NOTA 29) Nature, 437, pags. 47-109, 2005.
(al texto)