en heredabilidad 101 definimos heredabilidad como «la proporción de variación en un rasgo explicado por variantes genéticas heredadas.»En la práctica, a menudo nos basamos en variaciones de esta definición, en parte debido a las diferencias entre este concepto idealizado de heredabilidad y la realidad de lo que realmente podemos estimar científicamente., En este post describiremos algunos «sabores» diferentes de heredabilidad, y las formas en que se pueden estimar, con el objetivo final de explicar qué forma de heredabilidad estamos reportando a partir de los datos del Biobanco del Reino Unido.
la versión rápida:
nuestro análisis del Biobanco del Reino Unido es estimar \(h^2_g\), o SNP-heredabilidad., Esta es solo la proporción de variación en el rasgo que se puede explicar por los efectos aditivos de las variantes genéticas comunes llamadas SNPs (un cambio de base simple en una secuencia de ADN), por lo que casi siempre es menor que la heredabilidad total \((h^2)\) que podría explicarse por todos los factores genéticos.
estamos estimando \(h^2_g\) utilizando un método llamado ld score regression (LDSR); si la elección del método es importante para usted, probablemente apreciará el post más técnico aquí.,
medir la variación
antes de hablar de los diferentes sabores de heredabilidad, es útil definir lo que entendemos por «variación» cuando decimos cosas como «la proporción de variación en un rasgo explicado por» algo.
Aquí, cuando decimos «variación», nos estamos refiriendo al concepto matemático de «varianza». La varianza es una métrica común para medir cuánto difiere un rasgo entre las personas de un grupo. Formalmente, es la diferencia cuadrada promedio entre una persona seleccionada al azar y la persona «promedio»., Por ejemplo, en todos los hombres y mujeres del Biobanco del Reino Unido, la varianza de altura en pulgadas es de 13.3 (86.0 para la altura en centímetros), lo que corresponde a una desviación estándar de 3.7 pulgadas (9.3 cm). La desviación estándar es simplemente la raíz cuadrada de la varianza.
a los estadísticos les gusta hablar de varianza (en oposición a medidas más intuitivas como el rango o la desviación absoluta media del promedio) porque tiene buenas propiedades matemáticas., Más notablemente, si usted tiene un resultado que es la suma de los efectos de fuentes independientes (como, por ejemplo, genes y el medio ambiente) la varianza de los efectos de cada fuente se suman a la varianza del resultado. Poder dividir la varianza total de un rasgo en diferentes piezas que se suman de esta manera es muy útil cuando queremos empezar a hablar de la «proporción de varianza explicada por la genética», como veremos a continuación.
por último, hablar de varianza significa implícitamente que estamos hablando de un grupo o población de individuos., No se puede tener una diferencia promedio entre las personas con una sola persona. Como enfatizamos en heredabilidad 101, esto significa que cuando hablamos de heredabilidad estamos hablando de variación en alguna población de individuos, no de la genética que determina alguna proporción de un rasgo en cualquier individuo dado.
» Explaining»variance
también vale la pena aclarar la otra mitad de la frase» la proporción de variación en un rasgo explicado por», es decir, lo que entendemos por»explicado»., En este caso, la varianza que es» explicada » por la genética es varianza que se podría predecir en base a datos genéticos si tuviéramos información perfecta sobre los efectos de todas las variantes genéticas (que, para ser claros, en realidad no tenemos).
si alguna vez has escuchado la frase «la correlación no es causalidad», ese es el problema al que nos referimos aquí y por qué no estamos diciendo simplemente la proporción de varianza causada por efectos genéticos., Estamos más cerca de la causalidad, ya que es bastante seguro asumir que los rasgos hereditarios no están causando las variantes genéticas, ya que nuestra genética se fija en la concepción (con la excepción de las mutaciones adquiridas como las que se ven en el cáncer). Sin embargo, es posible que las variantes genéticas se correlacionen con factores ambientales que tienen un impacto causal directo en el rasgo. Eso no significa que la genética no sea importante e informativa para ese rasgo, pero sí significa que debemos tener cuidado al describir los efectos como causales, incluso en genética., Así que como precaución en contra de hacer declaraciones prematuras sobre la causalidad, nos enfocamos en la varianza» explicada » en su lugar.
Amplio sentido de la heredabilidad
queremos hacer tres observaciones importantes sobre esta definición. Primero, es completamente flexible acerca de cómo los efectos genéticos específicos contribuyen a \(^^2_g\)., Al sentido amplio \(h^2\) no le importa si \(^^2_g\) proviene de una sola variante mendeliana en un solo gen, o los pequeños efectos aditivos de variantes en 100 genes diferentes, o interacciones complejas entre cada variante en todo el genoma. Veremos a continuación que esta es una distinción importante entre el sentido amplio \(h^2\) y algunos de los otros tipos de heredabilidad.
$$H^2 = \frac{\sigma^2_G}{\sigma^2_G + \sigma^2_E}$$, pero esa suposición no es necesario., Simplemente escribiendo el denominador como \(^^2_p\) permitimos la posibilidad de que los factores genéticos y ambientales estén correlacionados o interactúen de alguna manera. Esto es importante, ya que destaca que el efecto del medio ambiente en el rasgo no es simplemente el «resto» después de contabilizar todos los efectos genéticos, sino que pueden superponerse e interactuar de formas complejas.
heredabilidad de sentido estrecho
en la práctica, la flexibilidad del sentido amplio \(h^2\) hace que sea muy difícil de estimar sin hacer suposiciones fuertes., Permitir los efectos de todas las posibles interacciones de todas las posibles variantes genéticas significa tener un espacio funcionalmente infinito de posibles efectos. Una forma útil de simplificar esto es pensar en la varianza total explicada por la genética como una combinación de efectos aditivos, efectos dominantes/recesivos y efectos de interacción entre diferentes variantes. historically\Sigma^2_g = \Sigma^2_A + \Sigma^2_d + \Sigma^2_i
históricamente, la mayoría de la discusión científica sobre la heredabilidad de diferentes rasgos se ha centrado en \(H^2\)., Una de las buenas características de \(H^2\) es que implica una relación simple entre cuán genéticamente relacionadas están dos personas y cuán similar será el rasgo para esas dos personas. Podemos usar esta relación para estimar \(h^2\) en estudios de gemelos y familiares.
en el caso más simple, podemos comparar gemelos monocigóticos (a menudo llamados gemelos «idénticos» o MZ) con gemelos dicigóticos («fraternales» o DZ). Los gemelos MZ compartieron todo su ADN, mientras que los gemelos DZ comparten la mitad de su ADN en promedio., Los gemelos también comparten en gran medida el mismo ambiente, independientemente de si son MZ o DZ . Así que para estimar \(h^2\) podemos observar cómo se correlaciona un rasgo entre pares de gemelos MZ y cómo se correlaciona el rasgo entre gemelos DZ y ver si esas correlaciones son diferentes. Si los pares gemelos MZ, con su mayor similitud genética, están más fuertemente correlacionados que los pares gemelos DZ, eso sugiere que la genética explica parte de la varianza en el rasgo .
ha habido décadas de investigación científica sobre la heredabilidad de los rasgos humanos utilizando este enfoque general., Afortunadamente, un esfuerzo reciente de Danielle Posthuma y sus colegas agrupó gran parte de este trabajo en una sola página web donde puede buscar estimaciones basadas en gemelos de \(H^2\) para una amplia variedad de rasgos.
SNP-heredabilidad
los sabores anteriores de heredabilidad se han referido a» efectos genéticos » conceptualmente sin requerir ninguna consideración de variantes genéticas específicas y su asociación con el rasgo., Ahora que los avances en genética han hecho posible recopilar datos sobre estas variantes específicas, existe la oportunidad de evaluar cuánto contribuye cada una de estas variantes observadas a la heredabilidad.
en particular, podemos considerar un tipo de variante genética llamada polimorfismo de un solo nucleótido (SNP), que es un cambio de un solo par de bases de ADN en una ubicación específica en el genoma. Por ejemplo, algunas personas pueden tener una A en ese lugar, mientras que otras personas tienen una G., Hay millones de estas ubicaciones en el genoma que comúnmente varían entre diferentes personas, y gran parte de la investigación actual en genética humana se centra en comprender los efectos de estas variantes .
vale la pena destacar dos características clave de \(H^2_g\). Primero, puede notar que hemos definido \(h^2_g\) basado en algún conjunto de SNPs «S». En la práctica, este conjunto de SNPs va a depender de (a) los datos SNP que se han observado y (b) el método utilizado para estimar \(h^2_g\)., Esto hace que sea difícil comparar valores de \(H^2_g\) entre diferentes métodos y diferentes estudios , aunque en la mayoría de los casos es seguro al menos asumir que se refiere a SNPs comunes. En segundo lugar, la varianza explicada por los SNP puede o no reflejar los efectos de esos SNP particulares en oposición a los efectos de otras variantes genéticas con las que los SNP están correlacionados., Esto es solo una extensión de nuestra discusión anterior sobre el significado de varianza «explicada», pero vale la pena reiterarlo ya que sería fácil malinterpretar la heredabilidad de SNP como una exclusión total de los efectos causales de otros tipos de variación genética.
hay un par de métodos diferentes que se han desarrollado para estimar \(h^2_g\) a partir de SNPs observados. En la práctica no conocemos la verdadera \(__j\) así que tenemos que usar otros trucos., El primer enfoque, conocido como GREML (genomic relatedness matrix REstricted Maximum Likelihood; comúnmente implementado en GCTA), utiliza SNPs para estimar la similitud genética entre individuos aleatorios y compararla con su similitud de rasgos. Esto es conceptualmente similar a la estimación basada en gemelos descrita anteriormente, pero utiliza la similitud genética de bajo nivel observada en los datos de SNP de individuos que no están directamente relacionados. Puede leer sobre los detalles estadísticos aquí con una revisión más reciente aquí.,
un segundo enfoque se llama regresión de la puntuación de desequilibrio de enlace (LD), implementado en ldsc. Este es el método que estamos aplicando al conjunto de datos del Biobanco del Reino Unido. La regresión de la puntuación de LD depende de la observación clave de que algunos SNP están correlacionados con (es decir, en LD con) otras variantes genéticas, por lo que la observación de que SNP a su vez «etiqueta» la información sobre los efectos de otras variantes. La idea básica entonces es que si hay porciones y porciones de pequeños efectos genéticos esparcidos a través del genoma (i. e., el rasgo es «poligénico»), entonces la fuerza de la relación entre cada SNP individual y el rasgo debe ser (en promedio) proporcional a la cantidad de variación genética total que marca SNP. Los detalles estadísticos sobre el método de regresión de la puntuación LD se pueden encontrar aquí.