Heritability 201: Types of heritability and how we estimate it

In Heritability 101 we defined heritability as “the proportion of variation in a trait explained by hereditary genetic variants.”Na prática, muitas vezes contamos com variações desta definição, em parte por causa das diferenças entre este conceito idealizado de hereditariedade e a realidade do que podemos realmente estimar cientificamente., Neste post vamos delinear alguns “sabores” diferentes de hereditariedade, e as maneiras que eles podem ser estimados, com o objetivo final de explicar que forma de hereditariedade estamos relatando a partir dos dados do Biobank do Reino Unido.

a versão rápida:

a nossa análise BIOBANCÁRIA do Reino Unido está a estimar \(h^2_g\), ou a hereditariedade do SNP., Esta é apenas a proporção de variação na característica que pode ser explicada por efeitos aditivos de variantes genéticas comuns chamadas SNPs (uma única mudança de base em uma sequência de DNA), por isso é quase sempre menos do que a hereditariedade total \((h^2)\) que pode ser explicada por todos os fatores genéticos. estamos a estimar \(h^2_g\) usando um método chamado regressão da pontuação LD (LDSR); se a escolha do método lhe interessa, então provavelmente irá apreciar a publicação mais técnica aqui.,

variação de medição

Antes de falar sobre os diferentes sabores da hereditariedade, é útil definir o que entendemos por “variação” quando dizemos coisas como a “proporção de variação em um traço explicado por” algo”.

Aqui, quando dizemos “variação”, estamos nos referindo ao conceito matemático de “desvio”. Variância é uma métrica comum para medir o quanto um traço difere entre as pessoas em um grupo. Formalmente, é a diferença média ao quadrado entre uma pessoa selecionada aleatoriamente e a pessoa “média”., Por exemplo, em todos os homens e mulheres no Biobank do Reino Unido, a variância da altura em polegadas é de 13,3 (86,0 para a altura em centímetros), correspondendo a um desvio padrão de 3,7 polegadas (9,3 cm). O desvio padrão é simplesmente a raiz quadrada da variância.

Statisticians like talking about variance (as opposed to more intuitive measures like the range or the mean absolute deviation from average) because it has nice mathematical properties., Mais notavelmente, se você tem um resultado que é a soma dos efeitos de fontes independentes (como, por exemplo, genes e ambiente) a variância dos efeitos de cada fonte somam-se à variância do resultado. Ser capaz de quebrar a variância total de uma característica em diferentes peças que se somam, desta forma é muito útil quando queremos começar a falar sobre a “proporção da variância explicada pela genética”, como veremos abaixo. por último, falar de variância implicitamente significa que estamos a falar de um grupo ou população de indivíduos., Não se pode ter uma diferença média entre pessoas com apenas uma pessoa. Como enfatizamos na hereditariedade 101, isso significa que sempre que falamos sobre hereditariedade estamos falando de variação em alguma população de indivíduos, não sobre genética determinando alguma proporção de um traço em qualquer indivíduo.

“Explicando” a variação

também vale a pena esclarecer que a outra metade da frase “a proporção de variação em uma característica explicado pelo”, ou seja, o que queremos dizer por “explicado”., Neste caso, variância que é “explicada” pela genética é variância que poderia ser prevista com base em dados genéticos se tivéssemos informações perfeitas sobre os efeitos de todas as variantes genéticas (que, para ser claro, não temos realmente).

Se você já ouviu a frase “correlação não é causação”, essa é a questão a que ” nos referimos aqui e por que não estamos simplesmente dizendo a proporção de variância causada por efeitos genéticos., Estamos mais perto da causa, já que é bastante seguro assumir que os traços hereditários não estão causando as variantes genéticas, já que nossa genética está fixada na concepção (com exceção das mutações adquiridas, como as observadas no câncer). É possível, no entanto, que as variantes genéticas sejam correlacionadas com fatores ambientais que tenham um impacto causal direto no traço. Isso não significa que a genética não seja importante e informativa para essa característica, mas significa que temos que ter cuidado em descrever os efeitos como causais, mesmo na genética., Por isso, como precaução contra fazer qualquer declaração prematura sobre a causalidade, concentramo-nos na variância “explicada” em vez disso.

hereditariedade de sentido amplo

fazemos três observações importantes sobre esta definição. Em primeiro lugar, é inteiramente flexível sobre como os efeitos genéticos específicos contribuem para \(𝜎^2_G\)., O sentido amplo \(h^2\) não se importa se \(𝜎^2_G\) vem de uma única variante Mendeliana em apenas um gene, ou os pequenos efeitos aditivos de variantes em 100 genes diferentes, ou interações complexas entre cada variante em todo o genoma. Veremos abaixo que esta é uma distinção importante entre sentido amplo \(h^2\) e alguns dos outros tipos de hereditariedade. $h^2 = \frac{\sigma^2_G}{\sigma^2_G + \sigma^2_E}$$ $ mas essa suposição não é necessária., Ao escrever simplesmente o denominador como \(^^2_P\), permitimos a possibilidade de que os factores genéticos e ambientais estejam correlacionados ou interajam de alguma forma. Isto é importante, uma vez que destaca que o efeito do ambiente no traço não é simplesmente o “restante” depois de contabilizar todos os efeitos genéticos, em vez disso, eles podem se sobrepor e interagir de formas complexas.

hereditariedade de sentido estreito

na prática, a flexibilidade de sentido amplo \(h^2\) torna muito difícil estimar sem fazer fortes suposições., Permitir efeitos de todas as possíveis interações de todas as possíveis variantes genéticas significa ter um espaço funcionalmente infinito de possíveis efeitos. Uma maneira útil de simplificar isso é pensar na variância total explicada pela genética como uma combinação de efeitos aditivos, efeitos dominantes/recessivos, e efeitos de interação entre diferentes variantes. $$ \ sigma^2_G = \sigma^2_A + \sigma^2_D + \sigma^2_I$ historicamente, a maior discussão científica sobre a hereditariedade de diferentes traços tem-se centrado em \(H^2\)., Uma das características agradáveis do \(H^2\) é que implica uma relação simples entre o quão geneticamente relacionadas duas pessoas são e quão semelhante será a característica para essas duas pessoas. Podemos usar esta relação para estimar \(h^2\) em estudos Gémeos e familiares.

no caso mais simples, podemos comparar gêmeos monozigóticos (muitas vezes chamados de gêmeos “idênticos” ou MZ) com gêmeos dizigóticos (“fraternais” ou DZ). Os gémeos MZ partilhavam todo o seu ADN, enquanto os gémeos DZ partilhavam metade do seu ADN em média., Os gêmeos também compartilham o mesmo ambiente, independentemente de serem MZ ou DZ . Assim, para estimar \(h^2\) podemos observar como um traço correlacionado é entre pares de gêmeos MZ e como correlacionado o traço é entre gêmeos DZ e ver se essas correlações são diferentes. Se os pares gêmeos MZ, com sua maior similaridade genética, estão mais fortemente correlacionados do que os pares gêmeos DZ, isso sugere que a genética explica alguma da variância no traço .

tem havido décadas de pesquisa científica sobre a hereditariedade de traços humanos usando esta abordagem geral., Felizmente, um esforço recente da Danielle Posthuma e dos seus colegas reuniu grande parte deste trabalho numa única página web onde pode procurar estimativas de \(H^2\) baseadas em duas bases para uma grande variedade de traços.

SNP-hereditariedade

os sabores acima referidos de hereditariedade se referem a “efeitos genéticos” conceitualmente sem exigir qualquer consideração de variantes genéticas específicas e sua associação com o traço., Agora que os avanços na genética tornaram possível coletar dados sobre essas variantes específicas, há a oportunidade de avaliar o quanto cada uma dessas variantes observadas contribui para a hereditariedade. em particular, podemos considerar um tipo de variante genética chamada um único polimorfismo nucleótido (SNP), que é uma mudança de um único par base de DNA em uma localização específica no genoma. Por exemplo, algumas pessoas podem ter um A nesse local, enquanto outras pessoas têm um G., Existem milhões desses locais no genoma que geralmente variam entre pessoas diferentes, e grande parte da pesquisa atual em genética humana está focada na compreensão dos efeitos dessas variantes . vale a pena destacar duas características-chave de \(H^2_g\). Primeiro, você pode notar que nós definimos \(h^2_g\) com base em algum conjunto de SNPs “S”. Na prática, este conjunto de SNPs vai depender (a) dos dados SNP observados e (B) do método utilizado para estimar \(h^2_g\)., Isto torna difícil comparar valores de \(H^2_g\) entre diferentes métodos e diferentes estudos , embora na maioria dos casos seja seguro pelo menos assumir que se refere a SNPs comuns. Em segundo lugar, a variância explicada pelo SNPs pode ou não refletir os efeitos desses SNPs particulares em oposição aos efeitos de outras variantes genéticas com as quais o SNPs está correlacionado., Esta é apenas uma extensão da nossa discussão anterior acima sobre o significado da variância “explicada”, mas vale a pena reiterar, uma vez que seria fácil interpretar mal a hereditariedade SNP como excluindo totalmente os efeitos causais de outros tipos de variação genética. existem alguns métodos diferentes que foram desenvolvidos para estimar \(h^2_g\) a partir de SNPs observados. Na prática, não sabemos o verdadeiro \(𝛽_j\) por isso temos que usar outros truques., A primeira abordagem, conhecida como GREML (matriz de relatividade genômica restrita máxima probabilidade; comumente implementada em GCTA), usa SNPs para estimar a similaridade genética entre indivíduos aleatórios e comparar isso com sua similaridade característica. Isto é conceitualmente semelhante à estimativa baseada em gêmeos descrita acima, mas usa a semelhança genética observada de baixo nível em dados SNP de indivíduos que não estão diretamente relacionados. Você pode ler sobre os detalhes estatísticos aqui com uma revisão mais recente aqui., a second approach is called linkage disequilibrium (LD) score regression, implemented in ldsc. É este o método que estamos a aplicar ao conjunto de dados Biobank do Reino Unido. A regressão da pontuação LD depende da observação chave de que alguns SNPs estão correlacionados com (ou seja, em LD com) outras variantes genéticas, observando que a informação SNP por sua vez “tags” sobre os efeitos de outras variantes. A ideia básica, então, é que se há lotes e lotes de pequenos efeitos genéticos espalhados pelo genoma (i.e., o traço é “poligênico”), então a força da relação entre cada SNP individual e o traço deve ser (em média) proporcional a QUANTA variação genética total que SNP tags. Os detalhes estatísticos sobre o método de regressão da pontuação LD podem ser encontrados aqui.

variância explicada pelos efeitos conhecidos da SNP

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *