In Heritability 101 abbiamo definito heritability come “la proporzione di variazione in un tratto spiegata da varianti genetiche ereditarie.” In pratica ci baseremo spesso su variazioni di questa definizione, in parte a causa delle differenze tra questo concetto idealizzato di ereditabilità e la realtà di ciò che possiamo effettivamente stimare scientificamente., In questo post descriveremo alcuni diversi “sapori” di ereditabilità e i modi in cui possono essere stimati, con l’obiettivo finale di spiegare quale forma di ereditabilità stiamo riportando dai dati della Biobanca britannica.
La versione rapida:
La nostra analisi della biobanca del Regno Unito sta stimando \(h^2_g\), o SNP-ereditabilità., Questa è solo la proporzione di variazione nel tratto che può essere spiegata dagli effetti additivi delle varianti genetiche comunemente presenti chiamate SNPs (un singolo cambiamento di base in una sequenza di DNA), quindi è quasi sempre inferiore all’ereditabilità totale \((H^2)\) che potrebbe essere spiegata da tutti i fattori genetici.
Stiamo stimando \(h^2_g\) usando un metodo chiamato LD score regression (LDSR); se la scelta del metodo è importante per te, probabilmente apprezzerai il post più tecnico qui.,
Misurare la variazione
Prima di parlare dei diversi sapori di ereditabilità, è utile definire cosa intendiamo per “variazione” quando diciamo cose come “la proporzione di variazione in un tratto spiegato da” qualcosa.
Qui, quando diciamo “variazione”, ci riferiamo al concetto matematico di “varianza”. La varianza è una metrica comune per misurare quanto un tratto differisce tra le persone in un gruppo. Formalmente, è la differenza media al quadrato tra una persona selezionata casualmente e la persona “media”., Ad esempio, in tutti gli uomini e le donne nella Biobanca del Regno Unito la varianza di altezza in pollici è di 13,3 (86,0 per altezza in centimetri), corrispondente a una deviazione standard di 3,7 pollici (9,3 cm). La deviazione standard è semplicemente la radice quadrata della varianza.
Agli statistici piace parlare di varianza (al contrario di misure più intuitive come l’intervallo o la deviazione assoluta media dalla media) perché ha buone proprietà matematiche., In particolare, se si ha un risultato che è la somma degli effetti provenienti da fonti indipendenti (come, ad esempio, geni e ambiente), la varianza degli effetti di ciascuna fonte si somma alla varianza del risultato. Essere in grado di suddividere la varianza totale di un tratto in diversi pezzi che si sommano in questo modo è molto utile quando vogliamo iniziare a parlare della “proporzione di varianza spiegata dalla genetica”, come vedremo di seguito.
Infine, parlare di varianza significa implicitamente che stiamo parlando di un gruppo o di una popolazione di individui., Non si può avere una differenza media tra le persone con una sola persona. Come sottolineiamo in Ereditabilità 101, questo significa che ogni volta che parliamo di ereditabilità stiamo parlando di variazione in alcune popolazioni di individui, non di genetica che determina una certa proporzione di un tratto in un dato individuo.
“Explaining” variance
Vale anche la pena di chiarire l’altra metà della frase “la proporzione di variazione in un tratto spiegato da”, vale a dire ciò che intendiamo per “spiegato”., In questo caso, la varianza che viene “spiegata” dalla genetica è la varianza che potrebbe essere prevista sulla base di dati genetici se avessimo informazioni perfette sugli effetti di tutte le varianti genetiche (che, per essere chiari, in realtà non abbiamo).
Se hai mai sentito la frase “la correlazione non è causalità”, questo è il problema a cui ci riferiamo qui e perché non stiamo semplicemente dicendo la proporzione di varianza causata dagli effetti genetici., Siamo più vicini alla causalità poiché è abbastanza sicuro supporre che i tratti ereditari non stiano causando le varianti genetiche, poiché la nostra genetica è fissata al concepimento (ad eccezione delle mutazioni acquisite come quelle osservate nel cancro). È possibile, tuttavia, che le varianti genetiche siano correlate a fattori ambientali che hanno un impatto causale diretto sul tratto. Ciò non significa che la genetica non sia importante e informativa per quel tratto, ma significa che dobbiamo stare attenti a descrivere gli effetti come causali, anche nella genetica., Quindi, come precauzione contro qualsiasi dichiarazione prematura sulla causalità, ci concentriamo invece sulla varianza “spiegata”.
Ereditabilità a senso ampio
Facciamo tre importanti osservazioni su questa definizione. Innanzitutto, è completamente flessibile su come gli effetti genetici specifici contribuiscono a \(^^2_G\)., Il senso ampio \(H^2\) non importa se\ (^^2_G\) proviene da una singola variante mendeliana in un solo gene, o dai piccoli effetti additivi delle varianti in 100 geni diversi, o dalle interazioni complesse tra ogni variante dell’intero genoma. Vedremo di seguito che questa è un’importante distinzione tra senso ampio \(H^2\) e alcuni degli altri tipi di ereditabilità.
H H^2 = \frac{\sigma^2_G}{\sigma^2_G + \sigma^2_E} but ma questa ipotesi non è richiesta., Semplicemente scrivendo il denominatore come \(^^2_P\) permettiamo la possibilità che i fattori genetici e ambientali siano correlati o interagiscano in qualche modo. Questo è importante poiché evidenzia che l’effetto dell’ambiente sul tratto non è semplicemente il “resto” dopo aver tenuto conto di tutti gli effetti genetici, ma possono sovrapporsi e interagire in modi complessi.
Ereditabilità a senso stretto
In pratica, la flessibilità del senso ampio \(H^2\) rende molto difficile stimare senza formulare ipotesi forti., Consentire gli effetti di tutte le possibili interazioni di tutte le possibili varianti genetiche significa avere uno spazio funzionalmente infinito di possibili effetti. Un modo utile per semplificare questo è pensare alla varianza totale spiegata dalla genetica come una combinazione di effetti additivi, effetti dominanti/recessivi e effetti di interazione tra diverse varianti. Historically\sigma^2_G = \sigma^2_A + \sigma^2_D + \sigma^2_I Historically
Storicamente, la maggior parte delle discussioni scientifiche sull’ereditabilità di diversi tratti si è concentrata su \ (h^2\)., Una delle caratteristiche interessanti di \(h^2\) è che implica una semplice relazione tra quanto sono geneticamente correlate due persone e quanto simile sarà il tratto per quelle due persone. Possiamo usare questa relazione per stimare \(h^2\) negli studi gemelli e familiari.
Nel caso più semplice, possiamo confrontare i gemelli monozigoti (spesso chiamati gemelli “identici” o MZ) con i gemelli dizigoti (“fraterni” o DZ). I gemelli MZ hanno condiviso tutto il loro DNA, mentre i gemelli DZ condividono la metà del loro DNA in media., Anche i gemelli condividono in gran parte lo stesso ambiente indipendentemente dal fatto che siano MZ o DZ . Quindi, per stimare \(h^2\) possiamo osservare quanto è correlato un tratto tra coppie di gemelli MZ e quanto è correlato il tratto tra gemelli DZ e vedere se quelle correlazioni sono diverse. Se le coppie di gemelli MZ, con la loro maggiore somiglianza genetica, sono più fortemente correlate rispetto alle coppie gemelle DZ, ciò suggerisce che la genetica spiega alcune delle varianze nel tratto .
Ci sono stati decenni di ricerca scientifica sull’ereditabilità dei tratti umani usando questo approccio generale., Utilmente, un recente sforzo di Danielle Posthuma e colleghi ha riunito gran parte di questo lavoro in un’unica pagina Web in cui è possibile sfogliare stime basate su gemelli di \(h^2\) per un’ampia varietà di tratti.
SNP-ereditabilità
I suddetti sapori di ereditabilità hanno fatto riferimento agli “effetti genetici” concettualmente senza richiedere alcuna considerazione di specifiche varianti genetiche e della loro associazione con il tratto., Ora che i progressi della genetica hanno permesso di raccogliere effettivamente dati su queste varianti specifiche, c’è l’opportunità di valutare quanto ognuna di queste varianti osservate contribuisca all’ereditabilità.
In particolare possiamo considerare un tipo di variante genetica chiamata polimorfismo a singolo nucleotide (SNP), che è un cambiamento di una singola coppia di basi di DNA in una posizione specifica nel genoma. Per esempio, alcune persone possono avere una A in quella posizione, mentre altre persone hanno una G., Ci sono milioni di queste posizioni nel genoma che comunemente variano tra persone diverse, e gran parte della ricerca attuale in genetica umana è focalizzata sulla comprensione degli effetti di queste varianti .
Vale la pena evidenziare due caratteristiche chiave di \(h^2_g\). Innanzitutto, potresti notare che abbiamo definito \(h^2_g\) in base a un set di SNPS “S”. In pratica, questo insieme di SNP dipenderà da (a) i dati SNP che sono stati osservati e (b) il metodo utilizzato per stimare \(h^2_g\)., Ciò rende difficile confrontare i valori di \(h^2_g\) tra diversi metodi e diversi studi , anche se nella maggior parte dei casi è sicuro presumere che si riferisca agli SNP comunemente presenti. In secondo luogo, la varianza spiegata da SNPs può o non può riflettere gli effetti di quei particolari SNPS in contrasto con gli effetti di altre varianti genetiche con cui gli SNPS sono correlati., Questa è solo un’estensione della nostra precedente discussione sul significato della varianza “spiegata”, ma vale la pena ribadirlo poiché sarebbe facile interpretare erroneamente l’ereditabilità SNP come escludendo completamente gli effetti causali di altri tipi di variazione genetica.
Ci sono un paio di metodi diversi che sono stati sviluppati per stimare \(h^2_g\) da SNP osservati. In pratica non conosciamo il vero \(__j\) quindi dobbiamo usare altri trucchi., Il primo approccio, noto come GREML (Genomic relatedness matrix REstricted Maximum Likelihood; comunemente implementato in GCTA), utilizza SNPS per stimare la somiglianza genetica tra individui casuali e confrontarla con la loro somiglianza tra tratti. Questo è concettualmente simile alla stima basata su gemelli descritta sopra, ma utilizza la somiglianza genetica di basso livello osservata nei dati SNP di individui che non sono direttamente correlati. Puoi leggere i dettagli statistici qui con una recensione più recente qui.,
Un secondo approccio è chiamato linkage disequilibrium (LD) score regression, implementato in ldsc. Questo è il metodo che stiamo applicando al set di dati della biobanca del Regno Unito. La regressione del punteggio LD dipende dall’osservazione chiave che alcuni SNP sono correlati (cioè in LD con) altre varianti genetiche, quindi osservando che SNP a sua volta “tag” informazioni sugli effetti di altre varianti. L’idea di base è quindi che se ci sono un sacco di piccoli effetti genetici sparsi in tutto il genoma (cioè, il tratto è “poligenico”), quindi la forza della relazione tra ogni singolo SNP e il tratto dovrebbe essere (in media) proporzionale a quanta variazione genetica totale che SNP tag. I dettagli statistici sul metodo di regressione del punteggio LD possono essere trovati qui.