Uporaba statistike na področju kvantitativne genetike

Gregor Gorjanc
Univerza v Ljubljani, Biotehniška Fakulteta, Oddelek za zootehniko, Domžale (Rodica)

IBMI Ljubljana, Slovenija 11. oktober 2010

UL, BF, Oddelek za zootehniko, Domžale (Rodica)

Izvleček
Kvantitativna genetika skuša odgovoriti na vprašanje kolikšen del fenotipske variabilnosti je povzročen z genetsko variabilnostjo. Vloga statističnih metod pri iskanju tega odgovora je ključna in razvoj nekaterih metod (npr. regresija, analiza variance, mešani model, model s pragovi, ...) je potekal hkrati z metodološkim razvojem na področju genetike kvantitativnih lastnosti. Tekom predavanja si bomo ogledali te metode s stališča statistike in kvantitativne genetike ter njihovo uporabo na podoročju selekcije domačih živali.

Kazalo

1. Uvod

2. Začetki kvantitativne genetike

3. Uporaba kvantitativne genetike pri selekciji domačih živali

Nekaj literature

Genetika: DNA –> beljakovine –> fenotip
Kromosom od očeta Kromosom od mame

Lokus Gen

Alel A1

Genotip A1/A2

Alel A2

Področja genetike
Populacijska genetika Kvantitatiivna genetika Evolucijska genetika Molekularna genetika Genetika
človeka živali rastlin mikrobov ...

... Podobna “širina” in “prepredanje” kot pri področjih statistike

2. Začetki kvantitativne genetike

Začetki kvantitativne genetike
Začetki genetike
študije vpliva genov na “enostavne” (diskretne) lastnosti (Mendel, Bateson, . . . ) –> mendlisti študije “kompleksnih” (kvantitativnih) lastnosti (Pearson, Galton, Fisher, Wright, . . . ) –> biometriki

Galton (1986) - regresija Nestrinjanje med mendlisti in biometriki ob koncu 19. stoletja Fisher (1918) - infinitezimalni model Wright, Malecot - inbriding in sorodstvo ... Razcvet, upad in ponovno razcvet z “genomsko revolucijo”

Galton (1886) - regresija
Analiziral povprečno telesno višino staršev in njihovih (odraslih) otrok

Razprava: Zakaj je povezava (korelacija) pozitivna?

Regresija
Bivariatna normalna porazdelitev fenotipskih vrednosti
telesna višina očeta - Pf telesna višina sina - Ps

p (Pf , Ps ) ∼ N Pogojno pričakovanje

E (Pf ) Var (Pf ) Cov (Pf , Ps ) , E (Ps ) sym. Var (Ps )

E (Ps |Pf ) = E (Ps ) + Cov (Ps , Pf ) (Var (Pf ))−1 (Pf − E (Pf )) Regresijski koeficient: Cov (Ps , Pf ) (Var (Pf ))−1

Regresija - Pearsonovi podatki
200
q q q q q q q q q q qq q q q q q q q q q q q q q

Telesna višina − sin (cm) 160 170 180 190

q

q

q

q q qq q

q

q q qq q qq q q qq q q q q qq q q q q q q q q q q qq q q qq q q q q qq q qq q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q qq q q qq q q qq qq q q q qq q q q q q q q q q q q q q qq q q q q q qq q q q q qq q qq q q qqq q q q q q qq q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qqq qq q q q q q qq q q q q q q qq q q q q q q q q qq q q q q q qq q q q q qqqq q q q q qq q q q q qq q q q q q q q q qq q q q q q qq q qq qq q q q q q q q q q q q q qq q qq q q q q qq q qq q qq q q qq q q q qq q qqq q q q q qq q qqq qq q q q q q q q q q q qq q q q q q q q q q q qq qq qq q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q qq q q q qq qq qq q q qqqq q q qq q q q q q q q q qq qq q qq q q q q qq q q qq qq q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q qq qq q q q q qq q q q q q q qq q qq qq q q qq q q q q q q qq q qqq q q q qq q qq q q q q qq qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq qq q q q qq q qq q q q q q q qq q q qq q q q q q q q q q q q qqq q q q qq q q qq qq q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q q q q qq qq q qq q q q qq q q q qq q q q qq q qq q q q q q q q q q q qq qq q q qq q qq q q q q q q qq q q q q q q q q q q q qq q q q qqq q q q q q q q q qq qq q q qq q q q q q q q q q q q q q q q q qq qq qq qq q q q q q qq q q q q q qq q q q q q q q q q qq q qq q q q q q q q qq q qq q q qq q q q q q q q q qq q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q qq q qq qq q q qq q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q qq q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q

q q q q q q q

150

q

150

160

170 180 Telesna višina − oce (cm)

190

Razprava: Zakaj “regression/shrinkage” k povprečju?

Fisher (1918) - dekompozicija fenotipske vrednosti
Genotip Okolje

Fenotip

Koncept vrednosti P = µ+G +E
P - fenotipska vrednost - lahko merimo!!! G - genotipska vrednost - ne moremo meriti!!! E - deviacija zaradi okolja

Fisher (1918) - dekompozicija genotipske vrednosti
Genotipska vrednost
En lokus: G = A + D Več kot en lokus: G = A + D + I A - additivna genotipska (plemenska) vrednost (učinek posameznih alelov) D - deviacija zaradi dominance (interakcije med aleli na enem lokusu) I - deviacija zaradi epistaze: A × A, A × D , D × D (interakcije med aleli na različnih lokusih)

P =µ+A+D+I +E Centralni limitni izrek
veliko število genov z majhnim učinkom + naključni vplivi iz okolja –> normalna porazdelitev

Fisher (1918) - analiza variance
Analiza variance za predpostavljeni model P ≈µ+A+D+E Vzročne komponente fenotipske variance
2 2 2 2 + σe + σd = σa σp

Dednostni delež (heritabiliteta)
2 2 v širšem smislu h2 = σg /σp 2 2 2 v ožjem smislu h = σa/σp

Opazovane komponente variance - to lahko ocenimo iz zbranih podatkov
2 varianca med skupinami σmed 2 varianca znotraj skupin σznotraj

Fisher (1918) - analiza variance II
Analiza variance skupin sorodnikov –> opazovane komponente variance vsebujejo različne vzročne komponente variance
2 2 2 2 σmed = ra σ a + rd σ d + rc σec 2 2 2 − σmed = σP σznotraj

ra = verjetnost, da imata sorodnika enake alele rd = verjetnost, da imata sorodnika enak genotip rc = “verjetnost”, da imata sorodnika “skupno okolje”
2 Skupine / σmed

Enojajčni dvojčki Dvojajčni dvojčki Bratje in sestre (FSIB) Pol-bratje in pol-sestre (HSIB)

ra 1 1/2 1/2 1/4

rd 1 1/4 1/4 0

rc 1 1 1 0

Galton (1886) - revizija
Predpostavljeni model za telesno višino sinov (Ps ) Ps ≈ µ + As + Es ≈ µ + 1/2Af + 1/2Am + Es Pogojno pričakovanje na podlagi telesne višine očetov (Pf ) E (Ps |Pf ) = E (Ps ) + Cov (Ps , Pf ) (Var (Pf ))−1 (Pf − E (Pf ))
pričakovane vrednosti: E (Ps ) = E (Pf ) = µ 2 varianca med očeti: Var (Pf ) = σp covarianca med sinovi in očeti: 2 Cov (Ps , Pf ) = Cov (1/2Af , Af ) = 1/2σa regresijski koeficient Cov (Ps , Pf ) (Var (Pf ))−1 =
1/2σ 2 a 2 σp

= 1/2h2 < 1

Wright
S korelacijami definiral koncept sorodnosti na osnovi informacije iz rodovnikov:
koef. inbridinga - korelacija med gametami posameznika koef. sorodnosti - korelacija med gametami posameznikov

Stezna metoda (ang. path analysis) in model s pragovi (1934) (ang. threshold model) = probit model

Raziskovalna “področja”
ljudje –> biostatistika, genetika človeka (ang. human genetics)
cilj: splošno znanje in zdravljenje

rastline –> genetika rastlin (ang. plant breeding and genetics)
cilj: –> splošno znanje in selekcija (=žlahtnjenje)

živali –> genetika živali (ang. animal breeding and genetics)
cilj: splošno znanje in selekcija “animal breeding and genetics” = živinoreja + genetika+ statistika + . . .

3. Uporaba kvantitativne genetike pri selekciji domačih živali

Selekcija
Izmerimo fenotipske vrednosti kandidatov in izberemo (selekcionirami) tiste z najbolj zaželenimi vrednostmi (ang. mass/phenotype selection) Izbrani kandidati bodo starši naslednje generacije

Razprava: Ali se fenotipska vrednost prenaša s staršev na potomcev?

Dekompozicija fenotipske vrednosti

Genotip

Okolje

Fenotip

Genetsko vrednotenje = statistično sklepanje o genotipski (plemenski) vrednosti posameznikov glede na zbrane podatke in predpostavljeni model (= BLUP selection)

Podatki?
Individualni rejci in rejski programi Številne vrste (govedo, perutnina, prašiči, ovce, koze, konji, psi, mačke, ribe, raki, čebele, . . . ) Številne (kompleksne) lastnosti - fenotipske vrednosti:
prireja (mleko, meso, jajca, . . . ) reprodukcija (št. potomcev, uspešnost pripusta, . . . ) konformacija telesa (višina vihra, obseg, . . . ) zdravje in dolgoživost ...

Rodovniki Zadnja leta tudi podatki o genotipu živali
posamezni pomembni geni veliko število DNA označevalcev

Henderson (1949+) - mešani model
Mešani model - fiksni/sistematski (b) in naključni (a) vplivi yijk = µ + bi + aj + eijk y = Xb + Za + e Predpostavke

2 p (a) ∼ N (0, G) , G = Aσa 2 p (e) ∼ N (0, R) , R = Iσe     y Xb ZGZT + R ZGT R p a  ∼ N 0 , G 0  e 0 sym. R

A - matrika sorodstva (Wright)

Mešani model - poimenovanje

Henderson: model živali, ker je modeliral prirejo živali
model očeta - upoštevamo rodovnik samo med očeti model očeta in mame - upoštevamo rodovnik samo med očeti ... bolj splošno: mešani model z rodovniki

Mešani model (ang. mixed model) Hierarhični model (ang. hierarchical model) Večnivojski??? model (ang. multilevel model) ...

Henderson (1949+) - sistem enačb
Metoda najmanjših kvadratov y = Xb + e XT R−1 X Mešani model y = Xb + Za + e a = GZT V−1 y − Xb XT R−1 X XT R−1 Z ZT R−1 X ZT R−1 Z + G−1 b a = XT R−1 y ZT R−1 y
−2 R−1 = Iσe

b

=

XT R−1 y

−2 G−1 = A−1 σa

b - najboljša linearna nepristranska cenilka (BLUE) a - najboljša linearna nepristranska napoved??? (BLUP)

Primer “vesoljcev” - podatki
Posameznik 1 2 3 4 5 6 7 8 9 10 Oče / / 2 2 4 2 5 5 / 8 Mama / / 1 / 3 3 6 6 / 9 Skupina / 1 1 2 2 2 / / / 1 Fenotip / 103, 106 98 101 106 93 / / / 109

Slika: Jouke

Primer “vesoljcev” - grafični model

Slika: Jouke

Primer “vesoljcev” - grafični model
2 σa 2 σe

a1 98 a3 a5 a7

a2 a4 a6 a8 109 a10 a9

Slika: Jouke

Primer “vesoljcev” - grafični model
2 σa 2 σe

103 a1 98 a3 a5 a7 106 a2 a4 106 a8 109
Slika: Jouke

101 a6 93 a9 a10

Primer “vesoljcev” - grafični model
2 σa 2 σe

b1 103 a1 98 a3 a5 a7 106 a2 a4 106 a8 109
Slika: Jouke

b2

101 a6 93 a9 a10

Primer “vesoljcev” - R

Demonstracija v R-ju

Programje
Aplikacije lahko zajemajo tudi več 100 tisoč ali milijon živali in toliko ali še več fenotipskih vrednosti
Primer ~150.000 telitev = fenotipskih vrednosti, ~75.000 krav + ~1.000 bikov

Specializirani programi (rešitev sistema enačb in/ali ocena komponent variance)
ASREML BLUPf90 DMU PEST SurvivalKit VCE WOMBAT ...

Posebnosti

Statistični pomen inverze matrike sorodstva A−1

Bayesovski pogled

Komponente variance?

Statistični pomen inverze matrike sorodstva A−1
Pogojna neodvisnost spremenljivk
1 A− i ,j = 0 –> pogojna neodvisnost 1 A− i ,j = 0 –> pogojna odvisnost grafična predstavitev modela = grafični modeli

Aditivna genotipska vrednost posameznika = f(povp. staršev, fenotipsko odstopanje, povp. potomcev)
b1 y21 a1 y3 a3 a5 a7 y22 a2 a4 y5 a8 y10 a10 a6 y4 y6 a9 b2

Bayesovski pogled
Model za analizirano spremenljivko p (y|b, a, R) ∼ N (Xb + Za, R)
2 2 Parametri: b, a, σa , σe –> apriorne porazdelitve

p (b|µb , B) ∼ N (µb , B) p (a|µa , G) ∼ N (µa , G) 2 2 p σa | . . . , p σa |... ∼ ... Posteriorna porazdelitev za b in a če so variance poznane p (b, a|R, µb , B, µa , G) ∝ p (y|b, a, R) p (b|µb , B) p (a|µa , G)

Bayesovski pogled II

2 p (b, a|R, µb , B, µa , G) ∼ N θ , C−1 σe

Cθ = r θ = C = r = b a XT R−1 X + B−1 XT R−1 Z ZT R−1 X ZT R−1 Z + G−1 XT R−1 y + B−1 µb ZT R−1 y + G−1 µa

Ocena komponent variance
Metoda največjega verjetja
Maximum Likelihood (ML) σ2 = Σn i =1 (xi − x ) n

Restricted/Residual Maximum Likelihood (REML; Patterson & Thompson, 1971) σ2 =
EM, AI-REML, . . .

Σn i =1 (xi − x ) n−p

Bayesovski pristopi

Vprašanja?

Sign up to vote on this title
UsefulNot useful