Age-based partitioning of individual genomic inbreeding levels in Belgian Blue cattle

Estimation and age-gebaseerde partitionering van individuele genomische inteeltniveaus in de Belgische Blauwe Rundveepopulatie

We zijn begonnen met het gebruik van een Mix14R-model (met R k variërend van 2 tot 8192) om het aandeel van het genoom te schatten dat tot verschillende HBD-klassen behoort voor de 634 BBB-stieren (Fig. 1a), wat de schatting mogelijk maakt van de inteeltcoëfficiënt met betrekking tot verschillende basispopulaties, zoals uitgelegd in Methoden (Fig. 1b). Bij beschouwing van alle HBD-klassen was de fractie van het genoom die HBD is (overeenkomend met het inteeltcoëfficiënt geschat met de meest afgelegen basispopulatie) gemiddeld gelijk aan 0,303 (variërend van 0,258 tot 0,375), met een grote bijdrage van HBD-klassen met hoge R k-percentages (R k > 256) die gemiddeld 71,4% van het totale HBD-aandeel voor hun rekening nemen. Deze kleine ROH weerspiegelen de geschiedenis van de populatie (inteelt op de achtergrond en linkage disequilibrium geassocieerd met de effectieve populatiegrootte (Ne) in het verleden) beter dan individuele variatie. Klassen geassocieerd met kleinere R k-percentages (d.w.z. met langere HBD-segmenten) vertegenwoordigden een kleiner aandeel van het totale HBD-aandeel (de gemiddelde inteeltcoëfficiënt was gelijk aan 0,054 en 0,087 wanneer HBD-klassen met R k ≤ 32 en R k ≤ 256, respectievelijk, werden meegerekend en de basispopulatie ongeveer 16 of 128 generaties geleden werd vastgesteld) maar vertoonden meer variatie tussen individuen. Bijvoorbeeld, de inteeltcoëfficiënt geassocieerd met gemeenschappelijke voorouders die teruggaan tot ongeveer vier generaties geleden (corresponderend met HBD-klassen met R k ≤ 8) varieerde van 0.000 tot 0.137. Voor stieren geboren tussen 1980 en 2010 nam het percentage van het genoom in HBD-segmenten toe met 3,3% (+ 0,11% per jaar), d.w.z. ongeveer van 28 tot 31% (zie Additional file 1: Fig. S1a). De trend voor recentere HBD klassen (R k ≤ 32) was echter meer uitgesproken (zie Additional file 1: Fig. S1b), d.w.z. van bijna 0 tot 6% (+ 0,20% per jaar) en kwam meer overeen met de trend waargenomen met stamboom-gebaseerde inteeltcoëfficiënten (zie Additional file 1: Fig. S1c). Stieren geboren voor 1980 vertoonden weinig bewijs van recente autozygositeit in vergelijking met moderne stieren.

Fig. 1
figure1

Partitionering van genoombrede autozygositeit voor de 634 Belgische Blauwe stieren met behulp van het BovineHD SNP-panel. a Boxplot van percentages van individuele genomen geassocieerd met 13 HBD-klassen met vooraf gedefinieerde R k-percentages (Mix14R-model). De percentages komen overeen met individuele genoombrede waarschijnlijkheid van het behoren tot elk van de HBD-klassen. b Genomische inteeltcoëfficiënten geschat met betrekking tot verschillende basispopulaties (F G-T ) verkregen door het selecteren van verschillende drempels T die bepalen welke HBD-klassen worden beschouwd in de schatting van F G-T (bijv. het instellen van de basispopulatie ongeveer 0,5 * T generaties in het verleden). De overeenkomstige inteeltcoëfficiënten F G-T worden geschat als de kans om tot een van de HBD-klassen met een R k ≤ T te behoren, gemiddeld over het hele genoom

Om de bijdrage van elke HBD-klasse aan het percentage van het genoom in HBD-segmenten en aan de variatie daarvan in BBB-vee te beoordelen, hebben we de totale fractie van het genoom in HBD-klassen verdeeld in vier hoofdklassen (zeer recente HBD-klassen met R k = 2 tot 8, recente HBD-klassen met R k = 16 tot 64, oude HBD-klassen met R k = 128 tot 512, en zeer oude HBD-klassen met R k = 1024 tot 8192), waarbij elke groep drie HBD-klassen heeft, behalve de laatste groep met vier HBD-klassen. De gemiddelde fractie van het genoom die geassocieerd wordt met elk van deze hoofdklassen (gerangschikt van recent naar oud) was gelijk aan 0,027 (SD = 0,029), 0,041 (SD = 0,019), 0,054 (SD = 0,013) en 0,180 (SD = 0,011). Merk op dat hoge percentages zeer recente HBD-segmenten mechanisch geassocieerd zijn met lagere percentages zeer oude HBD-segmenten (r = – 0,407) omdat recente HBD-segmenten meer oude HBD-segmenten maskeren. Hoewel het percentage van het genoom in HBD-klassen geassocieerd met recente gemeenschappelijke voorouders slechts 22,6% van de totale autozygositeit vertegenwoordigt, vertoont het meer individuele variatie dan die in meer oude klassen (meer dan 50% van de totale variantie is geassocieerd met zeer recente HBD-klassen). Door een lineair model toe te passen, schatten we dat zeer recente HBD-klassen 59% van de totale autozygositeitsvariatie voor hun rekening nemen en dat door recente HBD-klassen aan het model toe te voegen, deze waarde tot 83% stijgt. Op dezelfde manier nam de correlatie tussen inteeltcoëfficiënten gemeten met betrekking tot verschillende basispopulaties (bv. door verschillende HBD-klassen in de berekening op te nemen) met de inteeltcoëfficiënten geschat met gebruikmaking van alle HBD-klassen abrupt toe van 0,16 voor schattingen gebaseerd op de eerste klasse (R k = 2) tot 0,77 voor inteeltcoëfficiënten geschat met gebruikmaking van HBD-klassen met een R k ≤ 8 en tot 0,90 met een R k ≤ 16, en verbeterde daarna slechts marginaal door meer HBD-klassen toe te voegen (Fig. 2). De afname van de correlatie die bij R k = 1024 wordt waargenomen, is het gevolg van het feit dat oude autozygositeit bij sommige individuen bij R k = 1024 is geconcentreerd en bij andere bij R k = 2048.

Fig. 2
figure2

Correlaties tussen genomische inteeltcoëfficiënten geschat ten opzichte van verschillende basispopulaties (F G-T ) en de inteeltcoëfficiënt geschat met de meest afgelegen basispopulatie FG-8192 (inclusief alle HBD-klassen). Verschillende basispopulaties worden verkregen door verschillende drempelwaarden T te kiezen die bepalen met welke HBD-klassen rekening wordt gehouden bij de schatting van F G-T (bv. door de basispopulatie ongeveer 0,5 * T generaties in het verleden te plaatsen). De overeenkomstige inteeltcoëfficiënten F G-T worden geschat als de waarschijnlijkheid om tot een van de HBD-klassen met een R k ≤ T te behoren, gemiddeld over het hele genoom. De schatting van de inteeltcoëfficiënten is uitgevoerd met het Mix14R-model (13 HBD-klassen model met voorafgedefinieerde R k-percentages) voor 634 Belgische Blauwe stieren en met behulp van het BovineHD SNP-panel

Vergelijking van de resultaten voor BBB-runderen met die van andere rassen

Om te bepalen of vergelijkbare niveaus en patronen van autozygositeit ook worden waargenomen bij andere rassen van Europese oorsprong, pasten we hetzelfde model toe op 10 rassen die met dezelfde array gegenotypeerd waren (Fig. 3). Bij de meeste van deze rassen namen de inteeltcoëfficiënten, geschat met betrekking tot verschillende basispopulaties, matig toe tot FG-256 (b.v. HBD-klasse met R k ≤ 256 opgenomen in de schatting) en sterker met oudere basispopulaties (FG-512 tot FG-2048), die veel meer generaties van voorouders omvatten. Grote verschillen in inteeltcoëfficiënten werden waargenomen met relatief recente basispopulaties (FG-64, ongeveer 32 generaties geleden), variërend van 0,013 en 0,042 in Piemontese en Limousin tot 0,164 en 0,200 in Jersey en Hereford runderen. Sommige Hereford individuen vertoonden extreme inteeltcoëfficiënten geschat met recente basispopulaties (zie Additional file 2), d.w.z. tot 40% voor FG-8 (bijvoorbeeld, ongeveer vier generaties terug). Een deel van de Hereford-individuen uit deze dataset is afkomstig van de Hereford Line 1, een ingeteelde lijn, wat aangeeft dat ons model extreme gebeurtenissen correct vastlegt, maar ook dat de gegenotypeerde individuen die in deze studie zijn opgenomen niet noodzakelijk representatief zijn voor het ras.

Fig. 3
figure3

Schatting van inteeltcoëfficiënten met betrekking tot verschillende basispopulaties (de drempel T bepaalt welke HBD-klassen worden opgenomen in de schatting van F G-T ) met een Mix14R-model in 11 runderrassen van Europese oorsprong met behulp van het BovineHD SNP-panel. ANG Angus, BBB Belgian Blue Beef cattle, BSW Brown Swiss, CHL Charolais, GNS Guernsey, HFD Hereford, HOL Holstein, JER Jersey, LMS Limousin, PMT Piedmontese, RMG Romagnola

Bepaling van inteeltcoëfficiënten en HBD-kansen met verschillende SNP-dichtheden

We pasten een Mix14R-model toe met verschillende SNP-dichtheden, d.w.z.e., van LD (6844 SNPs) tot HD (601,226 SNPs) op de 634 BBB dataset en zelfs tot WGS (5,653,911 SNPs) voor de 50 geheel genoom gesequenced individuen. De gemiddelde geschatte inteeltcoëfficiënten gemeten met betrekking tot verschillende basispopulaties (Fig. 4) en Aanvullend bestand 3: Fig. S2 waren vergelijkbaar over de SNP-panels voor de meest recente basispopulaties (FG-32). Voor meer oude basispopulaties, werd minder autozygositeit vastgelegd met het LD panel met duidelijke verschillen voor oude HBD klassen die alleen werden vastgelegd met HD of WGS panels. Een soortgelijke trend werd waargenomen met het 50 K panel, maar de gemiddelde inteeltcoëfficiënten waren vergelijkbaar met die van het HD panel tot FG-256 (ongeveer 128 generaties terug). De gemiddelde inteeltcoëfficiënten geschat door gebruik te maken van de meest afgelegen basispopulatie en de LD, 50 K en HD panels waren gelijk aan respectievelijk 0,060, 0,093 en 0,303 (wanneer geschat op de 50 gesequenteerde individuen alleen, waren deze waarden gelijk aan respectievelijk 0,047, 0,101 en 0,309, en aan 0,359 met het WGS panel). De basispopulatie is dan een functie van de kleinste HBD-segmenten die door het gebruikte panel kunnen worden vastgelegd. De correlaties tussen deze inteeltcoëfficiënten, geschat met verschillende panels, waren hoog, d.w.z. 0,934 (LD-HD), 0,944 (LD-50 K) en 0,975 (50 K-HD). Ondanks de veel lagere inteeltcoëfficiënten die met het 50 K-panel werden verkregen, vangt dit panel in wezen alle individuele variatie die met een HD-panel werd verkregen, in overeenstemming met de eerdere waarneming dat de meeste variatie geassocieerd was met recente HBD-klassen.

Fig. 4
figure4

Vergelijking van inteeltcoëfficiënten die zijn geschat met verschillende SNP-dichtheden (LD-paneel in groen, 50 K-paneel in blauw en BovineHD-paneel in grijs) en voor verschillende basispopulaties (de drempel T bepaalt welke HBD-klassen worden meegenomen in de schatting van F G-T ). Schatting van inteeltcoëfficiënten werd uitgevoerd met het Mix14R-model voor 634 Belgische Blauwe stieren

We gebruikten vervolgens het Viterbi algoritme om HBD-segmenten met verschillende SNP-panels te identificeren (Tabel 1). Het Viterbi algoritme classificeert elke SNP positie als HBD of niet-HBD, terwijl het forward-backward algoritme de lokale HBD waarschijnlijkheid oplevert. Zoals verwacht worden meer en kortere HBD-segmenten gevangen met panels met hogere dichtheid. Met het HD-panel werd een beperkt deel van extreem kleine (enkele kb) segmenten vastgelegd. De lengte van de meeste segmenten varieerde van 10 tot 500 kb, waarbij meer dan de helft korter was dan 100 kb, maar dergelijke segmenten hebben niet noodzakelijk de grootste bijdrage tot het totale percentage van het genoom in HBD-klassen, aangezien klassen met minder maar langere segmenten een groot deel van de autozygositeit voor hun rekening kunnen nemen. We hebben ook extreem lange HBD segmenten waargenomen (> 50 Mb), wat de aanwezigheid van recente autozygositeit bevestigde (het langste HBD segment was meer dan 90 Mb lang). Gemiddeld had elk van de 634 stieren 4.25 HBD segmenten die langer waren dan 10 Mb en geassocieerd waren met een gemeenschappelijke voorouder die ongeveer vijf generaties terug aanwezig was. Het aantal van dergelijke HBD-segmenten varieerde van 0 tot 14 per individu. Eenenzestig stieren hadden zelfs één of meer (tot drie) HBD-segmenten langer dan 50 Mb. Met de 50 K en LD panels was meer dan 99% van de geïdentificeerde segmenten langer dan respectievelijk 100 en 500 kb (met een piek in de klassen van respectievelijk 1 tot 5 Mb en van 5 tot 10 Mb), en slechts een fractie van de segmenten werd vastgelegd in vergelijking met wanneer het HD panel werd gebruikt. In het bijzonder werd de overgrote meerderheid van de HBD-segmenten korter dan 1 Mb niet geïdentificeerd. Bij lagere SNP-dichtheden worden de kleinste segmenten gewoon niet geïnventariseerd omdat ze geen of te weinig SNP’s bevatten. Segmenten van gemiddelde grootte bereiken misschien geen hoge HBD-kans door een kleiner aantal SNP’s in het segment. Omgekeerd kan de lengte van sommige HBD-segmenten worden overschat bij gebruik van het LD-panel, bijvoorbeeld wanneer er niet genoeg SNP’s zijn om kleine niet-HBD-segmenten te identificeren die HBD-segmenten flankeren. Figuur 5a illustreert de identificatie van HBD segmenten voor een chromosoom. Het toont aan dat (1) meer segmenten werden geïdentificeerd bij hogere dichtheid, (2) HBD waarschijnlijkheden waren hoger met dichtere kaarten, (3) de Viterbi algoritme verklaard sommige SNP posities als HBD, hoewel ze hadden slechts matige HBD waarschijnlijkheid, en (4) de grenzen van HBD segmenten varieerde met het panel dichtheid. Op dezelfde manier stelt Fig. 5b de HBD-segmenten voor die werden geïdentificeerd op Bos taurus chromosoom (BTA) 5 voor 50 individuen met het Viterbi algoritme met verschillende SNP-dichtheden. De resultaten zijn in overeenstemming met die in tabel 1. Grotere proporties van het genoom werden HBD verklaard met het HD-panel en kleine HBD-segmenten waren verantwoordelijk voor het grootste verschil met de resultaten van panels met lagere dichtheid. Toch stelden we vast dat sommige HBD-segmenten van een paar Mb lang niet werden geïdentificeerd bij lagere SNP-dichtheid (en zelfs nog meer bij het LD-panel). Zoals voor Fig. 5a, wordt de lengte van sommige HBD segmenten overschat wanneer het LD panel werd gebruikt. We vergeleken ook de lokale HBD waarschijnlijkheden geschat door gebruik te maken van het LD of het 50 K panel met de lokale HBD klassen afgeleid door gebruik te maken van het HD panel en het Viterbi algoritme (fig. 6). De HBD waarschijnlijkheden waren hoog voor recente HBD klassen en daalden voor meer afgelegen gemeenschappelijke voorouders. Zoals verwacht was het LD-panel alleen efficiënt voor de meest recente gemeenschappelijke voorouders (de HBD waarschijnlijkheid was 0,90 of hoger wanneer R k < 16 en ~ 0,50 voor R k = 32) terwijl het 50 K-panel het vastleggen van meer oude autozygositeit toeliet (de HBD waarschijnlijkheid was 0,90 of hoger wanneer R k < 64 en ~ 0,50 voor R k = 128). Meer resultaten met betrekking tot de leeftijd (of lengte) van HBD-segmenten die kunnen worden vastgelegd met verschillende SNP-dichtheden worden beschreven in Druet en Gautier .

Tabel 1 Verdeling van de lengte van HBD-segmenten die zijn geïdentificeerd met een model met 13 HBD-klassen met voorafgedefinieerde R k-percentages voor verschillende SNP-dichtheden
Fig. 5
figure5

Illustraties van de identificatie van HBD-segmenten met behulp van verschillende SNP-panels. a Voorbeeld van geschatte HBD-kansen voor één individu op Bos taurus autosoom (BTA) 16 met behulp van verschillende SNP-dichtheden (LD-paneel in groen, 50 K-paneel in blauw en BovineHD-paneel in grijs). De horizontale lijnen onder de curven vertegenwoordigen HBD segmenten zoals geïdentificeerd door het Viterbi algoritme met de drie panelen. Een extreem lang HBD-segment (~ 50 Mb) is afgebeeld (er zijn slechts 69 van dergelijke HBD-segmenten geïdentificeerd in de hele dataset), wat wijst op recente inteelt. Deze stier is één van de 29 individuen met zo’n lang HBD-segment en heeft een inteeltcoëfficiënt van 0,048. b Vergelijkingen van HBD-segmenten geïdentificeerd voor 50 individuen op BTA5 met verschillende panels (elke lijn vertegenwoordigt één individu). Segmenten geïdentificeerd met de HD, 50 K en LD panelen worden weergegeven in grijs, blauw en groen, respectievelijk (met lagere dichtheid resultaten maskeren resultaten verkregen bij hogere dichtheid). De kortste HBD segmenten worden geïdentificeerd met de HD-paneel (aangegeven in grijs), terwijl die van gemiddelde grootte worden ook gevangen met de 50 K paneel (en nog steeds gemist met de LD paneel) en aangegeven in het blauw. Voor een paar HBD segmenten, het gebruik van de LD paneel resulteert in langere segmenten

Fig. 6
figure6

Gemiddelde HBD-kansen geschat voor HBD-segmenten geassocieerd met verschillende leeftijdsgebaseerde klassen. De HBD waarschijnlijkheden werden geschat met de LD (groen) of 50 K (blauw) panels, terwijl de leeftijdsgebaseerde klassen werden bepaald met behulp van het Viterbi algoritme en het HD panel (een 20-voudige SNP dichtheidsverhoging). De gemiddelde HBD-kansen geven aan of segmenten van verschillende klassen worden vastgelegd met panels met lagere dichtheid

Vergelijking van modellen

Modellen die R k-percentages van HBD-klassen schatten (KR-modellen)

Voor de verschillende geteste SNP-dichtheden en voor elk individu, hebben we de BIC (zie ) gebruikt om het KR-model met de beste statistische ondersteuning te selecteren (d.e., met het optimale aantal klassen K, met K – 1 HBD klassen en één niet-HBD klasse) na schatting van de snelheid(en) R k voor elk individu met elk getest model. Tabel 2 toont voor elk SNP-panel het aantal keren dat een model als het beste werd geselecteerd voor het geanalyseerde individu. Naarmate de SNP-dichtheid toeneemt, kunnen meer voorbije generaties worden onderzocht en neemt de optimale K dienovereenkomstig toe. In de meeste gevallen worden modellen met één HBD-klasse verkozen voor het LD-panel, modellen met twee HBD-klassen voor het 50 K-panel, modellen met drie HBD-klassen voor de HD- en WGS-panels (hoewel het model met vier HBD-klassen ook vaak voor het laatste wordt geselecteerd, namelijk voor 23 van de 50 individuen). Met deze optimale modellen vangt de eerste HBD-klasse de meest recente autozygositeit (R k van 15 tot 20), de tweede HBD-klasse autozygositeit die geassocieerd is met gemeenschappelijke voorouders van een paar honderd generaties terug en latere klassen worden geassocieerd met hogere R k (> 1000) (tabel 2). Correlaties van inteeltcoëfficiënten geschat met deze geselecteerde KR modellen met die verkregen met de volledige Mix14R model (variërend van 0,981 tot 1,000) en vergelijking van de gemiddelde geschatte inteeltcoëfficiënten geven aan dat met deze gereduceerde KR modellen, kunnen we effectief vastleggen van de genoom-brede autozygositeit. Met 1R-modellen en lage of matige SNP-dichtheden stelden we een lichte onderschatting van de inteeltcoëfficiënten vast in vergelijking met het Mix14R-model en iets lagere correlaties (nog steeds boven 0,98). De R k percentages geschat voor elk individu met deze panelen hebben een lagere mediane waarde (respectievelijk 15 en 41 met de LD en 50 K panelen) dan de R k percentages geschat met hogere dichtheid panelen (mediane R k > 1000) waarvoor de bijdrage van kleinere ROH veel groter is. Als gevolg daarvan werden sommige kleine fragmenten niet gevangen door het model bij lagere dichtheid, terwijl bij hogere dichtheid de inteeltcoëfficiënten bijna identiek zijn aan de schattingen verkregen met het Mix14R model. Modellen met twee of meer HBD-klassen vingen dezelfde hoeveelheid autozygositeit op als het Mix14R-model, ongeacht de SNP-dichtheid. Hoewel de inteeltcoëfficiënt correct wordt geschat met een 1R-model (een HBD en niet-HBD klasse met hetzelfde percentage) met WGS-gegevens, hebben de geïdentificeerde HBD-segmenten de neiging om kleiner te zijn omdat de geschatte R k percentages hoger zijn (dat wil zeggen, kleinere verwachte lengtes van fragmenten), zoals weergegeven in Additional file 4: Fig. S3. Inderdaad, de 1R-model resulteert in meer 10 tot 100 kb lange segmenten dan de Mix14R model, maar minder segmenten langer dan 100 kb. Met een 1R-model kunnen lange HBD-segmenten dus in kleinere fragmenten worden geknipt in aanwezigheid van heterozygote SNP’s (mogelijk sequencingfouten), terwijl met modellen die HBD-klasse(n) omvatten die geassocieerd zijn met recente gemeenschappelijke voorouders (met kleine R k-percentages), deze HBD-segmenten als één lang en recent fragment worden geïdentificeerd (omdat de straf om een nieuw segment te beëindigen en te beginnen hoger is). Figuur 7 illustreert dit met een voorbeeld. We hebben inderdaad een lang segment met hoge HBD-kansen waargenomen, hoewel er meerdere posities zijn waar de kans op het heterozygote genotype niet-nul is (maar dit is beperkt vergeleken met flankerende regio’s). Met het Mix14R-model wordt dit beschouwd als een lang segment en blijft de lokale HBD waarschijnlijkheid hoger dan 0,99 voor de hele regio (behalve voor een regio met vijf opeenvolgende heterozygote SNP’s). Met het 1R-model dalen de HBD waarschijnlijkheden herhaaldelijk door deze mogelijk heterozygote SNP’s en wordt het langste HBD-segment in verschillende kleinere fragmenten geknipt (op basis van de resultaten van het Viterbi algoritme). Merk op dat met het HD-paneel dit individu homozygoot is voor alle 13.009 SNP’s die in dit 56,1 Mb lange segment zijn opgenomen. Net als in fig. 5 zien we dat het Viterbi algoritme sommige posities met een lage geschatte HBD waarschijnlijkheid als HBD classificeert.

Tabel 2 Vergelijking van modellen voor de schatting van genomische inteeltcoëfficiënten met verschillende aantallen HBD-klassen (van 1 tot 4)
Fig. 7
figure7

Vergelijking van de lengte van HBD-segmenten die zijn geïdentificeerd met WGS-gegevens en met het 1R- of het Mix14R-model op BTA3. De grijze en rode lijnen geven de HBD-kansen weer die zijn geschat met respectievelijk het 1R- en het Mix14R-model; de donkergrijze stippen geven de waarschijnlijkheid van heterozygote genotypen weer (verkregen uit de VCF); de blauwe en gele segmenten vertegenwoordigen HBD-segmenten die met het Viterbi-algoritme zijn geïdentificeerd met respectievelijk het 1R- en het Mix14R-model

Modellen met vooraf gedefinieerde R k-percentages van HBD-klassen (MixKR-modellen)

Vergeleken met de KR-modellen, MixKR-modellen het voordeel dat voor alle individuen dezelfde HBD-klassen worden gebruikt (de R k-percentages van de HBD-klassen worden niet individueel geschat, maar vooraf bepaald door de gebruiker) en maken vergelijkingen tussen individuen gemakkelijker (het vergelijken van twee individuen met één HBD-klasse maar met R k = 8 voor de eerste en R k = 96 voor de tweede zou bijvoorbeeld niet gemakkelijk zijn – de geschatte R k varieert van 4 tot 1000). Verscheidene van deze MixKR-modellen (met K = 2, 3 en 4) werden getest met het LD-panel (tabel 3) om na te gaan of gereduceerde modellen met vooraf bepaalde percentages van HBD-klassen efficiënt zijn. Om deze vooraf bepaalde percentages te selecteren, hebben we ofwel de mediaan gebruikt van de geschatte percentages van modellen met hetzelfde aantal klassen (zie vorig punt), ofwel een paar klassen uit het MixKR-model geselecteerd om het bereik van de geschatte waarden te bestrijken (bv. één klasse voor recente HBD-segmenten en één voor oude HBD-segmenten). In overeenstemming met eerdere waarnemingen over KR-modellen blijkt uit vergelijkingen van de geschatte inteeltcoëfficiënten met die van het Mix14R-model dat modellen met één HBD-klasse de inteeltcoëfficiënten licht onderschatten en resulteren in lagere correlaties (> 0,96) dan modellen met twee of meer HBD-klassen (> 0,99). Aanwezigheid van meerdere HBD-klassen (> 2) laat een betere beoordeling toe van de bijdragen van verschillende vorige generaties (bv, R k = 8 vs 64) maar levert geen betere schattingen van de genoombrede inteeltcoëfficiënt op.

Tabel 3 Schatting van de genomische inteeltcoëfficiënten met modellen die gebruikmaken van verschillende aantallen HBD-klassen (van 1 tot 4) met voorafgedefinieerde R k-percentages die overeenkomen met de verwachte lengte in Morgans van HBD-segmenten en met het LD-panel

Vergelijking met andere schatters van inteeltcoëfficiënten

De gemiddelden en bereiken van de inteeltcoëfficiënten die met verschillende methoden en het HD-panel zijn geschat, staan in tabel 4 en hun correlaties staan in tabel 5, en in Extra bestand 5: Tabellen S1 en S2 voor andere panels. Vergelijkbaar met ons model resulteerden modellen op basis van waargenomen homozygositeit en ROH in hoge inteeltcoëfficiënten (respectievelijk gemiddeld 0.644 en 0.151), terwijl andere genomische schatters resulteerden in inteeltcoëfficiënten gecentreerd rond 0 en inclusief negatieve waarden. Opgemerkt moet worden dat hogere waarden worden verkregen gemiddeld (0.268) bij gebruik van minder strenge regels om ROH te identificeren (bijv. vensters van 20 SNPs en ten minste 10 SNPs per ROH). We zagen zeer hoge correlaties tussen HMM-gebaseerde schattingen en zowel maatregelen gebaseerd op homozygositeit (r = 0,95 met FHOM en FExHOM, deze twee maatregelen presenteren een correlatie van 1 en zijn in wezen hetzelfde) of op ROH (r = 0,95 met FROH), die suggereren dat met grote aantallen SNP’s, eenvoudige heuristiek (het negeren van allel frequenties, SNP spatiëring, etc.) efficiënt zijn (FHOM en FROH zijn sterk gecorreleerd, r = 0,97). De correlatie tussen FHOM geschat met LD en HD panels is gelijk aan 0,890, hetgeen iets lager is dan de correlatie tussen schattingen verkregen met de HMM voor deze twee panels (r = 0,934), hetgeen aangeeft dat globale schatters nog steeds goed werken met 6844 SNP’s in deze populatie. Regel-gebaseerde ROH methoden zijn minder efficiënt bij lagere SNP dichtheden, omdat ze alleen de langste fragmenten (5 Mb of meer en 20 Mb gemiddeld) te vangen met de parameters die in de huidige studie (de standaard vensters grootte in plink). In feite zijn ROH-gebaseerde schatters zelden gebruikt met de LD panel bij runderen, hoewel meer HBD segmenten kunnen worden geïdentificeerd met minder strenge regels, ten koste van een verhoogd percentage vals-positieven. Bij lage SNP-dichtheid biedt het HMM-kader nog steeds correcte globale en lokale HBD waarschijnlijkheden, hoewel HBD-segmenten niet ondubbelzinnig worden geïdentificeerd.

Tabel 4 Samenvattende statistieken voor de inteeltcoëfficiënten geschat voor de 634 Belgische Blauwe vaders met verschillende methoden en met behulp van het HD-panel
Tabel 5 Correlaties tussen inteeltcoëfficiënten geschat voor de 634 Belgische Blauwe stieren met verschillende methoden en met behulp van het HD-panel

Correlaties van schattingen uit het traditionele GRM met onze schattingen zijn gematigd hoog (r = 0.73) en lager met homozygositeitsschatters (r = 0,63) en ROH-gebaseerde schatters (0,61). Het FGRM werd berekend met de formule voorgesteld door , die alle SNP-bijdragen door hetzelfde gewicht verdeelt. Wanneer geschat met de alternatieve formule, die elke SNP-bijdrage deelt door zijn eigen gewicht 2f i (1 – f i ) (f i is de frequentie van SNP i) zoals in Amin et al. , waren de correlaties lager (d.w.z. 0,48 met FG, 0,34 met FHOM en 0,33 met FROH). De schatter gebaseerd op de verenigde correlaties tussen gameten voorgesteld door Yang et al. vertoonde relatief hoge correlaties met zowel FG als FGRM (respectievelijk 0.90 en 0.92) en iets lagere correlaties met de andere schatters (r = 0.87 en 0.85 met FHOM en FROH, respectievelijk).

Correlaties van deze schattingen met inteeltcoëfficiënten van de stamboom (waarbij alleen individuen die na 1999 geboren zijn in aanmerking worden genomen om de diepte van de stamboom te vergroten) staan ook in Tabel 5. Over het geheel genomen waren de correlaties matig, met de hoogste waarden voor de correlaties met de op homozygositeit en ROH gebaseerde maatregelen (0,55 voor beide maatregelen) en iets lagere waarden voor die met de op HMM gebaseerde schatter (0,46), terwijl we een lage correlatie met FGRM (0,29) en een matige correlatie met FUNI (0,45) hebben waargenomen. Wij vergeleken ook de FPED en inteeltcoëfficiënten geschat met ons model met betrekking tot verschillende basispopulaties (Fig. 8) en ontdekten dat de correlaties toenamen tot FG-32 (die de inteelt van voorouders ongeveer 16 generaties terug vastlegt) en dan een plateau bereikten van FG-32 tot FG-256 met een maximum bij r = 0,56 (d.w.z., iets beter dan op homozygositeit gebaseerde schatters). Deze trend was te verwachten omdat FPED voor een beperkt aantal generaties terug in de tijd wordt geschat. Het gemiddelde equivalente aantal bekende generaties geschat met PEDIG was 6.3 voor de stieren geboren na 1999 (het steeg van 5.5 voor stieren geboren in 2000 tot 7.5 voor die geboren in 2010) wat gemiddeld overeenkomt met FG-16. De toevoeging van HBD-klasse R k = 32 maakt het mogelijk de bijdragen van enkele oudere takken van de stamboom en de kleinste HBD-segmenten, geërfd van gemeenschappelijke voorouders in de stamboom, in beeld te brengen.

Fig. 8
figure8

Correlaties tussen de inteeltcoëfficiënten geschat met betrekking tot verschillende basispopulaties (F G-T ) en de inteeltcoëfficiënt geschat op basis van stamboomgegevens voor de Belgische Blauwe vaders geboren na 1999 en met gebruikmaking van het HD-panel. Verschillende basispopulaties werden verkregen door verschillende drempels T te selecteren die bepalen welke HBD-klassen in aanmerking worden genomen voor de schatting van F G-T (bv. door de basispopulatie ongeveer 0,5 * T generaties in het verleden te plaatsen). De overeenkomstige inteeltcoëfficiënten F G-T worden geschat als de waarschijnlijkheid om tot een van de HBD-klassen met een R k ≤ T te behoren, gemiddeld over het hele genoom. De genomische inteeltcoëfficiënten werden geschat met het Mix14R-model

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *