Altersbasierte Partitionierung des individuellen genomischen Inzuchtniveaus bei Belgischen Blaurindern

Schätzung und alters-basierte Partitionierung individueller genomischer Inzuchtgrade in der Belgian Blue Beef Rinderpopulation

Wir begannen mit der Verwendung eines Mix14R-Modells (mit R k im Bereich von 2 bis 8192), um den Anteil des Genoms zu schätzen, der zu verschiedenen HBD-Klassen für die 634 BBB-Väter gehört (Abb. 1a), was die Schätzung des Inzuchtkoeffizienten in Bezug auf verschiedene Basispopulationen ermöglicht, wie in den Methoden erläutert (Abb. 1b). Bei der Betrachtung aller HBD-Klassen betrug der Anteil des Genoms, der HBD ist (entsprechend dem Inzuchtkoeffizienten, der mit der am weitesten entfernten Basispopulation geschätzt wurde), im Durchschnitt 0,303 (im Bereich von 0,258 bis 0,375), mit einem großen Beitrag von HBD-Klassen mit hohen R k-Raten (R k > 256), die im Durchschnitt 71,4% des gesamten HBD-Anteils ausmachen. Diese kleinen ROH spiegeln die Geschichte der Population (Hintergrundinzucht und Kopplungsungleichgewicht in Verbindung mit der vergangenen effektiven Populationsgröße (Ne)) besser wider als individuelle Variation. Klassen, die mit kleineren R k-Raten assoziiert sind (d. h. mit längeren HBD-Segmenten), machten einen geringeren Anteil des gesamten HBD-Anteils aus (der durchschnittliche Inzuchtkoeffizient war gleich 0,054 und 0,087, wenn man HBD-Klassen mit R k ≤ 32 bzw. R k ≤ 256 einbezog und die Basispopulation vor ca. 16 bzw. 128 Generationen ansetzte), zeigten aber mehr Variation zwischen den Individuen. Zum Beispiel lag der Inzuchtkoeffizient, der mit gemeinsamen Vorfahren assoziiert wurde, die bis vor etwa vier Generationen zurückverfolgt wurden (entsprechend HBD-Klassen mit R k ≤ 8), zwischen 0,000 und 0,137. Für Bullen, die zwischen 1980 und 2010 geboren wurden, stieg der Anteil des Genoms in HBD-Segmenten um 3,3 % (+ 0,11 % pro Jahr), d. h. etwa von 28 auf 31 % (siehe Zusatzdatei 1: Abb. S1a). Der Trend für jüngere HBD-Klassen (R k ≤ 32) war jedoch ausgeprägter (siehe Zusätzliche Datei 1: Abb. S1b), d. h. von fast 0 auf 6 % (+ 0,20 % pro Jahr) und entsprach eher dem Trend, der bei stammbaumbasierten Inzuchtkoeffizienten beobachtet wurde (siehe Zusätzliche Datei 1: Abb. S1c). Bullen, die vor 1980 geboren wurden, zeigten im Vergleich zu modernen Bullen wenig Anzeichen für rezente Autozygotie.

Fig. 1
Abbildung1

Aufteilung der genomweiten Autozygotie für die 634 Belgian Blue-Bullen unter Verwendung des BovineHD-SNP-Panels. a Boxplot der prozentualen Anteile der einzelnen Genome, die mit 13 HBD-Klassen mit vordefinierten R k-Raten (Mix14R-Modell) assoziiert sind. Die Prozentsätze entsprechen individuellen genomweiten Wahrscheinlichkeiten der Zugehörigkeit zu jeder der HBD-Klassen. b Genomische Inzuchtkoeffizienten, die in Bezug auf verschiedene Basispopulationen geschätzt wurden (F G-T ), erhalten durch die Auswahl verschiedener Schwellenwerte T, die bestimmen, welche HBD-Klassen bei der Schätzung von F G-T berücksichtigt werden (z. B. Festlegen der Basispopulation auf etwa 0,5 * T Generationen in der Vergangenheit). Die entsprechenden Inzuchtkoeffizienten F G-T werden als die über das gesamte Genom gemittelte Wahrscheinlichkeit der Zugehörigkeit zu einer der HBD-Klassen mit einem R k ≤ T geschätzt

Um den Beitrag jeder HBD-Klasse zum prozentualen Anteil des Genoms in HBD-Segmenten und zu dessen Variation in BBB-Rindern zu ermitteln, teilten wir den Gesamtanteil des Genoms in HBD-Klassen in vier Hauptklassen ein (sehr junge HBD-Klassen mit R k = 2 bis 8, junge HBD-Klassen mit R k = 16 bis 64, alte HBD-Klassen mit R k = 128 bis 512 und sehr alte HBD-Klassen mit R k = 1024 bis 8192), wobei jede Gruppe drei HBD-Klassen hatte, außer der letzten mit vier HBD-Klassen. Der durchschnittliche Anteil des Genoms, der mit jeder dieser Hauptklassen (geordnet von rezent bis uralt) assoziiert war, betrug 0,027 (SD = 0,029), 0,041 (SD = 0,019), 0,054 (SD = 0,013) und 0,180 (SD = 0,011). Beachten Sie, dass hohe Anteile von sehr rezenten HBD-Segmenten mechanisch mit geringeren Anteilen von sehr alten HBD-Segmenten verbunden sind (r = – 0,407), weil rezente HBD-Segmente ältere HBD-Segmente maskieren. Obwohl der Prozentsatz des Genoms in HBD-Klassen, die mit rezenten gemeinsamen Vorfahren assoziiert sind, nur 22,6 % der gesamten Autozygotie ausmacht, zeigt er mehr individuelle Variation als die in älteren Klassen (mehr als 50 % der Gesamtvarianz ist mit sehr rezenten HBD-Klassen verbunden). Durch die Anpassung eines linearen Modells schätzten wir, dass sehr rezente HBD-Klassen 59% der gesamten Autozygotie-Variation ausmachen und dass das Hinzufügen rezenter HBD-Klassen zum Modell diesen Wert auf 83% erhöht. In ähnlicher Weise stiegen die Korrelationen zwischen Inzuchtkoeffizienten, die in Bezug auf verschiedene Basispopulationen gemessen wurden (z. B. unter Einbeziehung verschiedener HBD-Klassen in die Berechnung), mit den Inzuchtkoeffizienten, die unter Verwendung aller HBD-Klassen geschätzt wurden, abrupt von 0,16 für Schätzungen, die auf der ersten Klasse (R k = 2) basierten, auf 0,77 für Inzuchtkoeffizienten, die unter Einbeziehung von HBD-Klassen mit einem R k ≤ 8 geschätzt wurden, und auf 0,90 mit einem R k ≤ 16, und verbesserten sich dann nur noch geringfügig durch Hinzufügen weiterer HBD-Klassen (Abb. 2). Die Abnahme der Korrelation, die bei R k = 1024 beobachtet wird, resultiert aus der Tatsache, dass alte Autozygotie bei R k = 1024 für einige Individuen und bei R k = 2048 für andere konzentriert ist.

Fig. 2
Abbildung2

Korrelationen zwischen genomischen Inzuchtkoeffizienten, die in Bezug auf verschiedene Basispopulationen (F G-T ) geschätzt wurden, und dem Inzuchtkoeffizienten, der mit der am weitesten entfernten Basispopulation FG-8192 (einschließlich aller HBD-Klassen) geschätzt wurde. Unterschiedliche Basispopulationen erhält man durch die Wahl verschiedener Schwellenwerte T, die bestimmen, welche HBD-Klassen bei der Schätzung von F G-T berücksichtigt werden (z. B. Setzen der Basispopulation auf etwa 0,5 * T Generationen in der Vergangenheit). Die entsprechenden Inzuchtkoeffizienten F G-T werden als die Wahrscheinlichkeit der Zugehörigkeit zu einer der HBD-Klassen mit einem R k ≤ T gemittelt über das gesamte Genom geschätzt. Die Schätzung der Inzuchtkoeffizienten wurde mit dem Mix14R-Modell (13 HBD-Klassen-Modell mit vordefinierten R k-Raten) für 634 Belgian Blue-Vatertiere und unter Verwendung des BovineHD SNP-Panels

Vergleich der Ergebnisse für BBB-Rinder mit denen anderer Rassen

Um festzustellen, ob vergleichbare Niveaus und Muster der Autozygotie auch bei anderen Rassen europäischen Ursprungs beobachtet werden, haben wir dasselbe Modell auf 10 Rassen angewandt, wendeten wir das gleiche Modell auf 10 Rassen an, die mit dem gleichen Array genotypisiert wurden (Abb. 3). Bei den meisten dieser Rassen stiegen die geschätzten Inzuchtkoeffizienten in Bezug auf verschiedene Basispopulationen mäßig bis FG-256 (z. B. HBD-Klasse mit R k ≤ 256 in die Schätzung einbezogen) und stärker bei älteren Basispopulationen (FG-512 bis FG-2048), die viel mehr Generationen von Vorfahren umfassen. Große Unterschiede in den Inzuchtkoeffizienten wurden bei relativ jungen Basispopulationen (FG-64, vor ca. 32 Generationen) beobachtet, die von 0,013 und 0,042 bei Piemonteser und Limousin bis zu 0,164 und 0,200 bei Jersey und Hereford-Rindern reichten. Einige Hereford-Individuen wiesen extreme Inzuchtkoeffizienten auf, die mit rezenten Basispopulationen geschätzt wurden (siehe Zusatzdatei 2), d. h. bis zu 40 % für FG-8 (z. B. etwa vier Generationen zurück). Ein Teil der Hereford-Individuen aus diesem Datensatz stammt aus der Hereford-Linie 1, einer Inzuchtlinie, was darauf hindeutet, dass unser Modell Extremereignisse korrekt erfasst, aber auch, dass die genotypisierten Individuen in dieser Studie nicht unbedingt repräsentativ für die Rasse sind.

Fig. 3
Abbildung3

Schätzung der Inzuchtkoeffizienten in Bezug auf verschiedene Basispopulationen (der Schwellenwert T bestimmt, welche HBD-Klassen in die Schätzung von F G-T einbezogen werden) mit einem Mix14R-Modell bei 11 Rinderrassen europäischer Herkunft unter Verwendung des BovineHD SNP-Panels. ANG Angus, BBB Belgisches Blaues Fleischrind, BSW Braunvieh, CHL Charolais, GNS Guernsey, HFD Hereford, HOL Holstein, JER Jersey, LMS Limousin, PMT Piemonteser, RMG Romagnola

Schätzung von Inzuchtkoeffizienten und HBD-Wahrscheinlichkeiten mit verschiedenen SNP-Dichten

Wir haben ein Mix14R-Modell mit verschiedenen SNP-Dichten angepasst, d. h.e., von LD (6844 SNPs) bis HD (601.226 SNPs) für den 634 BBB-Datensatz und sogar bis WGS (5.653.911 SNPs) für die 50 ganzgenomisch sequenzierten Individuen. Die durchschnittlichen geschätzten Inzuchtkoeffizienten, die in Bezug auf die verschiedenen Basispopulationen (Abb. 4) und Additional file 3: Abb. S2 gemessen wurden, waren bei den SNP-Panels für die jüngsten Basispopulationen (FG-32) ähnlich. Für ältere Basispopulationen wurde weniger Autozygotie mit dem LD-Panel erfasst, mit deutlichen Unterschieden für alte HBD-Klassen, die nur mit HD- oder WGS-Panels erfasst wurden. Ein ähnlicher Trend wurde mit dem 50 K-Panel beobachtet, aber die durchschnittlichen Inzuchtkoeffizienten waren bis FG-256 (ca. 128 Generationen zurück) ähnlich denen des HD-Panels. Die durchschnittlichen Inzuchtkoeffizienten, die unter Verwendung der am weitesten entfernten Basispopulation und der LD-, 50 K- und HD-Panels geschätzt wurden, betrugen 0,060, 0,093 bzw. 0,303 (bei einer Schätzung nur für die 50 sequenzierten Individuen betrugen diese Werte 0,047, 0,101 bzw. 0,309 und 0,359 mit dem WGS-Panel). Die Basispopulation ist dann eine Funktion der kleinsten HBD-Segmente, die durch das verwendete Panel erfasst werden können. Die Korrelationen zwischen den mit den verschiedenen Panels geschätzten Inzuchtkoeffizienten waren hoch, d.h. 0,934 (LD-HD), 0,944 (LD-50 K) und 0,975 (50 K-HD). Trotz der viel niedrigeren Inzuchtkoeffizienten, die mit dem 50 K-Panel erhalten wurden, erfasst es im Wesentlichen die gesamte individuelle Variation, die mit einem HD-Panel erhalten wurde, in Übereinstimmung mit der früheren Beobachtung, dass der größte Teil der Variation mit rezenten HBD-Klassen verbunden war.

Fig. 4
Abbildung4

Vergleich der Inzuchtkoeffizienten, die mit verschiedenen SNP-Dichten (LD-Panel in grün, 50 K-Panel in blau und BovineHD-Panel in grau) und für verschiedene Basispopulationen geschätzt wurden (der Schwellenwert T bestimmt, welche HBD-Klassen in die Schätzung von F G-T einbezogen werden). Die Schätzung der Inzuchtkoeffizienten wurde mit dem Mix14R-Modell für 634 Belgian Blue-Vatertiere durchgeführt

Wir haben dann den Viterbi-Algorithmus verwendet, um HBD-Segmente mit verschiedenen SNP-Panels zu identifizieren (Tabelle 1). Der Viterbi-Algorithmus klassifiziert jede SNP-Position als HBD oder Nicht-HBD, während der Vorwärts-Rückwärts-Algorithmus die lokale HBD-Wahrscheinlichkeit liefert. Wie erwartet, werden mit Panels höherer Dichte mehr und kürzere HBD-Segmente erfasst. Mit dem HD-Panel wurde ein begrenzter Anteil an extrem kleinen (wenige kb) Segmenten erfasst. Die Länge der meisten Segmente reichte von 10 bis 500 kb, wobei mehr als die Hälfte kürzer als 100 kb war, aber solche Segmente haben nicht unbedingt den größten Beitrag zum Gesamtanteil des Genoms in HBD-Klassen, da Klassen mit weniger, aber längeren Segmenten einen großen Anteil der Autozygotie ausmachen können. Wir beobachteten auch extrem lange HBD-Segmente (> 50 Mb), die das Vorhandensein von rezenter Autozygotie bestätigten (das längste HBD-Segment war mehr als 90 Mb lang). Im Durchschnitt hatte jeder der 634 Bullen 4,25 HBD-Segmente, die länger als 10 Mb waren und mit einem gemeinsamen Vorfahren verbunden waren, der etwa fünf Generationen zurücklag. Die Anzahl solcher HBD-Segmente reichte von 0 bis 14 pro Individuum. Einundsechzig Bullen hatten sogar ein oder mehrere (bis zu drei) HBD-Segmente, die länger als 50 Mb waren. Mit den 50 K- und LD-Panels waren mehr als 99 % der identifizierten Segmente länger als 100 bzw. 500 kb (mit einer Spitze in den Klassen von 1 bis 5 Mb bzw. von 5 bis 10 Mb), und nur ein Bruchteil der Segmente wurde im Vergleich zur Verwendung des HD-Panels erfasst. Insbesondere wurde die große Mehrheit der HBD-Segmente, die kürzer als 1 Mb waren, nicht identifiziert. Bei niedrigeren SNP-Dichten werden die kleinsten Segmente einfach nicht erfasst, weil sie keine oder zu wenige SNPs enthalten. Segmente mittlerer Größe erreichen möglicherweise keine hohen HBD-Wahrscheinlichkeiten aufgrund einer geringeren Anzahl von SNPs im Segment. Umgekehrt kann die Länge einiger HBD-Segmente überschätzt werden, wenn das LD-Panel verwendet wird, z. B. wenn es nicht genügend SNPs gibt, um kleine Nicht-HBD-Segmente zu identifizieren, die HBD-Segmente flankieren. Abbildung 5a illustriert die Identifizierung von HBD-Segmenten für ein Chromosom. Sie zeigt, dass (1) mehr Segmente bei höherer Dichte identifiziert wurden, (2) die HBD-Wahrscheinlichkeiten bei dichteren Karten höher waren, (3) der Viterbi-Algorithmus einige SNP-Positionen als HBD deklarierte, obwohl sie nur moderate HBD-Wahrscheinlichkeiten hatten, und (4) die Grenzen der HBD-Segmente mit der Paneldichte variierten. In ähnlicher Weise stellt Abb. 5b HBD-Segmente dar, die auf Bos taurus Chromosom (BTA) 5 für 50 Individuen mit dem Viterbi-Algorithmus bei unterschiedlichen SNP-Dichten identifiziert wurden. Die Ergebnisse stimmen mit denen in Tabelle 1 überein. Größere Anteile des Genoms wurden mit dem HD-Panel als HBD deklariert und kleine HBD-Segmente machten den größten Teil des Unterschieds zu den Ergebnissen der Panels mit geringerer Dichte aus. Dennoch beobachteten wir, dass einige HBD-Segmente von einigen Mb Länge bei geringerer SNP-Dichte nicht identifiziert wurden (und noch mehr beim LD-Panel). Wie in Abb. 5a wird die Länge einiger HBD-Segmente überschätzt, wenn das LD-Panel verwendet wurde. Wir verglichen auch die lokalen HBD-Wahrscheinlichkeiten, die entweder mit dem LD- oder dem 50 K-Panel geschätzt wurden, mit den lokalen HBD-Klassen, die mit dem HD-Panel und dem Viterbi-Algorithmus abgeleitet wurden (Abb. 6). Die HBD-Wahrscheinlichkeiten waren hoch für rezente HBD-Klassen und fielen für weiter entfernte gemeinsame Vorfahren. Wie erwartet war das LD-Panel nur für die jüngsten gemeinsamen Vorfahren effizient (die HBD-Wahrscheinlichkeit war 0,90 oder höher, wenn R k < 16 und ~ 0,50 für R k = 32), während das 50 K-Panel die Erfassung von älterer Autozygotie ermöglichte (die HBD-Wahrscheinlichkeit war 0,90 oder höher, wenn R k < 64 und ~ 0,50 für R k = 128). Weitere Ergebnisse bezüglich des Alters (oder der Länge) der HBD-Segmente, die mit unterschiedlichen SNP-Dichten erfasst werden können, sind in Druet und Gautier beschrieben.

Tabelle 1 Verteilung der Länge von HBD-Segmenten, die mit einem Modell mit 13 HBD-Klassen mit vordefinierten R k-Raten für verschiedene SNP-Dichten
Fig. 5
Abbildung5

Illustrationen der Identifizierung von HBD-Segmenten unter Verwendung verschiedener SNP-Panels. a Beispiel für geschätzte HBD-Wahrscheinlichkeiten für ein Individuum auf Bos taurus-Autosom (BTA) 16 unter Verwendung verschiedener SNP-Dichten (LD-Panel in grün, 50 K-Panel in blau und BovineHD-Panel in grau). Die horizontalen Linien unter den Kurven stellen HBD-Segmente dar, wie sie durch den Viterbi-Algorithmus mit den drei Panels identifiziert wurden. Ein extrem langes HBD-Segment (~ 50 Mb) ist dargestellt (es gibt nur 69 solcher HBD-Segmente, die im gesamten Datensatz identifiziert wurden), was auf rezente Inzucht schließen lässt. Dieser Bulle ist eines der 29 Individuen, die solch lange HBD-Segmente tragen und hat einen Inzuchtkoeffizienten von 0,048. b Vergleiche der HBD-Segmente, die für 50 Individuen auf BTA5 unter Verwendung verschiedener Panels identifiziert wurden (jede Linie repräsentiert ein Individuum). Segmente, die mit den HD-, 50 K- und LD-Panels identifiziert wurden, sind in grau, blau bzw. grün dargestellt (wobei die Ergebnisse mit geringerer Dichte die Ergebnisse mit höherer Dichte überdecken). Die kürzesten HBD-Segmente werden mit dem HD-Panel identifiziert (in grau angezeigt), während die Segmente mittlerer Größe auch mit dem 50 K-Panel erfasst werden (und mit dem LD-Panel noch verfehlt werden) und in blau angezeigt werden. Für einige wenige HBD-Segmente führt die Verwendung des LD-Panels zu längeren Segmenten

Fig. 6
Abbildung6

Durchschnittliche HBD-Wahrscheinlichkeiten wurden für HBD-Segmente geschätzt, die verschiedenen altersbasierten Klassen zugeordnet sind. Die HBD-Wahrscheinlichkeiten wurden mit dem LD- (grün) oder 50 K-Panel (blau) geschätzt, während die altersbasierten Klassen mit dem Viterbi-Algorithmus und dem HD-Panel (20-fache Erhöhung der SNP-Dichte) bestimmt wurden. Die durchschnittlichen HBD-Wahrscheinlichkeiten zeigen an, ob Segmente aus verschiedenen Klassen unter Verwendung von Panels mit geringerer Dichte erfasst werden

Vergleich der Modelle

Modelle, die R k-Raten von HBD-Klassen schätzen (KR-Modelle)

Für die verschiedenen getesteten SNP-Dichten und für jedes Individuum, verwendeten wir den BIC (siehe ), um das KR-Modell mit der besten statistischen Unterstützung auszuwählen (d. h.e., mit der optimalen Anzahl von Klassen K, mit K – 1 HBD-Klassen und einer Nicht-HBD-Klasse), nachdem wir die Rate(n) R k für jedes Individuum mit jedem getesteten Modell geschätzt hatten. Für jedes SNP-Panel zeigt Tabelle 2, wie oft ein Modell als das beste für das analysierte Individuum ausgewählt wurde. Mit zunehmender SNP-Dichte können mehr vergangene Generationen erforscht werden und das optimale K erhöht sich entsprechend. In den meisten Fällen werden Modelle mit einer HBD-Klasse für das LD-Panel bevorzugt, Modelle mit zwei HBD-Klassen für das 50-K-Panel, Modelle mit drei HBD-Klassen für die HD- und WGS-Panels (obwohl das Modell mit vier HBD-Klassen auch für letztere oft gewählt wird, d. h. für 23 von 50 Individuen). Bei diesen optimalen Modellen erfasst die erste HBD-Klasse die jüngste Autozygotie (R k von 15 bis 20), die zweite HBD-Klasse erfasst Autozygotie, die mit gemeinsamen Vorfahren aus ein paar hundert Generationen zurück assoziiert ist, und spätere Klassen sind mit höheren R k (> 1000) assoziiert (Tabelle 2). Die Korrelationen der Inzuchtkoeffizienten, die mit diesen ausgewählten KR-Modellen geschätzt wurden, mit denen, die mit dem vollständigen Mix14R-Modell erhalten wurden (im Bereich von 0,981 bis 1,000) und der Vergleich der durchschnittlichen geschätzten Inzuchtkoeffizienten zeigen, dass wir mit diesen reduzierten KR-Modellen die genomweite Autozygosität effektiv erfassen können. Mit 1R-Modellen und niedrigen oder moderaten SNP-Dichten beobachteten wir eine leichte Unterschätzung der Inzuchtkoeffizienten im Vergleich zum Mix14R-Modell und etwas niedrigere Korrelationen (immer noch über 0,98). Die für jedes Individuum mit diesen Panels geschätzten R k-Raten haben einen niedrigeren Medianwert (bzw. 15 und 41 mit den LD- und 50 K-Panels) als die mit Panels höherer Dichte geschätzten R k-Raten (Median R k > 1000), bei denen der Beitrag kleinerer ROH viel größer ist. Infolgedessen wurden einige kleine Fragmente bei geringerer Dichte nicht vom Modell erfasst, während bei höherer Dichte die Inzuchtkoeffizienten fast identisch mit den Schätzungen sind, die mit dem Mix14R-Modell erhalten wurden. Modelle, die zwei oder mehr HBD-Klassen enthalten, erfassten die gleiche Menge an Autozygotie wie das Mix14R-Modell, unabhängig von der SNP-Dichte. Obwohl der Inzuchtkoeffizient mit einem 1R-Modell (eine HBD- und eine Nicht-HBD-Klasse mit der gleichen Rate) mit WGS-Daten korrekt geschätzt wird, sind die identifizierten HBD-Segmente tendenziell kleiner, da die geschätzten R k-Raten höher sind (d. h. kleinere erwartete Längen der Fragmente), wie in Zusatzdatei 4: Abb. S3 gezeigt. In der Tat ergibt das 1R-Modell mehr 10 bis 100 kb lange Segmente als das Mix14R-Modell, aber weniger Segmente, die länger als 100 kb sind. Mit einem 1R-Modell könnten also lange HBD-Segmente bei Vorhandensein von heterozygoten SNPs (möglicherweise Sequenzierungsfehler) in kleinere Fragmente zerschnitten werden, während bei Modellen, die HBD-Klasse(n) enthalten, die mit rezenten gemeinsamen Vorfahren assoziiert sind (mit kleinen R k-Raten), diese HBD-Segmente als ein langes und rezentes Fragment identifiziert werden (weil die Strafe, ein neues Segment zu beenden und zu beginnen, höher ist). Abbildung 7 veranschaulicht dies anhand eines Beispiels. In der Tat haben wir ein langes Segment mit hohen HBD-Wahrscheinlichkeiten beobachtet, obwohl es mehrere Positionen gibt, bei denen die Wahrscheinlichkeit des heterozygoten Genotyps nicht Null ist (aber dies ist im Vergleich zu flankierenden Regionen begrenzt). Mit dem Mix14R-Modell wird dies als ein langes Segment betrachtet und die lokale HBD-Wahrscheinlichkeit bleibt für die gesamte Region höher als 0,99 (außer für eine Region mit fünf aufeinanderfolgenden heterozygoten SNPs). Mit dem 1R-Modell sinken die HBD-Wahrscheinlichkeiten aufgrund dieser möglicherweise heterozygoten SNPs wiederholt und das längste HBD-Segment wird in mehrere kleinere Fragmente geschnitten (basierend auf den Ergebnissen des Viterbi-Algorithmus). Beachten Sie, dass dieses Individuum mit dem HD-Panel homozygot für alle 13.009 SNPs ist, die in diesem 56,1-Mb langen Segment enthalten sind. Wie in Abb. 5 stellen wir fest, dass der Viterbi-Algorithmus einige Positionen mit einer niedrigen geschätzten HBD-Wahrscheinlichkeit als HBD klassifiziert.

Tabelle 2 Vergleich der Modelle, die zur Schätzung der genomischen Inzuchtkoeffizienten mit unterschiedlicher Anzahl von HBD-Klassen (von 1 bis 4)
Fig. 7
Abbildung7

Vergleich der Länge der HBD-Segmente, die mit WGS-Daten und mit dem 1R- oder dem Mix14R-Modell auf BTA3 identifiziert wurden. Die grauen und roten Linien stellen die HBD-Wahrscheinlichkeiten dar, die mit den 1R- bzw. Mix14R-Modellen geschätzt wurden; die dunkelgrauen Punkte stellen die Wahrscheinlichkeit heterozygoter Genotypen dar (erhalten aus dem VCF); die blauen und gelben Segmente stellen HBD-Segmente dar, die mit dem Viterbi-Algorithmus mit dem 1R- bzw. dem Mix14R-Modell identifiziert wurden

Modelle mit vordefinierten R k-Raten von HBD-Klassen (MixKR-Modelle)

Im Vergleich zu den KR-Modellen, MixKR-Modelle haben den Vorteil, dass sie für alle Individuen die gleichen HBD-Klassen verwenden (die R k-Raten der HBD-Klassen werden nicht individuell geschätzt, sondern vom Benutzer vordefiniert) und machen Vergleiche zwischen Individuen einfacher (z. B. wäre es nicht einfach, zwei Individuen mit einer einzigen HBD-Klasse zu vergleichen, aber mit R k = 8 für das erste und R k = 96 für das zweite – die geschätzten R k reichen von 4 bis 1000). Mehrere dieser MixKR-Modelle (mit K = 2, 3 und 4) wurden mit dem LD-Panel getestet (Tabelle 3), um zu beurteilen, ob reduzierte Modelle mit vordefinierten Raten von HBD-Klassen effizient sind. Um diese vordefinierten Raten auszuwählen, haben wir entweder Mediane der geschätzten Raten verwendet, die aus Modellen mit der gleichen Anzahl von Klassen erhalten wurden (siehe vorheriger Abschnitt), oder wir haben ein paar Klassen aus dem MixKR-Modell ausgewählt, um den Bereich der geschätzten Werte abzudecken (z. B. eine Klasse für rezente HBD-Segmente und eine für alte HBD-Segmente). In Übereinstimmung mit früheren Beobachtungen zu KR-Modellen zeigen Vergleiche der geschätzten Inzuchtkoeffizienten mit denen, die mit dem Mix14R-Modell erhalten wurden, dass Modelle mit einer einzigen HBD-Klasse die Inzuchtkoeffizienten leicht unterschätzen und zu niedrigeren Korrelationen führen (> 0,96) als Modelle mit zwei oder mehr HBD-Klassen (> 0,99). Das Vorhandensein von mehreren HBD-Klassen (> 2) erlaubt eine bessere Bewertung der Beiträge von verschiedenen vergangenen Generationen (z.B., R k = 8 vs 64), liefert aber keine besseren Schätzungen des genomweiten Inzuchtkoeffizienten.

Tabelle 3 Schätzung der genomweiten Inzuchtkoeffizienten mit Modellen, die verschiedene Anzahlen von HBD-Klassen (von 1 bis 4) mit vordefiniertendefinierten R k-Raten, die der erwarteten Länge in Morgans von HBD-Segmenten entsprechen, und mit dem LD-Panel

Vergleich mit anderen Inzuchtkoeffizienten-Schätzern

Mittelwerte und Bereiche von Inzuchtkoeffizienten, die mit verschiedenen Methoden und dem HD-Panel geschätzt wurden, sind in Tabelle 4 und ihre Korrelationen sind in Tabelle 5, und in Additional file 5: Tabellen S1 und S2 für andere Panels. Ähnlich wie bei unserem Modell führten Modelle, die auf beobachteter Homozygotie und ROH basieren, zu hohen Inzuchtkoeffizienten (im Durchschnitt 0,644 bzw. 0,151), während andere genomische Schätzer Inzuchtkoeffizienten ergaben, die um 0 zentriert waren und auch negative Werte enthielten. Es ist anzumerken, dass man im Durchschnitt höhere Werte (0,268) erhält, wenn man weniger strenge Regeln zur Identifizierung von ROH verwendet (z. B. Fenster von 20 SNPs und mindestens 10 SNPs pro ROH). Wir beobachteten sehr hohe Korrelationen zwischen HMM-basierten Schätzungen und beiden Maßen, die auf Homozygotie basieren (r = 0,95 mit FHOM und FExHOM, wobei diese beiden Maße eine Korrelation von 1 aufweisen und im Wesentlichen gleich sind) oder auf ROH (r = 0,95 mit FROH), was darauf hindeutet, dass bei einer großen Anzahl von SNPs einfache Heuristiken (Ignorieren von Allelfrequenzen, SNP-Abstand usw.) effizient sind (FHOM und FROH sind hoch korreliert, r = 0,97). Die Korrelation zwischen FHOM, die mit LD- und HD-Panels geschätzt wurde, ist gleich 0,890, was etwas niedriger ist als die Korrelation zwischen den Schätzungen, die mit dem HMM für diese beiden Panels erhalten wurden (r = 0,934), was darauf hindeutet, dass die globalen Schätzer bei 6844 SNPs in dieser Population immer noch richtig funktionieren. Regelbasierte ROH-Methoden sind bei niedrigeren SNP-Dichten weniger effizient, da sie mit den in der aktuellen Studie verwendeten Parametern (der Standard-Fenstergröße in Plink) nur die längsten Fragmente (5 Mb oder mehr und 20 Mb im Durchschnitt) erfassen. Tatsächlich werden ROH-basierte Schätzer nur selten mit dem LD-Panel bei Rindern verwendet, obwohl mehr HBD-Segmente mit weniger strengen Regeln identifiziert werden könnten, auf Kosten einer erhöhten Rate an falsch-positiven Ergebnissen. Bei niedriger SNP-Dichte liefert das HMM-Framework immer noch korrekte globale und lokale HBD-Wahrscheinlichkeiten, obwohl HBD-Segmente nicht ohne Mehrdeutigkeit identifiziert werden.

Tabelle 4 Zusammenfassende Statistik für die Inzuchtkoeffizienten, die für die 634 Belgian Blue Vererber mit verschiedenen Methoden und unter Verwendung des HD-Panels geschätzt wurden
Tabelle 5 Korrelationen zwischen den Inzuchtkoeffizienten, die für die 634 Belgian Blue Vererber mit verschiedenen Methoden und unter Verwendung des HD-Panels geschätzt wurden

Die Korrelationen der Schätzungen aus dem traditionellen GRM mit unseren Schätzungen sind mäßig hoch (r = 0.73) und niedriger mit Homozygotie-Schätzern (r = 0,63) und ROH-basierten Schätzern (0,61). Die FGRM wurde mit der von vorgeschlagenen Formel berechnet, bei der alle SNP-Beiträge durch das gleiche Gewicht geteilt werden. Bei der Schätzung mit der alternativen Formel, die jeden SNP-Beitrag durch sein eigenes Gewicht 2f i (1 – f i ) teilt (f i ist die Häufigkeit von SNP i) wie in Amin et al. waren die Korrelationen niedriger (d. h. 0,48 mit FG, 0,34 mit FHOM und 0,33 mit FROH). Der von Yang et al. vorgeschlagene Schätzer, der auf den vereinheitlichten Korrelationen zwischen den Gameten basiert, zeigte relativ hohe Korrelationen mit FG und FGRM (0,90 bzw. 0,92) und etwas niedrigere Korrelationen mit den anderen Schätzern (r = 0,87 und 0,85 mit FHOM bzw. FROH).

Korrelationen dieser Schätzer mit den Inzuchtkoeffizienten des Stammbaums (wobei nur Individuen berücksichtigt wurden, die nach 1999 geboren wurden, um die Tiefe des Stammbaums zu erhöhen) sind ebenfalls in Tabelle 5 dargestellt. Insgesamt waren die Korrelationen moderat mit den höchsten Werten für die Korrelationen mit den Homozygotie- und ROH-basierten Maßen (0,55 für beide Maße) und etwas niedrigeren Werten für die mit dem HMM-basierten Schätzer (0,46), während wir eine geringe Beziehung mit FGRM (0,29) und eine moderate Korrelation mit FUNI (0,45) beobachteten. Wir verglichen auch die mit unserem Modell geschätzten FPED- und Inzuchtkoeffizienten in Bezug auf verschiedene Basispopulationen (Abb. 8) und stellten fest, dass die Korrelationen bis FG-32 (Erfassung der Inzucht von Vorfahren, die ca. 16 Generationen zurückliegen) zunahmen und dann ein Plateau von FG-32 bis FG-256 aufwiesen und ein Maximum bei r = 0,56 erreichten (d. h. etwas besser als die homozygotiebasierten Schätzer). Dieser Trend war zu erwarten, da FPED für eine begrenzte Anzahl von Generationen zurück in der Zeit geschätzt wird. Die durchschnittliche äquivalente Anzahl der bekannten Generationen, die mit PEDIG geschätzt wurde, betrug 6,3 für die Bullen, die nach 1999 geboren wurden (sie stieg von 5,5 für Bullen, die im Jahr 2000 geboren wurden, auf 7,5 für diejenigen, die im Jahr 2010 geboren wurden), was im Durchschnitt FG-16 entspricht. Die Hinzufügung der HBD-Klasse R k = 32 ermöglicht die Erfassung der Beiträge von einigen älteren Zweigen des Stammbaums und der kleinsten HBD-Segmente, die von gemeinsamen Vorfahren im Stammbaum vererbt wurden.

Fig. 8
Abbildung8

Korrelationen zwischen den Inzuchtkoeffizienten, die in Bezug auf verschiedene Basispopulationen (F G-T ) geschätzt wurden, und dem Inzuchtkoeffizienten, der aus den Stammbaumdaten für die nach 1999 geborenen belgisch blauen Vererber unter Verwendung des HD-Panels geschätzt wurde. Unterschiedliche Basispopulationen wurden durch die Wahl verschiedener Schwellenwerte T erhalten, die bestimmen, welche HBD-Klassen für die Schätzung von F G-T berücksichtigt werden (z. B. Festlegen der Basispopulation auf etwa 0,5 * T Generationen in der Vergangenheit). Die entsprechenden Inzuchtkoeffizienten F G-T werden als die Wahrscheinlichkeit der Zugehörigkeit zu einer der HBD-Klassen mit einem R k ≤ T gemittelt über das gesamte Genom geschätzt. Die genomischen Inzuchtkoeffizienten wurden mit dem Mix14R-Modell geschätzt

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.