Stimativa e idade-Partição baseada em níveis individuais de consanguinidade genómica na população belga de gado bovino Blue Beef
Iniciámos utilizando um modelo Mix14R (com R k variando de 2 a 8192) para estimar a proporção do genoma pertencente a diferentes classes de HBD para os 634 reprodutores BBB (Fig. 1a), o que permite a estimativa do coeficiente de consanguinidade em relação a diferentes populações de base, como explicado em Métodos (Fig. 1b). Ao considerar todas as classes de HBD, a fracção do genoma que é HBD (correspondente ao coeficiente de consanguinidade estimada com a população de base mais remota) foi igual a 0,303 em média (variando de 0,258 a 0,375), com uma contribuição importante das classes de HBD com taxas elevadas de R k (R k > 256) que representam 71,4% da proporção total de HBD em média. Estas pequenas ROH reflectem melhor a história da população (consanguinidade e desequilíbrio de ligação associados ao tamanho efectivo da população (Ne) passado) do que a variação individual. As classes associadas a taxas menores de R k (ou seja, com segmentos mais longos de HBD) representaram uma proporção menor da proporção total de HBD (o coeficiente de consanguinidade média foi igual a 0,054 e 0,087 ao incluir as classes de HBD com R k ≤ 32 e R k ≤ 256, respectivamente, e ao fixar a população de base há aproximadamente 16 ou 128 gerações atrás) mas apresentaram mais variação entre os indivíduos. Por exemplo, o coeficiente de consanguinidade associado com os antepassados comuns que se rastreavam até cerca de quatro gerações atrás (correspondente às classes HBD com R k ≤ 8) variava entre 0,000 e 0,137. Para os touros nascidos de 1980 a 2010, a percentagem do genoma nos segmentos HBD aumentou 3,3% (+ 0,11% por ano), ou seja, aproximadamente de 28 a 31% (ver Ficheiro adicional 1: Fig. S1a). Contudo, a tendência para classes mais recentes de HBD (R k ≤ 32) foi mais pronunciada (ver ficheiro adicional 1: Fig. S1b), ou seja, de quase 0 a 6% (+ 0,20% por ano) e correspondeu mais de perto à tendência observada com coeficientes de consanguinidade baseados em pedigree (ver ficheiro adicional 1: Fig. S1c). Os touros nascidos antes de 1980 apresentaram poucas provas de autozygosidade recente em comparação com os touros modernos.
Para avaliar a contribuição de cada classe HBD para a percentagem do genoma nos segmentos HBD e para a sua variação no gado BBB, dividimos a fracção total do genoma nas classes HBD em quatro classes principais (classes HBD muito recentes com R k = 2 a 8, classes HBD recentes com R k = 16 a 64, classes HBD antigas com R k = 128 a 512, e classes HBD muito antigas com R k = 1024 a 8192), tendo cada grupo três classes HBD excepto a última com quatro classes HBD. A fracção média do genoma associado a cada uma destas classes principais (ordenado de recente a antigo) era igual a 0,027 (SD = 0,029), 0,041 (SD = 0,019), 0,054 (SD = 0,013) e 0,180 (SD = 0,011). Note-se que proporções elevadas de segmentos HBD muito recentes estão mecanicamente associadas a proporções mais baixas de segmentos HBD muito antigos (r = – 0,407) porque os segmentos HBD recentes mascaram segmentos HBD mais antigos. Embora a percentagem do genoma nas classes HBD associadas a antepassados comuns recentes represente apenas 22,6% da autozygosidade total, apresenta mais variação individual do que a das classes mais antigas (mais de 50% da variação total está associada a classes HBD muito recentes). Ao instalar um modelo linear, estimamos que as classes HBD muito recentes representam 59% da variação total da autozygosidade e que a adição de classes HBD recentes ao modelo aumenta este valor para 83%. Do mesmo modo, as correlações entre os coeficientes de consanguinidade medida em relação a diferentes populações de base (por exemplo, incluindo diferentes classes de HBD no cálculo) com os coeficientes de consanguinidade estimados usando todas as classes de HBD aumentaram abruptamente de 0,16 para estimativas baseadas na primeira classe (R k = 2) para 0,77 para coeficientes de consanguinidade estimados incluindo classes de HBD com um R k ≤ 8 e para 0,90 com um R k ≤ 16, e depois melhoraram apenas marginalmente ao adicionar mais classes de HBD (Fig. 2). A diminuição da correlação observada em R k = 1024 resulta do facto de a autozygosidade antiga se concentrar em R k = 1024 para alguns indivíduos e em R k = 2048 para outros.
Comparação dos resultados para o gado BBB com os de outras raças
Para determinar se são também observados níveis e padrões comparáveis de autozygosidade noutras raças de origem europeia, aplicámos o mesmo modelo a 10 raças genotipadas com a mesma matriz (Fig. 3). Na maioria destas raças, os coeficientes de consanguinidade estimados em relação a diferentes populações de base aumentaram moderadamente até FG-256 (por exemplo, classe HBD com R k ≤ 256 incluído na estimativa) e mais fortemente com populações de base mais antigas (FG-512 a FG-2048), que incluem muito mais gerações de antepassados. Foram observadas grandes diferenças nos coeficientes de consanguinidade com populações de base relativamente recentes (FG-64, há aproximadamente 32 gerações), variando de 0,013 e 0,042 em Piemonte e Limousin a 0,164 e 0,200 em Jersey e Hereford. Alguns indivíduos de Hereford apresentaram coeficientes de consanguinidade extremos estimados com populações de base recentes (ver Ficheiro adicional 2), ou seja, até 40% para FG-8 (por exemplo, aproximadamente quatro gerações atrás). Parte dos indivíduos Hereford deste conjunto de dados provém da Linha 1 de Hereford, uma linha consanguínea, o que indica que o nosso modelo capta correctamente eventos extremos, mas também que os indivíduos genotípicos incluídos neste estudo não são necessariamente representativos da raça.
Stimativa de coeficientes de consanguinidade e probabilidades de HBD com diferentes densidades de SNP
Equipamos um modelo Mix14R usando diferentes densidades de SNP, i.e., de LD (6844 SNPs) a HD (601.226 SNPs) no conjunto de dados 634 BBB e mesmo a WGS (5.653.911 SNPs) para os 50 indivíduos de todo o genoma sequenciado. Os coeficientes médios estimados de consanguinidade medidos em relação a diferentes populações de base (Fig. 4) e o ficheiro adicional 3: Fig. S2 foram semelhantes entre os painéis SNP para as populações de base mais recentes (FG-32). Para populações de base mais antigas, foi capturada menos autozygosidade com o painel LD com diferenças marcadas para as classes HBD antigas que eram capturadas apenas com painéis HD ou WGS. Uma tendência semelhante foi observada com o painel de 50 K, mas os coeficientes médios de consanguinidade foram semelhantes aos do painel HD até ao FG-256 (aproximadamente 128 gerações atrás). Os coeficientes médios de consanguinidade estimados utilizando a população base mais remota e os painéis LD, 50 K e HD foram iguais a 0,060, 0,093 e 0,303, respectivamente (quando estimados apenas nos 50 indivíduos sequenciados, estes valores foram iguais a 0,047, 0,101 e 0,309, respectivamente, e a 0,359 com o painel WGS). A população de base é então uma função dos segmentos HBD mais pequenos que podem ser capturados pelo painel utilizado. As correlações entre estes coeficientes de consanguinidade estimados com diferentes painéis foram elevadas, ou seja, 0,934 (LD-HD), 0,944 (LD-50 K) e 0,975 (50 K-HD). Apesar dos coeficientes de consanguinidade muito mais baixos obtidos com o painel de 50 K, capta essencialmente toda a variação individual obtida com um painel HD, de acordo com a observação anterior de que a maior parte da variação estava associada a classes HBD recentes.
Utilizámos então o algoritmo Viterbi para identificar segmentos HBD com diferentes painéis SNP (Tabela 1). O algoritmo de Viterbi classifica cada posição SNP como HBD ou não-HBD enquanto que o algoritmo forward-back fornece a probabilidade HBD local. Como esperado, são capturados mais e mais curtos segmentos HBD com painéis de maior densidade. Com o painel HD, uma proporção limitada de segmentos extremamente pequenos (alguns kb) foram capturados. O comprimento da maioria dos segmentos variava entre 10 e 500 kb, sendo mais de metade inferior a 100 kb, mas tais segmentos não têm necessariamente a maior contribuição para a percentagem total do genoma nas classes HBD, uma vez que as classes com menos segmentos mas mais longos podem ser responsáveis por uma grande proporção de autozygosidade. Também observámos segmentos extremamente longos de HBD (> 50 Mb), o que confirmou a presença de autozygosidade recente (o segmento mais longo de HBD tinha mais de 90 Mb de comprimento). Em média, cada um dos 634 touros tinha 4,25 segmentos de HBD com mais de 10 Mb e associados a um antepassado comum que estava presente há cerca de cinco gerações. O número desses segmentos HBD variava de 0 a 14 por indivíduo. Sessenta e um touros tinham até um ou mais (até três) segmentos de HBD com mais de 50 Mb. Com os painéis de 50 K e LD, mais de 99% dos segmentos identificados tinham mais de 100 e 500 kb, respectivamente (com um pico nas classes de 1 a 5 Mb e de 5 a 10 Mb, respectivamente), e apenas uma fracção dos segmentos foi capturada em comparação com quando o painel HD foi utilizado. Em particular, a grande maioria dos segmentos HBD inferiores a 1 Mb não foram identificados. Em densidades de SNP mais baixas, os segmentos mais pequenos simplesmente não são capturados porque não contêm nenhum SNP ou são muito poucos. Os segmentos de tamanho intermédio podem não atingir probabilidades elevadas de HBD devido a um menor número de SNPs no segmento. Inversamente, o comprimento de alguns segmentos HBD pode ser sobrestimado quando se utiliza o painel LD, por exemplo, quando não existem SNPs suficientes para identificar pequenos segmentos não-HBD que flanqueiam segmentos HBD. A figura 5a ilustra a identificação de segmentos de HBD para um cromossoma. Mostra que (1) foram identificados mais segmentos com maior densidade, (2) as probabilidades de HBD eram maiores com mapas mais densos, (3) o algoritmo de Viterbi declarou algumas posições de SNP como HBD embora tivessem apenas probabilidades moderadas de HBD, e (4) os limites dos segmentos HBD variavam com a densidade do painel. Da mesma forma, a figura 5b representa segmentos HBD que foram identificados no cromossoma Bos taurus (BTA) 5 para 50 indivíduos com o algoritmo de Viterbi com diferentes densidades de SNP. Os resultados estão de acordo com os relatados na Tabela 1. Proporções maiores do genoma foram declaradas HBD com o painel HD e pequenos segmentos HBD foram responsáveis pela maior parte da diferença com os resultados de painéis de menor densidade. Ainda assim, observámos que alguns segmentos HBD de alguns Mb de comprimento não foram identificados com menor densidade SNP (e ainda mais com o painel LD). Quanto à Fig. 5a, o comprimento de alguns segmentos HBD está sobrestimado quando o painel LD foi utilizado. Também comparámos as probabilidades locais de HBD estimadas usando o painel LD ou o painel 50 K com as classes HBD locais inferidas usando o painel HD e o algoritmo de Viterbi (Fig. 6). As probabilidades de HBD eram elevadas para as classes HBD recentes e desceram para antepassados comuns mais remotos. Como esperado, o painel LD foi eficiente apenas para os antepassados comuns mais recentes (a probabilidade HBD era 0,90 ou superior quando R k < 16 e ~ 0,50 para R k = 32) enquanto que o painel 50 K permitiu a captura de autozygosidade mais antiga (a probabilidade HBD era 0,90 ou superior quando R k < 64 e ~ 0,50 para R k = 128). Mais resultados relativos à idade (ou comprimento) dos segmentos HBD que podem ser capturados com diferentes densidades de SNP são descritos em Druet e Gautier .