Méthodes d’apprentissage machine pour l’estimation de l’effet de la génétique sur la production laitière

Authors: Awa Samaké

Date: 2025-01-01

Status: Published

La génétique animale joue un rôle central dans l'amélioration des performances des troupeaux laitiers en permettant la sélection des reproducteurs les plus performants ainsi que la prévision des maladies.
Depuis plusieurs décennies, l'évaluation génétique attire de grands intérêts pour la communauté en recherche et en industrie.
L’évaluation génétique vise à estimer les valeurs génétiques (EBV, GEBV) des animaux à partir de données de production, de pédigrée ou de séquençage génomique, afin de prédire les performances futures et d’optimiser les décisions de sélection.
L'évaluation génétique passe par une estimation du patrimoine génétique ainsi que son effet sur les générations futures. L'analyse de cet effet peut se traduire de différentes manières dépendamment du secteur, par exemple, la prédisposition à certaines maladies en santé, la production en industrie animalière, etc.
Cependant, la complexité des données (grande dimension des SNPs, structures de pédigrée profondes, séries temporelles de production) et la variabilité environnementale constituent des défis majeurs pour les méthodes classiques telles que le BLUP.
Nous répondrons aux questions suivantes: comment estimer l'effet de la génétique sur le profit dans la production laitière à partir des données de séquençages génomiques?; comment estimer les futures productions laitières en intégrant les caractères génétiques sur le moyen/long terme?
Cette thèse propose plusieurs contributions méthodologiques reposant sur l’apprentissage automatique et profond pour améliorer l’estimation et la prévision des performances laitières.
Nous utilisons deux paradigmes d'apprentissage: la notion d'informations privilégiées et celle de variables exogènes. À savoir qu'à notre connaissance, la notion d'informations privilégiées n'est pas encore appliquée dans le domaine de l'agriculture, plus précisément la production laitière.
LSTMDropout, un modèle récurrent intégrant un mécanisme de dropout hétéroscédastique et l’information privilégiée, permettant de prédire les EBV, GEBV, ainsi que les composantes et la valeur économique du lait, avec une robustesse accrue face aux données bruitées.
AgriGen, un modèle de référence combinant données génétiques, phénotypiques et environnementales pour l’évaluation génétique multi-traits et la prise de décision.
DairyLuPTS, une architecture optimisée pour la modélisation de séries temporelles de production laitière. %, adaptée à des scénarios sans traits de conformation; DairyBLUP modèle mixte basé sur le pedigree. %servant de benchmark pour quantifier les gains apportés par les approches neuronales;
Information Dropout Adaptée (IDA), une énéralisation de l’Information Dropout, qui intègre des informations privilégiées pour régulariser les représentations latentes et améliorer les performances de prévision.
Les résultats expérimentaux montrent que l’intégration d’informations privilégiées et de données multi-sources permet d’améliorer significativement la précision des prédictions, tout en réduisant le coût computationnel par rapport aux méthodes classiques. LSTMDropout et DairyLuPTS se distinguent en particulier par leurs performances en prévision multi-sorties et leur capacité à capturer les relations complexes entre les traits génétiques et les rendements laitiers.
Les perspectives de recherche incluent l’extension de LSTMDropout à d’autres types de séries temporelles, l’étude des interactions textbackslashtextitgénotype $textbackslashtimes$ environnement, ainsi que l’analyse de l’effet des variants et des loci sur la santé et la productivité.
L’exploration de nouvelles stratégies d’augmentation de données génomiques et de modélisation mathématique des informations privilégiées constitue également un axe prometteur pour renforcer la robustesse des modèles et optimiser la sélection génétique