Machine Learning contre Coronavirus

 

QUI VA GAGNER ?

 
 

En quelques mois, la COVID-19 a eu l’effet d’un raz-de-marée contaminant à ce jour près de 4,5 millions de personnes et causant plus de 307 000 décès dans le monde (d’après l’OMS à la date du 17/05/2020). Le virus a bouleversé le quotidien de milliards d’individus et a mis à l’arrêt l’économie mondiale en poussant au confinement une centaine de pays.

En apportant des solutions de classification, prédiction, recommandation ou d’analyse, le Machine Learning est devenu une technologie essentielle dans l’aide à la décision. Face à cette crise mondiale, il semble donc plus que jamais nécessaire pour aider à diagnostiquer des patients, à prédire des variations dans le nombre de malades, à évaluer la sévérité d’un cas ou encore à cerner des facteurs aggravants.

« le Machine Learning face à l’imprévu »

Pourtant face à l’urgence, ces méthodes ont parfois montré leurs limites. En effet, pour être efficace le Machine Learning nécessite une observation complète et riche des phénomènes étudiés. Or, différents aspects du virus ne se sont révélés qu’au cours de sa propagation :

  • l’aggravation de certains cas jusqu’alors bénin au bout d’une dizaine de jours,
  • le retour aux urgences certains patients considérés comme guéris,
  • etc.

Des éléments nouveaux qui ont notamment compliqué l’estimation du futur nombre de cas graves. D’autre part, ces méthodes demandent beaucoup de données dont la récolte nécessite du temps et des ressources. Difficile donc dans ces conditions d’agir dans l’urgence.

Complexe, mais non rédhibitoire

Pourtant, malgré ces limites, de nombreux travaux en Machine Learning ont vu le jour ces derniers mois pour adresser cette crise sanitaire inédite. Ainsi dans un état de l’art publié en avril, Joseph Bullock présente des centaines d’articles proposant des applications de machine learning face au coronavirus. Parmi celles-ci plusieurs se sont révélées fructueuses, et ont permis des découvertes aux niveaux moléculaire, clinique ou sociétal.

Le Transfer Learning ou l’art du recyclage

Une première solution face à cet apparent manque de données a été de recourir au Transfer learning. La philosophie du Transfer Learning est de réutiliser les résultats obtenus pour un précédent modèle et des les appliquer à un nouveau cas d’usage.

Dans le cas du Deep Learning, il s’agit souvent d’utiliser les premières couches d’un réseau de neurones déjà entraîné, et de ré-entraîner ses dernières couches afin de l’orienter sur une autre cible :

Il peut s’agir aussi de réutiliser l’architecture d’un réseau qui a déjà fait ses preuves sur un autre jeu de données. Dans ce cas le réseau devra être entièrement ré-entraîné. Le Transfer Learning permet donc de gagner du temps (ainsi que des coûts d’infrastructures à bases de GPU), en utilisant un modèle déjà paramétré. Par ailleurs, lorsqu’on a peu de données il sera plus robuste d’utiliser des modèles en partie déjà entraînés.

Transfer Learning en action

Des chercheurs chinois ont récemment publié un article dans la revue Radiology (Lin Li, Lixin Qin, Zeguo Xu, et al, 2020) présentant un outil de diagnostic développé suite à du Transfer Learning. Leur modèle détecte le covid-19 à partir de scanners thoraciques avec une précision de 90%, et est notamment capable de différencier une pneumonie due au covid-19 d’une pneumonie acquise communautaire (PAC) et d’autres pathologies sans pneumonie. Ils ont pour cela ré-utilisé une base d’images thoraciques accumulées depuis 2016 dans le cadre d’autres travaux, qu’ils ont complétée de scans récents de patients infectés par le coronavirus.

Mais leurs données ne sont pas les seules à être “recyclées” ici, puisque leur modèle reprend les couches du réseau ResNet50, un réseau convolutionnel usité, qui s’est déjà montré très performant dans l’analyse d’images médicales. À ce réseau ils ont ajouté une ultime couche afin de construire un nouveau modèle classant les scans selon la pathologie.

Ainsi ici, le réemploi d’anciennes données et d’un modèle qui a déjà montré son efficacité sur ce type d’images a permis de mettre rapidement au point un outil de diagnostic.

Nous évoquerons prochainement ici d’ailleurs un projet sur lequel nous travaillons actuellement utilisant du Transfert Learning pour analyser des images de mode féminine.

Des données non médicales comme proxy

Les données médicales sont parmi les plus délicates à rassembler.

  • Elles sont d’une part très coûteuses à construire : leur collecte demande du temps et requiert des équipements spécifiques (scanner, matériel de test…).
  • Elles sont par ailleurs soumises à des règles très strictes en termes de confidentialité.

Pour ces raisons, il était difficile de construire rapidement des bases de données médicales riches sur le coronavirus.

Pour pallier à ce problème, une des solutions a été de recourir à des données non médicales provenant de flux habituellement utilisé dans d’autres cas d’usage. Dans un article publié en mai sur Medrxiv (Tina Lu, Ben Y Reis, 2020), deux chercheurs présentent ainsi un modèle capable de prédire dans un pays une hausse du nombre de cas de covid-19 à venir à partir d’historiques de moteurs de recherches. Ces chercheurs ont combiné les données publiques recensant les différents cas par pays aux historiques de recherche Google et Weibo (moteur de recherche chinois). Plus exactement les données étudiées correspondent aux volumes de recherche relatives (relative search volume) fournies par les API de Google Trends, soit le nombre indexé de recherches pour les mots les plus cherchés sur une période donnée.

Il s’agit donc de données agrégées et anonymisées. Leurs travaux ont montré l’existence d’une corrélation entre la recherche de certains symptômes (“toux sèche”, “fièvre”, “essouflement”, …) et la recrudescence de cas de covid-19. Ainsi leur modèle permettrait d’anticiper un pic de cas et de décès 18 à 22 jours avant sa survenue.

Il est intéressant de voir qu’ici un flux de données prêt à l’emploi, habituellement destiné à des usages autres que médicaux a permis d’anticiper des variations dans le nombre de malades. Des travaux précédents avaient également démontré l’intérêt de ces historiques de recherches pour anticiper des cas de grippe, de Mers-Cov ou de rougeole.

Faire plus avec moins

Si les données médicales sont plus laborieuses à récupérer, il ne faut pas sous-estimer les efforts mis en oeuvre pour leur collecte pendant cette crise sanitaire. Dans ce contexte il paraissait primordial d’appeler au partage de ces données. Plusieurs jeux de données ont d’ailleurs été publiés en open-data par l’OMS, data.gouv, Google, Apple…
Il pouvait s’agir

  • des nombres de cas ou décès recensés,
  • d’articles de recherche
  • de tweets portant sur le virus,
  • de données de mobilité…

Sur Kaggle des données médicales ont également été partagées comme des scans thoraciques de patients infectés, ou le séquençage ADN du virus.

Toutefois pour des raisons de confidentialité, ou pour des motifs politiques ou économiques, de nombreux pays ont rechigné à partager leurs données. Ainsi si la Chine a rendu public l’ensemble des modèles mis au point pour palier à la situation, certains ont regretté qu’elle ne partage pas ses données avec des laboratoires de recherches étrangers. Les échanges des données n’ont donc rien eu de systématique, mais des initiatives ont vu le jour pour permettre un partage “relatif”. Notamment, se sont développées les méthodes d’ “apprentissage fédéré” (le federated learning que nous avons déjà évoqué dans un article précédent), consistant à entraîner les algorithmes sur plusieurs jeux de données sans les rassembler au même endroit, chaque propriétaire garde alors le contrôle sur ses informations.

Enfin, une autre solution a été de simuler des nouvelles données à partir des quelques données existantes. Ces méthodes, qui souvent reposent sur du Deep Learning, permettent d’augmenter considérablement la taille des données d’apprentissage. La simulation permet d’augmenter la robustesse des modèles, soit sa capacité de généralisation, en apportant de la variété aux données existantes.

Si les méthodes de Machine Learning peuvent parfois sembler lourdes à implémenter, la crise du coronavirus a révélé leur capacité à agir en situation d’urgence. Cette réactivité s’explique par un état de l’art grossissant à un rythme très soutene, lequel a mené à l’établissement de modèles complexes et à la construction de flux de données à multi-usages. Un écosystème riche qui aujourd’hui réduit le coût d’entrée de ce type de projet. Il y a donc fort à parier que ces méthodes joueront un rôle crucial pendant le déconfinement que ce soit pour tracker des cas, estimer l’évolution des clusters, ou optimiser les stratégies de distanciation…

Autrice : Emma Montarsolo. Senior Data Scientist @ Novagen.