Cargando…
Création d'un algorithme d'identification d'expériences vécues par des patients ou leurs proches à partir de messages issus des réseaux sociaux : un cas d'usage sur le COVID long
INTRODUCTION: La pandémie de COVID-19 a entrainé une masse d'informations sur les réseaux sociaux et forums provenant de multiples acteurs : gouvernements, journalistes ou encore citoyens. Parmi ces messages, de nombreux patients se sont saisis de ces outils pour partager leurs symptômes et se...
Autores principales: | , , , , , , , |
---|---|
Formato: | Online Artículo Texto |
Lenguaje: | English |
Publicado: |
Published by Elsevier Masson SAS
2022
|
Materias: | |
Acceso en línea: | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9634426/ http://dx.doi.org/10.1016/j.respe.2022.09.045 |
Sumario: | INTRODUCTION: La pandémie de COVID-19 a entrainé une masse d'informations sur les réseaux sociaux et forums provenant de multiples acteurs : gouvernements, journalistes ou encore citoyens. Parmi ces messages, de nombreux patients se sont saisis de ces outils pour partager leurs symptômes et se regrouper en communauté, comme c'est le cas des patients atteints de COVID long avec le hashtag #aprèsJ20. Un algorithme de traitement automatique du langage naturel capable d'identifier les messages constituant des expériences de santé vécues par des patients ou des proches permettrait d'exploiter ces données de vie réelle dans un objectif de santé publique. MÉTHODES: A partir de différentes sources, 12 430 messages issus de forums et réseaux sociaux (Twitter, Facebook) ont été extraits sur différentes pathologies : cancer (sans précision d'une localisation), diabète, maladie de Fabry, COVID-19, sevrage tabagique. Ces messages ont été manuellement analysées et codifiées en trois catégories selon la nature de l'internaute : patient/aidant ou proche/répondant. Sur la base de ce « gold standard », un modèle de « machine learning » a été créé et entrainé, couplé avec des champs lexicaux marqueurs d'expériences vécues (par exemple, la présence d'un récit à la première personne ou du champ lexical de la famille). Deux modèles Xgboost ont été choisis permettant de déterminer en premier lieu si l'internaute est un proche de malade ou non, puis dans un second temps, si c'est un patient ou non. Pour être validé, ce modèle a été appliqué sur des messages spécifiques au COVID long. Une sélection aléatoire de ces messages couplée à une annotation par trois annotateurs a permis de mesurer les performances du modèle. RÉSULTATS: Après application de l'algorithme d'identification d'expériences vécues par des patients ou des proches, 700 messages ont été revus et annotés sur le COVID long. Les catégories patients et aidants ont été regroupées en raison des nombreux cas de formes familiales de COVID long rapportés sur les réseaux sociaux. Les performances du modèle ont permis de mesurer une sensibilité de 96 %, une spécificité de 76 %, une « accuracy » à 87 % et une précision de 84 %. CONCLUSION: Un algorithme identifiant les expériences vécues par des patients ou des proches au sein des messages issus des réseaux sociaux facilite leur utilisation comme données de vie réelle. Les bonnes performances de l'algorithme, notamment sur les formes longues de COVID-19, permettent un suivi prospectif de ces patients dans un objectif de santé publique. Une future version du modèle devra intégrer la possibilité d'identifier au sein d'un même message la présence d'expériences à la fois de patients et de proches, notamment en cas de formes familiales (”mon fils et moi avons un covid long ”). DÉCLARATION DE LIENS D'INTÉRÊTS: Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts. |
---|