Table des matières

Message fourni par Renato Lima

De nombreuses études sur la biodiversité, couvrant un large éventail d’objectifs, ont besoin de registres d’espèces. Ces enregistrements sont de plus en plus disponibles en ligne, mais la normalisation de ces enregistrements est minimale à ce stade, ce qui oblige les utilisateurs finaux à passer un temps considérable à formater les enregistrements avant d’utiliser les données. Pour surmonter cela, Renato Lima et al, ont créé plantR – un package open source qui fournit une boîte à outils complète pour gérer les enregistrements d’espèces à partir de collections biologiques. Dans cet article de blog, Renato discute du flux de travail du package et décrit comment ce package peut aider les chercheurs à mieux évaluer la qualité des données et à éviter les fuites de données.

Fin 2018, je me suis retrouvé à la recherche d’informations sur les fiches d’espèces pour un projet sur l’endémisme et l’état de conservation de la flore arborescente de la forêt atlantique (en collaboration avec Hans ter Steege). Ma première idée était simple : télécharger des données à partir de référentiels en ligne (par exemple, Système mondial d’information sur la biodiversité – GBIF) et faire les analyses. À droite? Pas exactement.

Les référentiels de données tels que le GBIF mettent à disposition des informations inestimables sur les espèces provenant de milliers de collections à travers le monde, mais la plupart des enregistrements des espèces ne sont pas prêts à être utilisés. Il existe de grandes différences dans la manière dont les informations sont fournies, de nombreuses informations importantes manquent (par exemple, les coordonnées géographiques) et il est souvent difficile de savoir à quel point les informations disponibles sont réellement fiables (par exemple, les identifications d’espèces). La suppression de tous les problèmes possibles conduira à fuite de données; l’utilisation de toutes les données indépendamment de leur qualité peut biaiser les résultats de l’étude.

Étonné par le nombre d’enregistrements qui ne seraient pas utilisables dans mon étude spécifique (environ 80% de tous les enregistrements), j’ai décidé de nettoyer les données moi-même. Je n’avais aucune idée de l’effort et du temps que cette décision prendrait, mais heureusement, nous ne travaillons pas seuls. Début 2019, j’ai rencontré Marinez de Siqueira, Andrea Sánchez Tapia et Sara Mortara, et nous nous sommes vite rendu compte que nous faisions des choses similaires. Nous avons décidé de collaborer à la création de procédures et d’outils pour gérer les registres d’espèces. L’idée s’est développée de plus en plus et a abouti à un nouveau package R appelé ‘plantR’, décrit dans un article récemment publié en Méthodes en écologie et évolution.

Le paquet

plantR a été conçu pour aider les fournisseurs de données, les gestionnaires et les utilisateurs finaux à normaliser et valider les enregistrements d’espèces. Au début, il reflétait largement nos antécédents professionnels (c’est-à-dire les écologistes et les écologistes), mais aujourd’hui, le package fournit des outils qui peuvent également être utilisés par les taxonomistes et les gestionnaires de collections. Ce package peut être utilisé par les conservateurs de collections, la conduite d’examens taxonomiques et de nombreuses sortes d’études écologiques et de conservation, telles que la modélisation de la distribution des espèces, les évaluations de la conservation et la hiérarchisation de la conservation de la biodiversité.

Certaines fonctionnalités du progiciel sont toujours axées sur les espèces végétales, mais si les enregistrements d’espèces suivent les Normes Darwin Core, de nombreuses fonctions de plantR seront utiles pour tout groupe d’organismes et tout type d’information (par exemple, spécimens de musée, observations humaines et photos).

Le package traite de différents types d’informations associées aux enregistrements d’espèces, telles que les codes de collecte, les noms de personnes et de localités, les coordonnées géographiques et les identifications d’espèces. De plus, il fournit des outils pour récupérer les doublons dans les collections, y compris l’homogénéisation des informations au sein des groupes de doublons, ce qui est pratique pour échanger des mises à jour d’informations entre les collections. Il fournit également des outils pour télécharger, résumer et exporter des enregistrements d’espèces, ainsi que la génération de listes d’espèces. plantR apporte de nombreuses fonctionnalités innovantes pour gérer les enregistrements d’espèces, mais sa principale force réside dans l’exécution de toutes les étapes, de l’accès aux données à l’exportation, dans un seul environnement.

L’approche

Le processus de validation des données de plantR repose sur des cartes et des dictionnaires soigneusement sélectionnés fournis avec le package, tels que répertoires géographiques, des listes de noms de taxonomistes et des collections de plantes. La conservation de ces fichiers accessoires est essentielle pour évaluer la qualité des données. Mais c’est aussi laborieux, notamment pour le répertoire géographique des packages et les variantes de localité. Comme le temps et les fonds sont toujours limités, nous avons commencé par le Néotropiques, une région mégadiverse dans laquelle nous concentrons la plupart de nos recherches.

Il est important de noter que plantR ne modifie pas les informations originales des enregistrements d’espèces, mais stocke les informations standardisées séparément afin que les gestionnaires de collections et les conservateurs puissent comparer les informations originales et modifiées. Il s’agit d’un objectif important et appliqué du package : fournir des outils et des didacticiels faciles à utiliser afin que les informations associées aux enregistrements d’espèces puissent être améliorées à leur source : les collections biologiques. Et si possible, faire gagner du temps aux gestionnaires de collections et aux conservateurs dans la tâche importante mais difficile de maintenir leurs collections, quelle que soit leur taille.

Le flux de travail

L’application est accompagnée d’un workflow pour traiter les informations des registres d’espèces. Mais la plupart des outils peuvent également être utilisés indépendamment du flux de travail, en fonction des besoins de l’utilisateur. Les principales étapes du workflow sont les suivantes.

Étape 1 – Saisie de données : les utilisateurs peuvent saisir des enregistrements d’espèces de trois manières différentes : (i) directement à partir de l’interface en ligne du GBIF (c’est-à-dire les fichiers zip de Darwin Core Archive) ; (ii) télécharger les enregistrements directement de R à partir du GBIF et CRIA; (iii) les utilisateurs peuvent charger leurs propres ensembles de données.

Étape 2 – Standardisation des données : La modification et la standardisation des champs associés aux enregistrements d’espèces sont importantes pour préparer les enregistrements en vue de leur validation. Le package fournit des outils pour normaliser : (i) les codes de collection de plantes, (ii) les noms des collecteurs et identifiants, le numéro du collecteur et l’année de collecte, (iii) les informations sur la localité (par exemple, les noms de pays), (iv) les coordonnées géographiques, et (v) les informations taxonomiques (c’est-à-dire la notation des noms et les synonymes).

Étape 3 – Validation des données : Le progiciel effectue (i) la validation des informations de localité et (ii) les coordonnées géographiques. L’application signale également les enregistrements qui sont peut-être liés à (iii) des valeurs aberrantes spatiales ou (iv) des spécimens cultivés. De plus, plantR classe (v) le niveau de confiance des identifications d’espèces. Enfin, le package effectue (vi) la recherche de doublons dans les collections et (vii) l’homogénéisation des informations au sein des doublons, permettant l’utilisation des meilleures informations disponibles dans les collections.

Étape 4 – Résumé et exportation des données : le résumé (i) des données elles-mêmes (par exemple, nombre d’enregistrements, de collections et d’espèces) et (ii) du processus de validation des données. Il est également possible de (iii) construire des listes d’espèces avec des spécimens de référence et (iv) exporter/sauvegarder des enregistrements par groupes (par ex. familles, pays, collections).

L’avenir

plantR est un projet à long terme qui améliorera en permanence les cartes, répertoires géographiques et bases de données fournis avec l’application et comprendra des didacticiels dans différentes langues (c’est-à-dire anglais, portugais, espagnol et français) pour élargir le public d’utilisateurs potentiels et promouvoir la façon dont les utilisateurs peut tirer le meilleur parti de ses outils. Ainsi, nous espérons que ce nouveau paquet peut avoir un impact positif sur la façon dont nous évaluons et surveillons la biodiversité mondiale.

Pour lire l’intégralité Méthodes en écologie et évolution article, cliquez sur le lien suivant : “plantR : un package R et un flux de travail pour la gestion des enregistrements d’espèces à partir de collections biologiques”. Pour une introduction détaillée, consultez le didacticiel du package ici. Les détails complets sur la mise en œuvre de plantR peuvent être trouvés sur le package GitHub ici.




Source link