Projects, une initiative de Digital Science, propose une appli de bureau permettant d’organiser et de gérer de façon efficace les données que vous produisez dans le cadre de projets de recherche. La raison d’être de Projects est l’idée que les données scientifiques doivent être correctement gérées et préservées si nous voulons qu’elles soient pérennes : il y a en effet une tendance inquiétante démontrant que chaque année, la quantité de données de recherche générée augmente de 30% alors que 80 % des données scientifiques sont perdus en vingt ans.
Projects et figshare (la plate-forme de partage de données scientifiques sous licences ouvertes) ont publié une infographie assez impressionnante sur la conservation des données, très révélatrice de leur mauvaise gestion chronique [voir ci-dessous]. Ce qui m’a frappé en voyant ces chiffres n’est ni l’avalanche de données, ni l’ensemble des sous en jeu – 1,5 milliards de dollars dépensés en R&D ! – mais le peu ou pas d’informations sur les politiques publiques visant à résoudre le problème.
Ce serait se fourrer le doigt dans l’œil que de considérer suffisant l’accès à la publication scientifique seule. Une publication est un résumé, une sorte de publicité savante, et – seule – ne pourra en aucun cas se substituer aux données brutes, les protocoles et les détails de l’expérience, et — le cas échéant – le code source du logiciel utilisé pour effectuer l’analyse. Pourtant, alors que le nombre de revues ouvrant l’accès aux publications scientifiques ne cesse de croître, les chercheurs et leurs institutions respectives tardent à commencer le partage massif de données scientifiques. Cette paresse n’est pas anodine : l’infographie montre que 80% (!) des jeux de données vieux d’au moins 20 ans ne sont pas disponibles.
Un tel nombre délirant n’est cependant que la pointe de l’iceberg : chaque fois que nous produisons des données, nous générons également des métadonnées (« des données sur les données ») et des protocoles (les descriptions des méthodes, analyses et conclusions). Et, surprise sur prise, comme les fichiers s’accumulent rapidement et qu’on les gère mal, toute cette production tombe dans l’oubli.
Cela signifie également que les données que nous produisons aujourd’hui ne sont pas non plus accessibles à la communauté scientifique en général. Beaucoup d’expériences donnent des résultats négatifs ou neutres, ne permettant pas de confirmer les hypothèses de travail. C’est une considération doublement importante. Premièrement, nous perdons notre temps, de l’énergie et du jus de cerveau à refaire ce que des collègues ont fait et qui ne fonctionne pas. Mais puisque les données ne sont pas partagées, nous plongeons gaiment dans l’écriture de demandes de subventions pour avoir de l’argent pour finalement produire des données qui ne feront pas l’objet d’un papier … vu que les publications aujourd’hui ne présentent que des résultats « positifs » (c’est-à-dire, qui viennent appuyer des hypothèses de travail).
Deuxième problème avec le non-partage de données est l’impossibilité de répéter ou même de statistiquement vérifier une étude présentée. Cela a un nom : la recherche reproductible. Nous avons tous entendu parler du résultat choquant de l’étude de Glenn Begley de 53 publications phares de la recherche sur le cancer (petit indice : seules 6 d’entre elles ont pu être reproduites indépendamment). L’infographie ci-dessous donne une image quelque peu différente mais toujours effrayante : 54% des ressources utilisées dans 238 études publiées n’ont pas pu être identifiées, rendant ainsi la vérification impossible. Et enfonçant le clou encore un peu, l’infographie souligne également que le nombre de rétractations en raison d’une erreur ou de fraude a été multiplié par 5 depuis 1990. Ce chiffre vient en complément d’une autre estimation montrant que le nombre de publications rétractées a été multiplié par 10 depuis 2000.
Nous avons besoin que des politiques publiques viennent à la rescousse. Les agences de financement et diverses autres institutions commencent à exiger une meilleure gestion des données, nous dit l’infographie, citant la « Déclaration sur l’accès aux données de la recherche financée sur fonds publics » et le NIH, MRC et Wellcome Trust (ceux-là demandant maintenant que des plans de gestion des données fassent partie des demandes de financement). L’UE s’est également engagée à considérer les données produites dans le cadre d’études financées par des deniers publics comme des données publiques. Une telle position aligne donc le partage des données de rechercher avec celui d’autres données du secteur public dans un cadre plus large : celui des données publiques ouvertes. En soutien à ces belles paroles, la Commission européenne a aussi lancé le projet Pilot on Open Research Data dans le cadre du programme Horizon 2020.
P.S. Et au cas où vous auriez besoin d’incitations supplémentaires pour partagez vos données, voici un peu de lecture.
P.P.S. De ce que j’ai entendu, les gens de Projects sont intéressés à connaître votre avis sur la question de disponibilité des données et la façon dont vous gérez les données que vous produisez dans le cadre de votre recherche, alors parlez-leur sur Twitter @projects.
Love your data – practise safe science
—
Il s’agit de la traduction en français de mon billet « Love your data – and let others love it, too ». Initialement publié sur le blog du groupe de travail Science ouverte et citoyenne de l’OKF France.
Source de l’image d’en-tête