Les données de la recherche et la science ouverte | Science ouverte au Collège de France

Enjeux, structuration et valorisation

Les données de recherche correspondent à des éléments factuels — qu'il s'agisse de chiffres, de textes, d'images ou de sons — servant de sources primaires dans les travaux scientifiques et reconnus par la communauté comme indispensables à la validation des résultats (OCDE, 2007).

Elles occupent aujourd'hui une place centrale dans la production scientifique. Comme les publications, elles s'inscrivent dans la démarche de science ouverte (Open Science), qui vise à rendre les résultats accessibles à tous afin de favoriser la reproductibilité, la transparence et la réutilisation des travaux scientifiques.

Les données ouvertes

Les données de recherche ouvertes (Open data) désignent des données produites dans le cadre d'activités de recherche qui sont rendues librement accessibles, utilisables, modifiables et partageables par tous, sous réserve éventuelle de conditions minimales (comme la citation de la source).

Plus précisément, il s'agit de données mises à disposition dans des formats ouverts, accompagnées de métadonnées, afin de permettre leur réutilisation, leur vérification et leur diffusion au sein de la communauté scientifique et au-delà.

Dans cette perspective, les chercheuses et les chercheurs doivent :

Assurer une gestion rigoureuse des données afin d'en faciliter la valorisation à l'issue du projet ;
Documenter les données conformément aux principes FAIR (Faciles à trouver, Accessibles, Interopérables et Réutilisables) afin d'en optimiser le partage et la réutilisation ;
Rendre les données ouvertes « autant que possible » et les restreindre « autant que nécessaire », afin de concilier transparence scientifique et respect des contraintes juridiques, éthiques ou de confidentialité.

Les jeux de données

Un jeu de données désigne un ensemble structuré de données collectées, produites ou compilées dans le cadre d'une activité de recherche, organisé de manière cohérente afin de pouvoir être analysé, partagé et réutilisé. Il peut s'agir, par exemple, d'un tableau de mesures expérimentales, d'un corpus de textes, d'images annotées, de relevés de capteurs ou encore de bases de données complexes.

Un jeu de données est généralement accompagné de métadonnées décrivant son contenu, son contexte de production, ses méthodes de collecte et ses conditions d'utilisation, ce qui permet d'en garantir la compréhension et la réutilisation par d'autres chercheurs.

Dans le cadre de la science ouverte, la qualité d'un jeu de données repose sur sa structuration, sa documentation et sa conformité aux principes FAIR Faciles à trouver, Accessibles, Interopérables et Réutilisables), afin d'assurer sa visibilité, son accessibilité et sa réutilisation à long terme.

Data paper ou Article de données

Dans ce contexte, pour donner de la visibilité et valoriser les données, il est possible de publier un article scientifique, de type Data paper, qui explicite et informe la communauté scientifique de l'existence, de la disponibilité, de la qualité et du potentiel de ces données pour la recherche et l'innovation.

Le Data paper est ainsi une forme de publication scientifique dédiée à la description détaillée d'un jeu de données. Contrairement à un article classique centré sur l'analyse et les résultats, il met l'accent sur les méthodes de collecte, de traitement, de structuration et de validation des données, ainsi que sur les conditions de leur réutilisation.

Son objectif est de rendre les données compréhensibles, accessibles et réutilisables par d'autres chercheurs, tout en assurant une reconnaissance académique aux producteurs de données. Le data paper s'inscrit pleinement dans la démarche de science ouverte et contribue à la diffusion et à la valorisation des données de recherche.

Les équipes et les professeurs du Collège de France peuvent déposer leurs data papers sur le Portail HAL de l'institution.

Pour toute assistance, écrivez à scienceouverte@college-de-france.fr

Le plan de gestion des données (PGD) : un outil structurant de la science ouverte

Le plan de gestion des données (PGD, ou Data Management Plan – DMP) s'impose comme un instrument central de la politique de science ouverte. Le PGD est un document évolutif qui décrit l'ensemble du cycle de vie des données produites dans un projet de recherche : leur collecte, leur organisation, leur documentation, leur stockage, leur partage et leur archivage à long terme. Il vise à anticiper les enjeux techniques, juridiques et éthiques liés aux données, tout en garantissant leur qualité, leur sécurité et leur réutilisation.

Ce que doit contenir un PGD

Le DMP doit :

Définir et décrire les données ;
Identifier les risques liés à la gestion des données ;
Assurer la sécurité et la préservation des données sur le long terme ;
Identifier les responsabilités, les rôles de chacun dans la gestion des données ;
Planifier les ressources et compétences nécessaires à cette gestion ;
Donner accès à des données fiables afin d'assurer la reproductibilité de la recherche et permettre à d'autres de les comprendre et de les utiliser ;
Anticiper les coûts liés au projet : ressources humaines, logiciels/équipement pour la préparation des données et leur documentation, frais pour l'archivage des données, leur volumétrie, type et nature.

Un PGD est un outil indispensable pour :

Les Financeurs : optimisation et retour d'investissement basé sur la réutilisabilité des données ;
Les Organismes de recherche : utilisation de données et reproductibilité de la recherche ;
Les Chercheurs : efficacité, baisse des coûts et des risques, sauvegarde des données.

Dans le cadre de projets Horizon Europe et ANR, la rédaction du PGD est obligatoire.
Le PGD doit adopter les principes FAIR et favorise une meilleure planification des ressources nécessaires à la gestion des données.

Le rôle de OPIDoR dans l'élaboration des PGD

Dans le contexte français, la mise en œuvre des plans de gestion des données est facilitée par OPIDoR (Optimisation du Partage et de l'Interopérabilité des Données de la Recherche). Cette plateforme propose notamment l'outil DMP OPIDoR, qui accompagne les chercheurs dans la rédaction, la structuration et la mise à jour de leur PGD.

OPIDoR offre des modèles de plans adaptés aux exigences des principaux financeurs (ANR, Commission européenne), ainsi que des guides et recommandations permettant d'intégrer les bonnes pratiques en matière de gestion des données. L'outil favorise également la standardisation des PGD tout en laissant une certaine flexibilité selon les disciplines.

Pour toute assistance, écrivez à scienceouverte@college-de-france.fr

Les infrastructures de diffusion : réservoirs de données et plateformes publiques

Les réservoirs de données (data repositories) constituent des infrastructures essentielles permettant de stocker, préserver et diffuser les données de la recherche. Ils garantissent leur accessibilité, leur traçabilité et leur pérennité dans le temps, tout en favorisant leur réutilisation dans des contextes scientifiques variés.

On distingue plusieurs types d'entrepôts :

Généralistes, tels que Zenodo ou Figshare ;
Disciplinaires, adaptés à des domaines spécifiques (par exemple GenBank pour la biologie) ;
Institutionnels, portés par des universités ou organismes de recherche.

Ces plateformes permettent l'attribution d'identifiants persistants (DOI), facilitant la citation et la traçabilité des données. En France, certaines infrastructures spécialisées, comme Nakala, illustrent une approche adaptée aux spécificités disciplinaires, notamment dans les sciences humaines et sociales.

La liste des entrepôts se trouve sur cat.opidor.fr.

Pour toute assistance, écrivez à scienceouverte@college-de-france.fr

La plateforme Data.gouv.fr

Parmi les entrepôts, la plateforme Data.gouv.fr constitue le portail officiel français de diffusion des données publiques et s'inscrit pleinement dans la politique nationale d'open data. Pilotée par Etalab, département de la direction interministérielle du numérique (DINUM), elle vise à centraliser, structurer et rendre accessibles les données produites par les administrations, les collectivités territoriales, ainsi que par certains acteurs de la recherche.

Elle permet :

la mise à disposition de jeux de données variés (statistiques, géographiques, environnementales, économiques, etc.) ;
leur téléchargement libre et gratuit dans des formats ouverts (CSV, JSON, etc.) ;
leur réutilisation.

Il est fortement conseillé d'utiliser des entrepôts disciplinaires et d'utiliser Data.gouv.fr uniquement s'il est impossible de trouver un entrepôt disciplinaire adapté.

Pour toute assistance, écrivez à scienceouverte@college-de-france.fr

Cadre juridique des données de la recherche

La gestion et la diffusion des données de la recherche s'inscrivent dans un cadre juridique structurant. Plusieurs dimensions doivent être prises en compte.

D'une part, le droit d'auteur peut s'appliquer à certaines données lorsqu'elles présentent un caractère original, notamment dans le cas de bases de données structurées ou de corpus annotés. D'autre part, le RGPD encadre strictement le traitement des données à caractère personnel, imposant des obligations en matière de sécurité, de finalité et de minimisation.

Les licences de diffusion (Creative Commons, Open Data Commons) définissent les conditions de réutilisation des données ouvertes. Ces dispositifs s'inscrivent dans le prolongement de la loi pour une République numérique (2016), qui encourage l'ouverture des données tout en prévoyant certaines limitations liées à la sécurité, à la confidentialité et aux contraintes juridiques et éthiques.

Pour toute assistance, écrivez à scienceouverte@college-de-france.fr

HAL, ORCID et les données de la recherche

Dans cet écosystème, certaines infrastructures ne stockent pas directement les données mais jouent un rôle clé dans leur circulation et leur valorisation. C'est le cas de HAL et de ORCID.

HAL, en tant qu'archive ouverte, permet le dépôt et la diffusion des publications scientifiques et leur articulation avec des jeux de données déposés dans des entrepôts externes. Il contribue ainsi à la visibilité et à la « trouvabilité » des données, sans en assurer directement l'hébergement. HAL permet aussi le dépôt et la diffusion des data papers.

ORCID, quant à lui, fournit un identifiant unique aux chercheurs, permettant d'associer de manière fiable les productions scientifiques — y compris les données — à leurs auteurs. Il renforce ainsi la traçabilité et la reconnaissance des contributions scientifiques.

Pour toute assistance, écrivez à scienceouverte@college-de-france.fr

Les enjeux éthiques : protection, anonymisation et responsabilité

L'ouverture des données de la recherche soulève des enjeux éthiques fondamentaux, en particulier lorsqu'elles impliquent des données personnelles ou sensibles.

Le cadre du RGPD impose des principes stricts, mais son application peut s'heurter aux objectifs de la science ouverte. L'anonymisation apparaît alors comme une solution intermédiaire, bien qu'elle présente des limites importantes, notamment en termes de réidentification et de perte de qualité des données.

Les données sensibles (santé, opinions, etc.) nécessitent une vigilance accrue et des dispositifs spécifiques de protection. Dans ce contexte, les chercheurs sont amenés à développer une responsabilité élargie, intégrant des dimensions éthiques, sociales et politiques dans la gestion des données.

Cette approche souligne que la gestion des données ne relève pas uniquement de contraintes techniques ou juridiques, mais engage des choix scientifiques et sociétaux.

Pour toute assistance, écrivez à scienceouverte@college-de-france.fr

⬅ Retour à la page d'accueil