Découvrez Huwy : l’agent IA qui transforme l’exploration de données

En savoir plus
Language

Métadonnées : pourquoi sont-elles aussi importantes que les données ?

Data intelligence et reporting

Les métadonnées fournissent des informations contextuelles permettant de comprendre, organiser, retrouver ou utiliser une donnée plus facilement. Il est important d'avoir une stratégie solide de gestion de métadonnées afin d'en garantir la bonne utilisation.

Metadata

Les métadonnées jouent un rôle essentiel dans la gestion des volumes croissants de données au sein des organisations. Indispensables pour structurer, organiser et valoriser l’information, elles permettent de rendre les données plus facilement recherchables, compréhensibles et réutilisables. Mettre en place une réelle stratégie de gestion des métadonnées est donc devenu un enjeu clé pour toutes les entreprises qui souhaitent démocratiser l’usage de leurs données et améliorer l’efficacité de leurs portails data.

Grâce aux métadonnées, les données publiées dans les portails et outils de data management gagnent en clarté, en qualité et en interopérabilité, aussi bien pour les collaborateurs que pour les systèmes technologiques, y compris les outils d’intelligence artificielle (IA).

 

Qu’est-ce qu’une métadonnée ?

Les métadonnées désignent “des données qui décrivent d’autres données”. Il s’agit en fait d’une version condensée des données auxquelles elles se réfèrent.

Les métadonnées résument les informations de base sur les données afin de faciliter leur recherche et leur gestion, par exemple :

  • le responsable de la donnée
  • un résumé de ce que contient les données
  • l’emplacement des données
  • la date de création et/ou de mise à jour des données
  • la source des données
  • l’objectif des données

Cela signifie qu’il est possible de comprendre ce que couvre un data product, un dataset, une visualisation ou une API en consultant uniquement les métadonnées. 

On pourrait comparer les métadonnées aux références bibliographiques d’un livre (titre, formats, date de publication, auteur, résumé), et les données au contenu du livre lui-même.

Où sont gérées les métadonnées ?

Les métadonnées sont généralement gérées dans les data catalogs qui permettent d’inventorier toutes les métadonnées d’une organisation. Chaque donnée est décrite pour pouvoir être mise en relation avec les autres

Elles sont également visibles dans tous les outils de data management d’une organisation puisqu’elles permettent de décrire les données mais également d’en définir le cadre.

Dans une data product marketplace, les métadonnées sont un premier aperçu qui permettent aux utilisateurs de décider s’ils souhaitent aller plus loin dans l’exploration. 

Pourquoi les métadonnées sont-elles importantes ?

Nous vivons dans un monde data-centric, alimenté par l’information. Les organisations créent et collectent des volumes croissants de données provenant de divers systèmes d’information, de logiciels ou encore de capteurs. Toutes ces données sont généralement fournies dans des formats différents.

Les métadonnées sont un langage universel pour donner plus de précisions sur les différentes données, les unités de mesure utilisées, la régularité de leur mise à jour ou l’identité de leur propriétaire. Il s’agit donc d’informations indispensables pour inventorier et organiser l’ensemble des informations et pouvoir les comparer et les réutiliser.

Les métadonnées sont donc aussi importantes que les données elles-mêmes. Elles garantissent une recherche et une compréhension optimale des informations. C’est indispensable pour permettre aux collaborateurs et partenaires d’y accéder et de les réutiliser en toute confiance dans leur vie professionnelle. Concrètement, les métadonnées réduisent le temps et les efforts consacrés à la recherche et permettent par exemple d’éviter des téléchargements inutiles.

Les métadonnées sont donc essentielles à la mise en place d’une stratégie data-centric dans les organisations.

Quels sont les objectifs des métadonnées ?

Metadonnées

Les métadonnées répondent à plusieurs objectifs et permettent de faciliter la recherche, la compréhension et la réutilisation des données. On peut identifier 8 grandes caractéristiques :

  1. Les métadonnées doivent fournir un contexte aux données : expliquer ce qu’elles couvrent, les thèmes, les mots-clés pour les décrire, le mode de collecte, etc. Cela comprend également les unités numériques (exemple : dollars, pouces, centimètres).
  2. Les métadonnées doivent rendre les données unique : elles doivent les différencier d’autres données similaires afin que les utilisateurs puissent identifier les informations les plus pertinentes pour leur recherche.
  3. Les métadonnées doivent fournir un cadre pour les utilisations ultérieures en donnant des informations sur la licence, sur le cadre des réutilisations (en interne, en externe, etc.), sur les règles organisationnelles comme par exemple la liste des personnes autorisées à utiliser ces données.
  4. Les métadonnées doivent favoriser la réutilisation des données. Elles doivent être complètes et fournir des descriptions claires. Pour cela, elles doivent décrire les formats dans lesquels elles sont disponibles et suggérer des moyens potentiels de réutilisation.
  5. Les métadonnées doivent faciliter l’interopérabilité des données. Elles doivent respecter des normes internes ou externes établies afin que les données puissent être utilisées en toute confiance ou comparées à des informations contenues dans d’autres datasets. Il faut donc normaliser la description des champs et les formats tels que les dates.
  6. Les métadonnées doivent rassurer sur la fiabilité des données en incluant des informations sur la source, la fréquence des mises à jour et le contenu.
  7. Les métadonnées doivent faciliter à l’utilisateur (humain ou machine) l’accès à un ensemble de données. Il faut donc utiliser des termes normalisés pour décrire ses données. Les données sont ainsi trouvables immédiatement par le biais d’une recherche via un portail interne ou, dans le cas des portails de données ouvertes, via des moteurs de recherche. De bonnes métadonnées facilitent également la recherche et l’utilisation d’ensembles de données pertinents par l’IA, ce qui est essentiel pour l’apprentissage des modèles et des algorithmes.
  8. Les métadonnées doivent garantir la longévité des données. Les données peuvent avoir une longue durée de vie et être partagées à plusieurs endroits. Il est donc conseillé d’inclure les coordonnées du propriétaire des données dans la licence, en gardant à l’esprit les évolutions internes de son organisation. Plutôt que d’indiquer le nom et prénom d’un collaborateur comme contact, il est préférable d’utiliser le nom d’un service ou d’une équipe dans le cas d’un départ.

Quels sont les différents types de métadonnées ?

Les possibilités de description par les métadonnées semblent infinies. Pour autant, il existe quatre catégories de schémas de métadonnées :

  • Les métadonnées descriptives : elles fournissent des détails sur les données en elles-mêmes : nom, contenu, thème, créateur, etc.
  • Les métadonnées structurelles : elles précisent la classification des données selon leur format, ce qui facilite leur accès et leur réutilisation (format, support).
  • Les métadonnées administratives : elles regroupent les informations relatives à la gestion des droits et aux licences.
  • Les métadonnées relationnelles : elles expliquent comment les ensembles de données sont liés à d’autres informations et permettent ainsi de suivre l’évolution des données.

Quels sont les bénéfices des métadonnées ?

Sans métadonnées, le partage d’informations à grande échelle serait pratiquement impossible.

Les métadonnées sont donc nécessaires pour éviter la confusion provoqués par des ensembles de données comparés ou combinés. Elles offrent sept avantages clés :

  1. Elles facilitent la découverte, le partage et la réutilisation des données sur les portails de données. En permettant aux utilisateurs de rechercher, de trouver et d’utiliser rapidement et en toute confiance les ensembles de données pertinents.
  2. Elles améliorent la prise de décision. Comme les données sont mieux organisées et peuvent être facilement comparées, les humains et l’IA peuvent prendre des décisions commerciales plus éclairées, plus rapides et plus sûres.
  3. Les métadonnées sont au cœur d’une gouvernance des données efficace. Elles assurent la conformité avec les politiques de l’entreprise.
  4. Elles optimisent la qualité des données en fournissant des informations sur la qualité et la fiabilité de l’ensemble de données.
  5. Elles assurent un gain de temps et d’efficacité. Les utilisateurs peuvent trouver et utiliser les informations pertinentes plus rapidement, sans avoir besoin de l’aide des équipes chargées des données.
  6. Elles favorisent la collaboration interne et externe en permettant aux collaborateurs de travailler ensemble avec des données partagées et comprises par tous.
  7. Elles garantissent la conformité. Les métadonnées permettent aux données stockées dans différents systèmes et bases de données d’être interopérables, en fournissant un enregistrement actualisé des informations et de toutes les modifications qui y sont apportées.

Modèles et normes de métadonnées

Le modèle W7

Dans l’ouvrage « A semiotic Framework for Analyzing Data Provenance Research« , les auteurs définissent un modèle conceptuel en sept parties. La plupart des schémas de métadonnées reposent sur ces questions :

  • Quoi – Sur quoi porte l’ensemble de données ?
  • Quand – Quelle est la période couverte par l’ensemble de données ?
  • – Quelle est la couverture spatiale/géographique de l’ensemble de données ?
  • Qui – Qui l’a créé (organisation, équipe, individu) ?
  • Comment – Comment le jeu de données peut-il être utilisé ? En d’autres termes, quelles sont les conditions de licence ?
  • Quelle – Quelle source a généré le jeu de données (solution logicielle, capteur, machine) ?
  • Pourquoi – Pourquoi l’ensemble de données existe-t-il ? Pourquoi a-t-il été créé et partagé à l’origine ?

Normes relatives aux métadonnées

Si le principe des métadonnées est simple, leur application à des jeux de données peut sembler complexe. Par où commencer ? Comment décrire les données pour qu’elles soient cohérentes et puissent être partagées en interne et en externe ?

Un certain nombre de normes internationales ont été conçues pour répondre à ces questions. On peut citer la norme Dublin Core, le DCAT ou encore INSPIRE de l’UE pour les données spatiales. Il s’agit de normes ISO reconnues afin de garantir l’interopérabilité et la réutilisation à grande échelle.

La solution Huwise intègre outil de gestion des métadonnées pour faciliter leur contribution. Il regroupe trois catégories de modèles de métadonnées :

  • Modèles standards : pour garantir un niveau de conformité personnalisé, adapté aux exigences d’une organisation (classification, secteur ou vocabulaire spécifique).
  • Modèles d’interopérabilité (non modifiables) : pour assurer la conformité avec les normes internationales telles que DCAT, DCAT-AP, Inspire ou Dublin Core.
  • Modèles administratifs (visibles uniquement par les administrateurs du portail) : pour assurer une bonne gouvernance interne des métadonnées.

Métadonnées et ontologies

Les ontologies sont des descriptions et des définitions des relations et peuvent être utilisées pour compléter les métadonnées. Les ontologies peuvent inclure les informations suivantes :

  • Classes (éléments généraux, types d’éléments),
  • Instances (objets individuels),
  • Relations entre les objets,
  • Propriétés des objets,
  • Fonctions, processus, contraintes et règles.

Les ontologies nous aident à comprendre les relations entre différents éléments. Par exemple, un « téléphone Android » appartient à la classe d’objets, « téléphone portable ».

Dans les schémas de métadonnées, les ontologies contribuent à garantir l’interopérabilité de différents datasets dans le cadre de normes spécifiques. Elles définissent l’organisation d’un jeu de données, le champs couvert et le type d’information dans chaque champ (par exemple, un chiffre). Cela se reflète dans les métadonnées, qui fournissent une définition standard pour chaque type d’en-tête de colonne.

Métadonnées et data product marketplace

Dans une data product marketplace, les métadonnées jouent un rôle clé pour apporter contexte et clarté à vos utilisateurs et consommateurs de données. Ces métadonnées ne servent pas seulement à documenter les datasets : elles servent de base pour la recherche et peuvent être transformées en filtres, permettant à vos utilisateurs de rechercher et d’explorer votre catalogue en fonction de critères précis et pertinents.

Avec Huwise, la gestion des métadonnées est simplifiée :

  • Une section dédiée peut être entièrement personnalisée pour afficher les métadonnées et apporter du contexte et de la clarté aux utilisateurs.
  • Les modèles de métadonnées de Huwise se distinguent par leurs interfaces claires et leurs instructions détaillées, guidant les utilisateurs dans le remplissage correct et complet des champs.
  • L’API Automation permet d’automatiser la gestion des métadonnées à grande échelle, garantissant que chaque modification est immédiatement répercutée dans l’ensemble des outils de l’organisation et maintenant ainsi vos informations fiables et à jour.

Grâce à la fonctionnalité de gestion des métadonnées de Huwise, nous avons mis en place un modèle de données personnalisé qui nous permet de gérer efficacement nos métadonnées spécifiques (telles que la périodicité, le niveau de confidentialité, le nom des data owners ou des data stewards). La gestion opérationnelle de nos plateformes est ainsi optimisée, la mise à jour de données est simplifiée, ce qui nous confère une véritable autonomie et nous permet de gagner un temps précieux. De plus, la configuration des modèles est simple et intuitive, notamment grâce à la possibilité de rendre obligatoires certains champs dans le modèle pour éviter les erreurs d’encodage.

Lucas Smet

Open Data Project Lead, Infrabel

Bonnes pratiques pour améliorer la réutilisation des données grâce aux metadata

Pour favoriser un partage et une réutilisation efficaces des données par le biais des data product marketplaces, plusieurs bonnes pratiques peuvent être suivie concernant la gestion des métadonnées :

  • Définir une stratégie de gestion des métadonnées alignée avec les objectifs de partage de données de son organisation.
  • Recueillir et comprendre les besoins des utilisateurs et les cas d’usage potentiels.
  • Prioriser l’ajout de métadonnées aux actifs de données les plus importants pour stimuler leur utilisation.
  • Impliquer les propriétaires et utilisateurs concernés en créant une équipe transverse responsable de la gestion des métadonnées.
  • Établir un système de classification des métadonnées et créer un vocabulaire commun basé sur des normes reconnues.
  • Sensibiliser tous les propriétaires de données à l’importance des métadonnées et communiquer les normes, les pratiques, les modèles et les processus.
  • Contrôler le respect des normes en matière de métadonnées et les faire évoluer si nécessaire.

Les métadonnées jouent donc un rôle essentiel dans la démocratisation des données. Elles favorisent la fiabilité de l’accès aux données pour des utilisateurs experts et non experts. Au sein d’une organisation, la stratégie de gestion des métadonnées doit être exhaustive et répondre à des normes définies pour encourager la réutilisation des données.

Pour en savoir plus sur la gestion des métadonnées, consultez notre ebook.

Partager cet article :

Articles sur le même thème :

Data intelligence et reporting

À propos de l’auteur

Parlons [ data product marketplace ]

En 30 minutes, découvrez comment Huwise peut vous aider à créer de la valeur pour tous dans votre organisation. Réservez votre démo personnalisée avec un de nos experts et laissez-vous guider.

Demander une démo