Article
Qu’est-ce que la qualité des données ?
Définition de la notion de qualité des données
La qualité des données se définit comme la mesure par laquelle une donnée est plus ou moins apte à remplir des objectifs précis dans des contextes particuliers. Selon cette définition, la qualité des données peut être considérée élevée pour telle utilisation et médiocre pour telle autre ; elle est considérée élevée si elle est conforme à l’objectif poursuivi.
Les critères couramment utilisés (on parle aussi des « dimensions » de la qualité des données) pour déterminer la qualité des données sont : l’exactitude, l’exhaustivité, l’uniformité, la notion de temps voulu, l’unicité et la validité. Parmi les problèmes que prennent en compte les dimensions de qualité des données, citons la présence et la fréquence des doublons, les données incomplètes, l’hétérogénéité des données, les données inexactes, les données mal définies, les données mal organisées et les données pour lesquelles les contrôles de sécurité sont insuffisants.
Le niveau de priorité accordé par les organisations à la qualité des données est fonction de leur valeur ; ressource toujours précieuse, les données continuent à jouer un rôle prépondérant dans les opérations d’une entreprise.
La qualité des données est essentielle pour alimenter les analyses qui servent à éclairer les décisions à tous les niveaux, qu’il s’agisse des questions financières, du travail de conformité, des ventes ou du marketing.
Elle est déterminante également dans les programmes de gestion de données et gouvernance des données. Ces programmes s’efforcent d’optimiser et de protéger la qualité des données, en recherchant les occasions de l’améliorer et en traquant les risques qui pourraient la remettre en question. C’est important, car des données de mauvaise qualité peuvent conduire à une analyse inexacte, avoir des conséquences fâcheuses pour une organisation et créer des risques de non-conformité.
Qualité des données, intégrité des données et profilage des données
La qualité des données | L’intégrité des données | Le profilage des données |
---|---|---|
Mesurer la qualité des données, c’est indiquer dans quelle mesure les données remplissent l’objectif poursuivi. Travailler à la qualité des données consiste à détecter les erreurs dans des ensembles de données et à les corriger. | On parle d’intégrité des données pour indiquer leur degré d’exactitude et d’uniformité. L’intégrité des données s’attache à préserver et à protéger l’état d’origine des données pendant leur stockage, leur consultation et leur traitement. | On parle de profilage des données pour désigner le fait d’examiner, d’analyser, de réviser et de résumer les données pour évaluer leur qualité. Le profilage des données consiste aussi à passer en revue les données sources pour comprendre leur structure, leur contenu et les relations qu’elles entretiennent les unes avec les autres. |
Les dimensions mesurant la qualité des données
C’est de la qualité des données que dépend leur valeur pour une organisation. Il existe un certain nombre d’indicateurs servant à évaluer la qualité des données pour en déterminer la valeur et repérer les domaines à améliorer. Nous indiquons ci-dessous six des dimensions les plus couramment utilisées pour mesurer la qualité des données.
L’exactitude
Citée comme la mesure de qualité des données la plus importante, l’exactitude renvoie au degré d’adéquation entre l’information et la donnée (par exemple un événement ou un objet). L’exactitude est de la plus haute importance parce que c’est d’elle que dépendent les fonctions qui s’appuient sur les informations pour agir comme il le faut et produire les résultats attendus. Par exemple, avoir noté correctement la date d’embauche d’un salarié ou son poste dans l’entreprise peut avoir des répercussions sur les prestations sociales auxquelles il a droit.
Il y a plusieurs façons de mesurer la dimension d’exactitude dans la qualité des données. Et notamment en répondant aux questions suivantes :
- Les données sont-elles à jour, et les données qui se sont plus valides posent-elles problème ?
- Quelle est la valeur des données comparée à des valeurs courantes ou de référence communiquées par une source fiable ?
- Quelle est la différence entre la valeur des données et une mesure physique ou des observations physiques ?
- L’information est-elle conforme à la réalité ? Dans quelle mesure ?
L’exhaustivité
La dimension d’exhaustivité des données dans la qualité des données renvoie à leur pourcentage de propagation par rapport aux conditions fixées pour une qualité élevée ; 100 % est l’idéal. À ce stade, la qualité des données répond à toutes les attentes et les données ont le degré de complétude nécessaire pour atteindre les objectifs déclarés.
En fait, « 100 % » est légèrement trompeur car cela pourrait signifier des choses différentes pour des cas d’utilisation différents. Par exemple, dans certains cas, il suffit d’indiquer le nom, le prénom et le numéro de téléphone (dans une situation par ex. comme le dépôt d'un produit en pour entretien), tandis que dans d’autres, il est nécessaire d’enregistrer la totalité des coordonnées d’une personne pour accomplir une certaine fonction (par exemple expédier un produit).
Il y a plusieurs façons de mesurer la dimension d’exhaustivité dans la qualité des données. Et notamment en répondant aux questions suivantes :
- Manque-t-il des écritures connues ?
- Les données répondent-elles aux attentes et aux besoins des utilisateurs par rapport à la notion d’exhaustivité ?
- Les données sont-elles tronquées ?
- Quel est le pourcentage de valeurs nécessaires qui manquent dans un ensemble de données ?
L’uniformité
Dans la qualité des données, la dimension d’uniformité consiste à déterminer son degré d’homogénéité d’un ensemble de données à l’autre en ce qui concerne le format. Par exemple :
- Certaines dates sont notées en mots et d’autres en chiffres. Exemple : « 1er janvier 1999 » ou « 01/01/1999 » ou « 01/01/99 » ;
- Le format des numéros de téléphone: certains utilisent des tirets, d’autres des points (par exemple 800-222-3333 ou 800.222.3333) ;
- L’utilisation de majuscules, par exemple celles utilisées pour les phrases ou celles utilisées pour les titres.
Il y a plusieurs façons de mesurer la dimension d’uniformité dans la qualité des données. Et notamment en répondant aux questions suivantes :
- Toutes les écritures d’un ensemble de données utilisent-elles le même format d’information ?
- Les informations conservées à un endroit sont-elles équivalentes à des données comparables conservées ailleurs ?
La notion de temps voulu
Dans la qualité des données, la notion de temps voulu est le délai entre le moment où une information relative à un événement est saisie dans un système et le moment où la donnée est disponible. Ce sont les attentes et les besoins des utilisateurs qui déterminent la mesure de qualité des données.
Il y a plusieurs façons de mesurer la dimension de temps voulu dans la qualité des données. Et notamment en répondant aux questions suivantes :
- Y a-t-il des retards de traitement dus à la disponibilité des informations ?
- Les informations sont-elles disponibles quand les utilisateurs en ont besoin ?
- Quel décalage y a-t-il entre la saisie des données et la disponibilité d’une information ?
L’unicité
La présence de doublons nuit à la qualité des données. Pour maintenir une qualité élevée, il faut qu’il n’y ait qu’un seul exemplaire d’une information dans une base de données.
En effet, la notion d’unicité détermine l’existence de doublons, qui peuvent être la même écriture répétée avec de légères variations ; par exemple, Jonathan Smith, répété sous la forme de Jon Smith. L’unicité doit être mesurée dans un ensemble de données et dans tous les autres ensembles, par exemple dans les systèmes comptables comme dans les systèmes commerciaux.
La dimension d’unicité dans la qualité des données peut être mesurée de plusieurs façons. Et notamment en répondant aux questions suivantes :
- Des éléments d’une donnée sont-ils dupliqués dans plusieurs domaines ?
- Une entité est-elle représentée plusieurs fois sous la même identité ?
- Deux identités représentent-elles une seule entité ?
- Est-ce la seule occurrence de cette information dans une base de données ?
La validité
Dans la qualité des données, la dimension de validité interroge dans quelle mesure l’information correspond ou non aux attributs de valeur disponibles. Quand elle n’est pas conforme aux exigences de validité, l’information risque d’être rejetée par le système ou de nuire aux normes de qualité. Pour qu’il y ait qualité des données, la validité de l’information doit coïncider avec des valeurs prédéterminées ou des règles professionnelles.
Il y a plusieurs façons de mesurer la dimension de validité dans la qualité des données. Et notamment en répondant aux questions suivantes :
- Les informations sont-elles au format indiqué par les règles professionnelles, est-ce une série de valeurs (numériques ou dates), ou une suite d’événements ?
- Les informations sont-elles à un format exploitable, tel que MM/JJ/AAAA pour un système qui n’accepte que MM/JJ/AA ?
Garantir le respect des dimensions de qualité des données
Les mesures qui peuvent être prises pour assurer des scores élevés dans ces dimensions de qualité des données sont :
- Déterminer si les informations reflètent bien la réalité d’une situation ;
- Se demander si les données sont à la hauteur des dimensions de qualité des données dans tous les services d’une organisation (par exemple un format de données utilisé dans différents systèmes, tels que les finances, les ventes et l’assistance à la clientèle) ;
- Repérer les données incorrectes et les corriger ;
- Tirer parti des systèmes de gestion des données et de gouvernance des données, ainsi que des pratiques professionnelles reconnues ;
- Faire appel à des tests pour assurer l’exactitude des données.
Pourquoi la qualité des données est importante
Une mauvaise qualité des données est source de nombreux problèmes. Et notamment :
- De dépenses, pour corriger les erreurs ;
- D’amendes infligées en cas de déclarations financières inexactes ou de problèmes de conformité ;
- D’analyses inexactes, qui nuisent à la prise de décision ;
- D’augmentation des coûts de traitement des données ;
- De perte de valeur de la marque ;
- De perte d’opportunités commerciales. Etc.
En revanche, maintenir un haut niveau de qualité offre de nombreux avantages. Cela permet, entre autres :
- D’éviter les erreurs opérationnelles et les pannes de processus qui risque de faire augmenter les dépenses de fonctionnement et réduire le chiffre d’affaires ;
- D’avoir des échanges plus fructueux avec les clients ;
- De renforcer l’efficacité opérationnelle et la productivité ;
- De retirer plus de valeur des ensembles de données ;
- De libérer les équipes chargées de la gestion de données pour qu’elles puissent se consacrer à des tâches plus productives ;
- De gagner un avantage compétitif ;
- D’améliorer les processus internes ;
- D’augmenter l’exactitude des analyses pour améliorer la prise de décision ;
- D’éclairer les décisions dans toute l’organisation (par exemple au niveau du marketing, du développement des produits, des ventes et des finances) ;
- De réduire les risques et les coûts ;
- De réduire le coût du repérage et de la correction des mauvaises données dans les systèmes.
Qu’est-ce que l’assurance qualité des données ?
L’assurance qualité des données est un ensemble de processus utilisés pour améliorer la qualité des données. Pour établir et maintenir un haut niveau de qualité des données, les ensembles de données sont nettoyés et passés en revue afin de s’assurer qu’ils ne comportent pas d’anomalies, d’incohérences ou d’informations obsolètes.
L’assurance qualité des données a recours au profilage et au nettoyage des données pour assurer la qualité des données tout au long de leur cycle de vie.
Ce travail doit être mené avant et pendant l’acquisition des données et doit être permanent, afin de repérer les distorsions causées par des personnes ou des facteurs extérieurs et de les éliminer.
L’assurance qualité des données se fait en six étapes.
Première étape : définir des indicateurs d’assurance qualité des données
Définir les normes de qualité des données afin d’obtenir des indicateurs pour le travail d’assurance qualité des données. Les normes de qualité couramment utilisées sont :
- L’exactitude
- L’exhaustivité
- La compréhensibilité
- La précision
- La pertinence
- La notion de temps voulu
- La fiabilité
- La validité
Voici des exemples de vérifications spécifiques de la qualité des données :
- L’application de vérifications de formatage ;
- La vérification des champs obligatoires, des valeurs nulles et des valeurs manquantes ;
- La vérification de l’âge des données ou quand elles ont été mises à jour pour la dernière fois ;
- Le repérage des doublons ou des chevauchements ;
- L’utilisation de règles de travail, avec une série de valeurs ou de valeurs par défaut et de validité ;
- La validation des contrôles sur les rangs, les colonnes, la conformité et les valeurs.
Deuxième étape : mener un profilage des données pour l’assurance qualité des données
Procédez à un profilage des données pour l’assurance qualité des données afin de les passer en revue, les nettoyer et les surveiller. L’objectif est de comprendre comment les données sont structurées, quel est leur contenu et quels liens elles ont, afin de maintenir des normes de qualité des données.
- La découverte de la structure
La découverte de la structure, qui fait partie du profilage des données, consiste à confirmer que les données sont homogènes et que leur format correspond aux normes de qualité des données. - La découverte du contenu
Dans le profilage des données, la découverte du contenu consiste à examiner attentivement chaque élément d’un ensemble de données pour vérifier la qualité des données. - La découverte des relations
Pour que la qualité des données soit maintenue sur tous les ensembles de données, la découverte des relations consiste à déterminer les liens entre les ensembles de données et à confirmer qu’elles sont alignées.
Troisième étape : établir des normes pour l’assurance qualité des données
La standardisation est une partie essentielle de l’assurance qualité des données. Pendant cette étape, on élabore des règles pour faire appliquer des normes externes et internes de qualité des données.
- Normes externes pour l’assurance qualité des donnéese
Les normes couramment appliquées aux types de données s’appuient souvent sur des standards externes, tels que l’ISO-8601, une norme acceptée partout dans le monde pour représenter l’heure du jour. - Normes internes pour l’assurance qualité des données
Les organisations doivent créer des normes internes d’informations qui leur soient propres, par exemple les intitulés de poste ou les codes de facturation.
Quatrième étape : apparier et relier les écritures pour l’assurance qualité des données
Il s’agit, par cette étape, d’apparier et de relier des ensembles de données entre systèmes pour trouver celui qui a la meilleure qualité et l’utiliser comme étalon. Au cours de cette étape, on identifie les doublons et les erreurs (par exemple Sam Smith et Sma Smith, qui ont tous les deux d’autres informations en commun, excepté la coquille sur le patronyme). Cette étape peut également servir à fusionner plusieurs écritures partielles pour créer une super-écriture dans laquelle toutes les informations ont été rapprochées.
Cinquième étape : surveiller la qualité des données
Une surveillance continue est nécessaire pour maintenir la qualité des données. Cela garantit la qualité la plus élevée et réduit le nombre de doublons, d’erreurs et d’anomalies qui peuvent entraîner des problèmes pour les applications qui dépendent de ces informations.
Sixième étape : maintenir la qualité des données
Pour maintenir la qualité des données, après avoir suivi les étapes d’assurance qualité des données, les organisations doivent mettre en place des processus et des procédures pour que ces données restent propres.
Qu’est-ce que le contrôle de la qualité des données ?
Le contrôle de la qualité des données est une étape consistant à faire appliquer la qualité des données. Elle intervient avant et après l’assurance qualité des données et sert à restreindre les saisies jusqu’à ce que les critères d’assurance qualité des données, mesurés par les dimensions de qualité des données, aient été atteints.
Les informations réunies dans le cadre de la qualité des données servent à orienter les contrôles de la qualité des données. Ces contrôles doivent être terminés avant que les utilisateurs puissent accéder aux données.
Mettre en œuvre des contrôles de la qualité des données est essentiel pour maintenir des données conformément aux normes nécessaires pour divers cas d’utilisation. Les contrôles de la qualité des données permettent aux organisations :
- De détecter et de supprimer les doublons ;
- De repérer les informations obligatoires qui sont manquantes ;
- D’identifier les erreurs faites pendant la saisie, le transfert ou le stockage des informations.
Parmi les méthodes couramment employées pour les contrôles de qualité des données, il faut citer :
- La détection des anomalies
La détection des anomalies met à la disposition des entreprises des outils sophistiqués d’analytique et d’apprentissage automatique pour repérer des problèmes de qualité des données difficiles à détecter. Elle a recours aux données structurées et non structurées pour identifier les irrégularités et les anomalies. Par exemple, la détection des anomalies a recours aux moyennes pour trouver des erreurs potentielles (par exemple, un âge de 102 ans alors que l’âge moyen est de 35 ans). - L’inspection des données
L’inspection des données consiste à inspecter les informations au niveau des données ou du rang pour identifier les informations problématiques et les filtrer ; par exemple, des doublons ou des données invalides. Suite à cette inspection, les données sont marquées d’un repère en vue d’une nouvelle inspection ou d’un traitement supplémentaire. Les systèmes d’inspection des données utilisent les données qui ne sont pas conformes afin de les empêcher d’avoir des répercussions indésirables sur les processus en aval et leur utilisation dans des applications. - La surveillance des données
La surveillance des données fait appel à des règles préétablies pour évaluer en continu la qualité des données afin de garantir leur validité ou de les marquer d’un repère quand elles ne sont pas conformes aux normes ou qu’il leur manque des attributs.
La qualité des données a des conséquences pour tous les domaines des opérations d’une entreprise.
Toutes les parties de l’entreprise génèrent des données, travaillent avec elles et en dépendent. De ce fait, il est impératif d’assurer la qualité des données. Toute organisation peut parvenir à un haut niveau de qualité des données ; il s’agit simplement de profiter des outils qui existent puis de définir des orientations et des protocoles et de les faire appliquer. Il a été démontré à plusieurs reprises que le travail et les dépenses nécessaires pour obtenir des données de première qualité apportaient un excellent retour sur investissement.