Article

Qu’est-ce que la gestion des données : Définition, importance et difficultés

ComplianceProductivity
Temps de lecture : 15 minutes

Les programmes et solutions de gestion des données sont intéressantes tant pour les utilisateurs que les administrateurs. Qu’il s’agisse de retirer le maximum de profit des données ou d’assurer la conformité aux réglementations , une stratégie de gestion des données permet et améliore de nombreuses fonctions dans l’entreprise.

Qu’est-ce que la gestion des données ?

La gestion de données est un vaste domaine de pratique. Son objet est d’aider les entreprises à s’assurer que les données structurées et non structurées de diverses provenances sont correctement traitées, de façon à être accessibles à des utilisateurs autorisés (le personnel, les systèmes et les applications). Elle regroupe tout un ensemble de processus, de politiques et de procédures applicables aux données. Et notamment :

  • L’archivage et la destruction, conformément aux modalités de conservation et aux obligations de conformité ;
  • La collecte, la validation, l’incorporation, le traitement, l’organisation, la conservation et la maintenance des données ;
  • La confidentialité ;
  • L’administration de l’utilisation et de l’accès aux données pour tous les utilisateurs ;
  • L’Intégration de types de données différentes de sources disparates ;
  • Le maintien de la disponibilité des données pour des utilisations au jour le jour et en cas de rétablissement après sinistre.

La gestion de données fait appel à plusieurs fonctions qui travaillent de concert pour que les données soient accessibles, exactes et disponibles.

La gestion des données comporte six étapes :

  1. Concevoir et développer une architecture des données qui détaille les types et la configuration des répertoires de stockage de données et des systèmes correspondants ;
  2. Créer des modèles de données représentant les flux de tâches, les relations entre données et leur interdépendance, pour des cas d’utilisation différents ;
  3. Saisir les informations dans un répertoire de données au fur et à mesure qu’elles sont générées et traitées ;
  4. Intégrer les données provenant de systèmes disparates dans un entrepôt de données ou « lac » de données, pour analyse ;
  5. Procéder à des contrôles de qualité des données identifier et corriger les erreurs et les problèmes d’homogénéité ;
  6. Mettre en œuvre une gouvernance des données, comprenant l'instauration de définitions des données et de règles d’usage.

Les types de gestion des données

Le champ d’application de la gestion de données est très étendu. Les programmes comportent de nombreux éléments. Citons :

La gestion du big data

S’assurer que les bons outils et systèmes sont en place pour collecter et traiter le big data fait partie de la gestion des données. Et notamment des solutions d’intégration, de stockage des données et d’analyse, optimisées pour le big data.

L’architecture des données

Un aspect fondamental d’une gestion des données efficace est de prendre le temps de créer une architecture (ou représentation structurée) des données qui réponde aux besoins de l’organisation. Sur cette architecture seront représentés les biens et l’infrastructure en données de l’entreprise (par exemple les bases de données, les lacs de données, les entrepôts de données et les serveurs), ainsi que les indications pour gérer les flux de données. Elle représente également les biens en données de l’entreprise et offre un modèle de création et de gestion du flux de données.

Les catalogues de données

Les catalogues de données stockent et organisent les données en fonction d’informations en arrière-plan appelées « métadonnées », qu’ils utilisent pour que l’on puisse faire des recherches dans les magasins d’informations. Par exemple, les entreprises commerciales peuvent conserver des informations sur leurs stocks dans un catalogue de données et joindre une étiquette aux saisies afin de faciliter l’accès à des informations sur les produits.

La gouvernance des données

La gouvernance des données est une aide à la gestion des données car elle apporte des règles et des procédures qui permettent aux organisations de gérer l’accès aux données, leur intégrité, leur sécurité et leur utilisation.

Les intégrations de données

Les intégrations de données sont utilisées pour extraire des données disparates issues de sources différentes et les placer dans un répertoire unique.

La gestion du cycle de vie des données

La gestion du cycle de vie des données fait partie de la gestion de données. Elle permet d’assurer une surveillance de la collecte à l’effacement, et de rédiger des règles pour chacune des étapes.

La migration des données

La gestion de données inclut les processus utilisés pour déplacer les données d’un répertoire à un autre. Les outils de migration des données permettent de réduire les erreurs et les problèmes de formatage.

La modélisation des données

La modélisation des données sert à créer des représentations visuelles des flux de données et des relations entre différents types de données pour répondre aux besoins des équipes de gestion.

Les pipelines de données

Les pipelines de données servent à transférer automatiquement les informations entre les systèmes.

Le traitement des données

Pendant la phase de traitement des données de la gestion de données, les données brutes provenant de sources diverses (par exemple des appareils connectés, des applications mobiles, des capteurs et des API (interfaces de programmation d’applications) du web sont incorporées et agrégées, filtrées, fusionnées et exportées au format souhaité pour un utilisateur.

Gestion de la qualité des données

Les contrôles de gestion de la qualité des données veillent à l’exactitude, la fiabilité et l’homogénéité des informations. Dans le cadre de la gestion des données, les ensembles de données, nouveaux et anciens, sont passés en revue pour vérifier que les normes de qualité des données sont atteintes. Voici quelques-unes des questions auxquelles ils répondent :

  • Y a-t-il une information manquante ou l’enregistrement est-il complet ?
  • L’information répond-elle aux critères de qualité ?
  • L’information est-elle exacte ?
  • Le formatage est-il le même d’un système à l’autre ?

La sécurité des données

La gestion de données s’assure que tous les aspects de la sécurité des données sont en place, y compris ceux qui servent à :

  • Authentifier et autoriser les utilisateurs ;
  • Faire appliquer des contrôles d’accès aux données ;
  • Faire en sorte que les données conservées adhèrent à toutes les obligations réglementaires ;
  • Prévenir les déplacements ou suppressions accidentels de données ;
  • Prévenir les accès non autorisés aux données, la corruption et le vol de données ;
  • Protéger les données sur les systèmes internes et externes, y compris les appareils électroniques personnels ;
  • Sécuriser l’accès aux réseaux ;
  • Vérifier que les centres de données respectent les obligations de sécurité établies.

Le stockage des données

Fondamental dans la gestion de données, le stockage des données consiste à sauvegarder les données en toute sécurité avant et après leur traitement. Le système de stockage dépend du type et de la destination des données (par exemple un lac de données pour les données non structurées ou un entrepôt de données structurées).

L’importance de la gestion des données

Dans une organisation, chaque fonction a besoin de pouvoir accéder sans problème à des données de qualité. C’est le rôle de la gestion des données : elle apporte un certain nombre d’avantages qui en font une partie importante des outils opérationnels de l’entreprise.

En plus de sa fonction première qui est d’assurer l’accessibilité, l’exactitude et la disponibilité des informations, la gestion de données est importante également pour les raisons suivantes :

  • Elle aide à respecter les obligations de conformité imposées par les réglementations sur la confidentialité et la protection des données ;
  • Avoids data collection violations, such as those set forth by the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA), that can lead individuals to seek legal recourse for infractions, including:
  • Elle élimine le compartimentage des données incompatibles et les interdépendances de données grâce à des intégrations entre des propriétaires de données, ensembles de données et fonctions disparates (par exemple les services financiers, les ressources humaines, le marketing et les ventes) ;
  • Elle élimine les ensembles de données hétérogènes et les problèmes de qualité des données, qui sapent le produit des applications de veille économique (VE) et d’analytique en offrant des résultats d’analyse des données moins fiables ;
  • Elle simplifie la vie des clients, qui bénéficient d’interactions plus rationnelles, d’une personnalisation et d’une adéquation à leurs besoins ;
  • Elle améliore la collaboration entre les groupes en les aidant à créer une vue centralisé des données entre ensemble de données ;
  • Elle augmente le chiffre d’affaires en rendant l’analytique plus efficace et plus exacte dans les éclairages qu’elle peut donner pour optimiser les opérations, réduire les coûts et accroître les bénéfices ;
  • Elle réduit l’exposition aux menaces de violation de données, et aux risques de violation de la vie privée, qui peuvent donner lieu à des amendes, des litiges au niveau juridique, une publicité négative et une atteinte durable à la réputation ;
  • Elle aboutit à une meilleure efficacité opérationnelle, à la connaissance des tendances et à une meilleure prise de décision, qui peuvent conférer aux entreprises un avantage compétitif sur leurs concurrents ;
  • Elle permet de prendre en charges des volumes considérables de données structurées et non structurées, qu’elle empêche de devenir ingérables et inextricables.
  • Le recueil d’informations sans consentement ;
  • Le maintien de données après une demande d’effacement ;
  • L’exercice d’un mauvais contrôle sur l’emplacement et l’utilisation des données.

Les difficultés posées par la gestion des données

À la racine des nombreux problèmes qui se posent aux organisations pour gérer les données, la diversification incessante, la rapidité et le volume de données mises à leur disposition et qu’elles génèrent est une difficulté majeure. Voici quelques-unes des difficultés les plus souvent citées.

Les difficultés du traitement des données pour analyse

Le volume et la disparité de formats des données font du traitement un casse-tête de la gestion de données. Les données non structurées sont particulièrement problématiques. Toutefois, la lenteur ou les limites du traitement empêche l’utilisation des données pour des fonctions d’analyse de valeur.

La création de compartimentage des données

Les processus de gestion des données s’efforcent d’empêcher le compartimentage des données. Mais cela s’avère de plus en plus difficile au fur et à mesure que les volumes augmentent et que de nouveaux systèmes sont ajoutés aux anciens.

La difficulté à maintenir des niveaux de délai d’intervention élevés pour les consultations de données

Les gestionnaires des données ont souvent du mal à tenir les index à jour pour y faire figurer les modifications dans les consultations de données et éviter que cela ne nuise à la performance.

L’impossibilité de suivre le rythme des obligations de conformité qui ne cessent de changer par rapport à la gestion des données

Des lois, réglementations professionnelles et autres obligations imposées à la gestion de données sont constamment édictées et modifiées. La plupart sont complexe et souvent multijuridictionnelles, et faire en sorte que les pratiques de gestion des données correspondent aux règles changeantes est un vrai défi.

La difficulté de maintenir la qualité des données entre plusieurs systèmes et types de données

Le mélange de données structurées, semi-structurées et non structurées peut être difficile à intégrer et à gérer de façon coordonnée, ce qui donne souvent lieu à des ensembles de données inexacts et hétérogènes entre des systèmes de données différents.

Rester à jour dans les formations des utilisateurs

À mesure que les réglementations et les systèmes changent, il faut former les utilisateurs. Sans formation digne de ce nom, ils risquent de ne pas être en conformité, et l’adoption des nouveaux systèmes est ralentie, voire inexistante.

L’impossibilité de savoir quelles sont les données disponibles

Il n’est pas rare que les efforts de gestion des données se heurtent aux données non structurées et semi-structurées générées par des appareils connectés, des capteurs, des caméras vidéo et des médias sociaux. Une grande part de ces données est absorbée, mais il manque souvent aux systèmes de gestion des données la capacité de faire savoir aux utilisateurs quelles sont les informations disponibles, ce qui les rend véritablement inaccessibles et inutiles.

La limitation des informations des catalogues de données complique l’accès et rend les données difficiles à trouver.

Les équipes de gestion des données essaient de tenir des catalogues de données grâce à des glossaires, des dictionnaires à base de métadonnées et des élements sur l’origine des données, mais de par leur volume et leur diversité, il est difficile de le faire pour toutes les informations. Cela peut finir par gêner les utilisateurs dans leur recherche et leur accès aux données.

Il faut plusieurs systèmes pour stocker des types de données différents

Les gestionnaires de données doivent pouvoir travailler avec plusieurs types de systèmes de stockage : bases de données, entrepôts, lacs et maisons de lacs de données. En plus de pouvoir accéder à ces systèmes disparates, ils doivent avoir la possibilité de transformer les données pour les mettre rapidement aux formats dont les utilisateurs ont besoin.

Il faut sans cesse optimiser l’informatique pour obtenir le maximum d’agilité et les coûts les plus bas

Les informaticiens doivent trouver l’équilibre entre les systèmes de gestion de données hébergés sur place et les systèmes dans le cloud afin de répondre aux besoins changeants en capacités et en modularité. Il est difficile pour les équipes de faire la part des avantages et des inconvénients lorsqu’elles sont aux prises avec toutes sortes de problèmes, de la performance et des prix à la sécurité et à l’accessibilité.

Les systèmes de gestion des données

Les systèmes de gestion de données se composent de plusieurs éléments. Voici une liste des outils les plus couramment utilisés dans les programmes de gestion des données :

  • La veille économique
  • L’analyse des données (analytique)
  • Le « Data Fabric » (ou structure de données)
  • La gouvernance, la sécurité et la conformité des données
  • L’intégration des données, telle que l’ETL (extraire, transformer et charger), les mouvements de données en lots, la capture des modifications de données, la réplication, la virtualisation et l’orchestration de données
  • Les lacs de données
  • Les entrepôts de données
  • Les maisons de lacs de données
  • Les systèmes de gestion des bases de données (SGBD), tels que les systèmes de gestion des bases de données relationnels (SGBDR), les systèmes de gestion des bases de données orientés objets (SGBDOO), les bases de données en mémoire et les bases de données orientées colonnes.
  • La gestion des données de référence, qui comprend la consolidation des données, la gouvernance des données et la gestion de la qualité des données.
  • Les systèmes NoSQL (par exemple les bases de données documentaires, les bases de données clé-valeurs, les magasins à colonnes larges et les bases de données de graphiques)

La gestion des données et la confidentialité des données

La confidentialité des données est un sous-ensemble de la gestion de données qui traite de la façon dont les données à caractère personnel sont traitées pour être conformes à diverses réglementations, lois et pratiques homologuées.

Les systèmes et processus utilisés pour maintenir la confidentialité des données garantissent que des contrôles sont en place pour protéger les informations personnelles au repos et en déplacement d’un accès non autorisé et de conserver leur intégrité.

Les programmes de gestion des données garantissent que les règles de confidentialité des données se conforment aux obligations imposées pour :

  • La collecte de données ;
  • Le traitement des données ;
  • La transférabilité des données ;
  • La conservation des données ;
  • La suppression des données.

La gestion de données doit tenir compte des lois sur la confidentialité des données. Deux d’entre elles comportent des obligations strictes en la matière : le California Consumer Privacy Act (CCPA) et le Règlement général sur la protection des données de l’Union Européenne (RGPD).

Le CCPA donne aux résidents californiens le droit d’interroger les entreprises sur les données personnelles qu’elles détiennent à leur sujet, de savoir lesquelles ont été transmises à des tiers, et il oblige les organisations à les supprimer sur demande.

Le RGPD s’applique aux citoyens de l’UE et à toutes les sociétés qui exercent leur activité économique auprès d’eux. Les règles de confidentialité des données énoncées dans le RGPD couvrent des citoyens européens qui résident dans des pays qui n’appartiennent pas à l’UE. Il donne aux particuliers le droit de déterminer quelles sont les données conservées par les organisations et de réclamer leur suppression.

Pratiques homologuées de gestion des données

Les programmes efficaces de gestion des données suivent de nombreuses pratiques professionnelles reconnues. Voici celles qui sont suivies par des organisations de premier plan :

  • Créer une couche « restitution » au sommet de la couche des données pour aider les utilisateurs à trouver les données et à optimiser leur utilisabilité ;
  • Assurer l’adhésion aux obligations de conformité en utilisant des outils de restitution des données pour passer les données en revue et savoir ce qu’il faut protéger et surveiller ;
  • Faciliter une collaboration entre équipes ;
  • Tirer parti d’un environnement de sciences des données pour automatiser le travail de transformation des données, en accélérant la mise au point de modèles de données ;
  • Accorder la priorité à la gouvernance des données et à la qualité des données ;
  • Utiliser l’intelligence artificielle et le machine learning pour conserver des niveaux de performance optimale en exerçant une surveillance continue des interrogations sur le stockage des données et en améliorant les index au fur et à mesure que les requêtes changent ;

Optimiser la gestion de données pour l’entreprise.

La plupart des organisations ont besoin pour prospérer d’une solide gestion de leurs données. L’ampleur et la complexité d’un programme de gestion des données dépendra du type et de la taille de l’organisation, mais les objectifs sont les mêmes : faire en sorte que les données soient en sécurité, accessibles et dans un état optimal.