Quelles solutions pour le stockage des données massives ?

8 avril 2021 Non Par mediaslibres

Dans une entreprise, les données viennent de partout. Chaque département et chaque service possèdent leur type et leur format. Ceci sans compter les données extérieures que les clients apportent. Ce qui fait que l’entreprise se retrouve avec des quantités exorbitantes de données différentes ainsi que des bases différentes. Cette quantité ne cesse d’augmenter depuis l’avènement de la transition numérique, notamment du Big Data. Des solutions de stockage sont donc nécessaires.

Dans cet article, nous allons montrer les critères à prendre en compte lors du choix de stockage des données Big Data, les différents choix qui vous sont proposés et lequel choisir.

Comment choisir la solution adéquate ?

Afin de pouvoir choisir la solution qui correspondra à votre entreprise, vous devez connaitre certains points :

  • Quels sont les données que l’entreprise exploite ?
  • D’où proviennent les données et quels en sont les types, de quels formats ?
  • Les données sont-elles volumineuses ? Ou deviennent-elles volumineuses ?
  • À quoi servent ces données, quels sont les traitements qu’elles subissent ?
  • Qui doit accéder aux données ?
  • Est-ce qu’elles sont lues autant de fois qu’elles sont écrites ?

Une fois que vous avez répondu à ces questions, vous aurez déjà une vue d’ensemble sur le projet Big Data de votre entreprise. Vous pourriez identifier quelles sont les données qui doivent être au maximum exploitées et quelles en sont les natures. Vous aurez la possibilité d’effectuer des analyses préliminaires afin de construire l’architecture Big Data qui conviendra à votre activité. De cette architecture sortira la solution de stockage adéquate.

Il faut rappeler que le Big Data se résume avec les 3 V ce qui veut dire :

  • Vélocité : la durée de traitement doit être le plus optimisée possible ;
  • Variété: vous aurez à traiter de différents types de données allant des plus brutes aux plus structurées ;
  • Volume : les données sont d’un volume conséquent de plusieurs Téraoctets et ne cesseront d’évoluer.

Cela démontre une fois de plus qu’une technologie de stockage performant et fiable est primordiale.

Le Data Warehouse

Selon Bill H. Immon, le créateur du concept Data Warehouse, c’est un SGBDR orienté-sujet, intégré, non volatile et variable dans le temps.

En premier lieu, le terme orienté-sujet veut dire que les données sont identifiables à partir d’un sujet défini. En d’autres termes, elles peuvent traiter d’une seule application, par exemple, l’achat, la vente, le client, et.

En second lieu, le terme intégré signifie que les données doivent être homogénéisées dans le Data Warehouse. C’est-à-dire qu’il faut unifier et rendre les données provenant des différentes applications cohérentes. En effet, la façon dont chaque application et les formats peuvent varier selon les sources.

Troisièmement, le terme non volatile sous-entend que les données son non modifiables. En effet, les actions possibles sur les données d’un Data Warehouse sont la lecture seule et l’ajout de données.

Enfin, le terme variable dans le temps veut dire que toutes les données, qu’elles soient anciennes ou récentes sont toutes stockées dans le Data Warehouse. Cette particularité est utile dans le sens où l’on peut analyser ces données dans le but de prédire les potentiels changements à faire lors de la prise de décision.

Le Data Warehouse est donc une solution d’intégration des données employant le processus ETL ou Extract, Tansform an Load. Ce processus permet de regrouper les données venant de tous les départements et services de l’entreprise. Il permet également de donner accès aux données à ceux qui en ont besoin.

En pratique, les données récoltées sont stockées dans un répertoire central. Les données seront homogénéisées dans ce répertoire. Chaque métier qui a besoin d’informations ira puiser dans ce répertoire.

Pour mieux cibler les données d’un métier, le Data Warehouse est divisée en plusieurs Data Marts. Les Data Marts contiennent des données plus précises sur une seule application. Par exemple, il peut exister un Data Mart pour le service commercial, pour le service financier, etc.

Le Data Lake

Le Data Lake est une solution de stockage de données massives sous forme brute. C’est-à-dire que les données venant des différentes applications sont réunies selon le format initial dans lequel elles étaient codées. Aucune transformation au préalable n’est faite avant que les données rentrent dans le Data Lake. Ce qui veut dire que les images, les messages venant des réseaux sociaux, les vidéos, etc. restent tels qu’elles.

En gros, les données conservées dans le Data Lake peuvent être structurées, semi-structurées ou non structurées. Les Data Lake utilisent le processus ELT ce qui veut dire Extract, Load and Transform tandis que les Data Warehouse utilisent le processus ETL.

Afin de distinguer les données présentes dans un Data Lake, elles possèdent des identifiants uniques ainsi qu’un ensemble de balises de métadonnées.

Mettre en place un Data Lake est moins coûteux. Que ce soit en ressources, en temps et en argent. En effet, les données sont stockées dans des clusters de serveurs standards. Du fait que le traitement ne se fait que lorsque c’est nécessaire, les travailleurs du Big Data gagnent un temps assez conséquent. Vu que les ordinateurs ordinaires sont de moins en moins chers, l’investissement financier nécessaire baisse aussi.

En principe, le Data Lake contient plusieurs Data Mart qui sont alimentées par Hadoop. Hadoop sert aussi à historiser les données utilisées par l’entreprise. Grâce à cela, l’entreprise peut effectuer des analyses descriptives, des analyses diagnostiques, des analyses prédictives et des analyses perspectives.

Les analyses descriptives servent à connaitre les éventuels problèmes survenus à un instant donné dans l’existence de l’entreprise.

Tandis que les analyses prédictives servent à déterminer les raisons qui ont poussé l’apparition de ces problèmes.

Les analyses prédictives, quant à elles, servent à anticiper les futurs problèmes en se basant sur les analyses précédentes.

Et enfin, les analyses perspectives qui vont apporter les solutions adéquates face à ces problèmes prédéfinis.

Data Warehouse ou Data Lake ?

Comme vous venez de voir, le Data Warehouse et le Data Lake possèdent leurs spécificités. Le choix entre ces deux solutions dépendra des réponses que vous avez fournies au début de l’article. Néanmoins, nous allons voir les spécificités de chacune de ses deux solutions.

Pour le Data Warehouse, les principes sont les suivants :

  • La plupart des traitements se font en amont avec le processus ETL ;
  • Les données sont uniformisées avant de passer dans les Data Mart, elles sont donc structurées ;
  • Le désilotage et le fait de rendre les données uniformes prennent plus de temps ;
  • Le volume de données est limité par la capacité de stockage ;
  • Les données sont centralisées dans un ordinateur principal où chaque métier déverse leurs données.

Pour le Data Lake, il repose sur les principes suivants :

  • Les traitements se font plutôt en aval avec le processus ELT ;
  • Les données sont stockées dans leurs états initiaux venant de chaque application, les Data Mart sont alimentées par ces données brutes ;
  • Le volume de données stockées est illimité grâce à la baisse des coûts des matériels nécessaires ;
  • Les données sont centralisées dans un cluster Hadoop qui prend en charge la distribution vers les Data Mart.

Data Center ou Cloud ?

Le Data Center ou centre de données sur site est une installation qui se trouve au sein de votre entreprise elle-même. C’est là où est stocké l’ensemble de votre architecture Big Data. Certaines normes sont à respecter lors de l’installation d’un Data Center, comme l’étanchéité du bâtiment, la climatisation nécessaire pour éviter les surchauffes, une sécurité incendie dans le cas où cela est nécessaire, etc. Les matériels à utiliser doivent aussi être performants afin de ne pas ralentir le traitement des données.

Le Data Center est adapté aux entreprises possédant des applications propres à elles. Cela facilite la gestion en interne de ces applications. Cependant, les pannes et les entretiens matériels ou logiciels sont à votre charge. Il en va de même pour les extensions de mémoire.

Le Cloud computing, quant à lui, est un système totalement en ligne. Vous louez un certain nombre de mémoire de stockage chez un fournisseur qui vous le met à disposition selon vos besoins. Ce sera à eux de garantir la sécurité de vos données. L’espace que vous pouvez louer est quasi illimité. Les fournisseurs vous procurent également des ressources de traitement nécessaires aux analyses de vos données.

Toutefois, à moins que vous optiez pour un cloud privé, vous serez amené à partager les serveurs avec d’autres entreprises. Vos données sont tout de même protégées par des clés de chiffrement. En plus, elles seront en tout temps accessibles et seront facilement restaurées.

Pour choisir ce qui vous conviendra le mieux, vous devez de nouveau revenir aux questions posées tout en haut. Vous devez également réviser les investissements que vous pouvez vous permettre. Toutefois, rien ne vous empêche d’utiliser les deux solutions. En effet, elles peuvent être complémentaires. Vous pouvez par exemple garder certaines données hors ligne (ou du moins chez vous, dans votre propre serveur) et mettre des données qui doivent être constamment consultées sur le cloud.