L’Architecture Big Data : Commission Data d’Open NC
La commission Data du cluster Open NC a été créée en 2022 en Nouvelle-Calédonie. Son but est de promouvoir les métiers de la Data et de faciliter le partage des connaissances entre les acteurs du secteur privé et public. Cela permet d’éviter les doublons dans les recherches et d’encourager l’exploration de nouveaux sujets. L’assemblée de juillet 2023 avait pour objectif de présenter le sujet d’architecture Big Data. 4 participants de différentes structures (Cafat, BCI, APID, Skazy) ont présenté ce sujet.
Big Data : Principe et définitions
Les notions de base du Big Data
La notion de Big Data est apparue à la fin des années 90, principalement en raison de deux facteurs essentiels : la réduction significative des coûts de stockage et la démocratisation d’Internet. Cette conjoncture a ouvert la voie à l’émergence de nouvelles applications révolutionnaires. Par exemple les réseaux sociaux, le streaming, la digitalisation des entreprises, ainsi que l’IOT (Internet des objets)…
Ces avancées technologiques ont entraîné une augmentation exponentielle du volume, de la diversité et de la complexité des données disponibles. Créant ainsi ce que l’on appelle le Big Data. Les données deviennent de plus en plus nombreuses, variées et massives, posant de nouveaux défis en matière de gestion et d’exploitation de l’information.
Ainsi, le Big Data représente une révolution majeure dans l’ère numérique, avec un potentiel immense pour améliorer la prise de décision. Mais aussi la personnalisation des services, la compréhension des tendances et des comportements, ainsi que le développement de nouvelles opportunités commerciales et scientifiques.
La règle des 3V
La notion de Big Data est régie par la règle des 3V, qui met en évidence trois caractéristiques clés des données volumineuses :
- Volume : les données sont en constante augmentation et atteignent aujourd’hui des niveaux massifs, parfois mesurés en pétaoctets (1015 octets) ;
- Vélocité : les données sont générées à une vitesse toujours croissante, créant ainsi des flux de données de plus en plus rapides ;
- Variété : les sources et types de données se diversifient sans cesse, allant des médias traditionnels tels que l’image, le son et le texte, aux données plus complexes comme le géo-spatial, les RFID, les dispositifs de l’IoT et les API, entre autres.
Outre ces 3V, d’autres aspects du Big Data méritent d’être mentionnés :
- Véracité : l’intégrité des données devient un enjeu majeur étant donné le volume considérable des informations, rendant difficile la vérification manuelle de la validité de chaque indicateur ;
- Valeur : l’implémentation de solutions Big Data peut s’avérer coûteuse ; il est donc primordial de s’assurer qu’elles apportent une réelle valeur ajoutée aux projets et aux entreprises ;
- Vertu : les technologies du Big Data ont un impact environnemental significatif en termes de consommation de ressources. La sobriété dans le traitement des données, en ne manipulant que celles nécessaires, est essentielle. De plus, la gestion de la confidentialité des données (notamment les données sensibles et personnelles) et le respect des réglementations telles que le RGPD sont d’une importance capitale. »
L’Architecture Big Data
L’architecture du Big Data repose sur plusieurs couches clés pour gérer efficacement les données massives :
- Collecte : Elle consiste à recueillir en continu des données brutes provenant de diverses sources (fichiers, bases de données, cloud, web, API, IoT, etc.) avec des débits élevés ;
- Transport : Cette couche assure une mise en tampon des données pour gérer des débits de production et de consommation différents, ainsi que pour garantir la rétention et la sécurité des données ;
- Stockage froid : Ici, les grandes quantités de données sont stockées et traitées, en assurant leur sécurité et intégrité.
- Stockage chaud : Ce type de stockage permet d’éviter les contraintes imposées par les bases de données traditionnelles et offre des temps d’accès très rapides.
- Dataviz : Les données, qu’elles proviennent du stockage froid ou chaud, peuvent être envoyées vers des solutions de data visualization pour afficher des indicateurs sous différentes formes aux utilisateurs.
- Data science : Les données peuvent également être envoyées vers des modèles de Data Science utilisant des outils d’intelligence artificielle pour effectuer des analyses explicatives ou prédictives.
Une autre notion importante est la scalabilité. Les données sont tellement massives et arrivent et croissent tellement vite qu’il est nécessaire de mettre en place des architectures redimensionnables efficacement. Augmenter les ressources d’une seule machine ne permet pas d’avoir un gain de performance linéaire. Il est donc indispensable d’utiliser des technologies qui peuvent être déployées en cluster, c’est-à-dire plusieurs machines en parallèle qui se partagent la charge de travail.
La présentation s’est déroulée au business center OoTECH lors de laquelle toutes ces notions ont été approfondies. Un déjeuner a ensuite permis de continuer les échanges sur le roof top.
→ Chez Skazy, nos équipes maîtrisent toutes les briques essentielles de l’architecture Big Data et peuvent vous accompagner dans la mise en place de projets de cette envergure. Contactez nos experts !