Big Data Engineering

Le Big Data pour de meilleures décisions avec une approche data-driven. Avec l’augmentation des données devant être traitées chaque jour, des contraintes réglementaires et la nécessité de tirer profit de cette masse de données, il est impératif de mettre en place une stratégie de Data Management pour rester compétitif. 

Notre approche.

Être data-driven

  • Le Big Data est source de nombreux défis technologiques mais il offre à terme la possibilité de prendre de meilleures décisions basées sur l’analyse de données. Notre expertise Big Data vous accompagne dans votre démarche :
  • EChoisir les technologies les plus adaptées à vos besoins.
  • EVous aider dans la migration d’un SI traditionnel vers le Big Data.
  • EMettre en place des transformations efficaces de vos données afin de réduire vos coûts d’infrastructures que ce soit on-premise ou dans le Cloud.
  • ERendre disponible le plus rapidement possible la donnée à des fins d’analyse et de restitution.
  • EFormer vos collaborateurs aux nouveaux outils Big Data.
Marouane Ouerhani

Marouane Ouerhani

Manager de l'expertise Big Data Engineering

Tu es passionné ?
Nous aussi !

Alors rejoins-nous.

Nos autres expertises Beyond Data

Pourquoi passer par un cabinet de conseil Big Data?

Qu’est-ce que le Big Data ?

Le Big Data est né de l’explosion de la quantité de données générées grâce à Internet à la fin du XXème siècle. Des entreprises comme Yahoo ou Google ont alors dû adopter de nouvelles techniques pour collecter, stocker, partager, traiter et analyser ces données.

Les spécialistes définissent la notion de Big Data à partir de la règle des 5Vs :

  • Volume : La quantité de données générées par unité de temps. Celle-ci est la principale caractéristique du Big Data. Chaque minute nous générons bien plus de données que ce qui a été généré globalement au cours du XXème siècle.
  • Vélocité : La vitesse à laquelle les données se déplacent, sont collectées et sont analysées. Un tweet peut être reçu et analysé en quelques millisecondes. Les places financières peuvent alors réagir en des temps records à une annonce.
  • Variété : Les données peuvent prendre des formes diverses comme du texte, des images, du son, de la vidéo… Auparavant, les données étaient très structurées et pouvaient facilement rentrer dans des bases de données traditionnelles.
  • Véracité : L’exactitude, la fiabilité et la crédibilité des données Big Data laissent souvent à désirer. La véracité reste l’un des principaux enjeux du Big Data.
  • Valeur : La notion de valeur, c’est-à-dire l’obtention d’un profit à partir de la donnée brute est le but du Big Data.

 

En termes de technologie, le big Data reste bien souvent synonyme d’Hadoop.

Qu’est-ce qu’Hadoop ?

Hadoop est le principal framework logiciel permettant de faire du Big Data. C’est un projet open source écrit majoritairement en Java et géré par l’Apache Software Foundation. La principale distribution est celle de notre partenaire Cloudera.

Depuis la version 2 d’Hadoop, ses trois principaux piliers sont :

  • HDFS : Hadoop Distributed File System est le système de stockage distribué d’Hadoop. Il repose sur une architecture maître – esclave. Le nœud appelé Namenode est le serveur principal qui gère la distribution des données sur les autres nœuds appelés Datanodes. Les données sont en général écrites sur plusieurs datanodes pour ne pas perdre de données en cas de défaillance d’un serveur.
  • MapReduce : C’est un framework de traitement de données sur un cluster. Il consiste à distribuer les traitements entre plusieurs nœuds du cluster (étape Map). Puis à réduire les résultats de chaque nœud en une synthèse (Reduce). Là encore, si un nœud du cluster est défaillant et ne redonne pas de réponse pour une tâche, le nœud principal pourra automatiquement réassigner cette tâche à un autre nœud du cluster.
  • Yarn (Yet another resource manager) : C’est le composant du système Hadoop qui alloue les ressources du cluster (les CPUs et la mémoire) aux applications. Il gère des files d’attente et la planification.

 

L’un des principaux avantages d’Hadoop est qu’il permet d’utiliser des serveurs low-costs, standards avec un excellent rapport performance/prix. Il est bien moins cher d’acheter un cluster de 100 serveurs low-costs qu’un unique gros serveur disposant d’autant de mémoire, de cores et de capacité de stockage. De plus, il est possible d’ajouter ou d’enlever des serveurs d’un cluster Hadoop pour l’adapter aux besoins au fil des ans. Enfin, un cluster Hadoop gère parfaitement la perte brutale d’un serveur en plein traitement.