PREMIERS PAS AVEC APACHE SPARK

Date

23/04/2019

}

Heure

19:15

lieu

Invivoo

inscription

Contact

Présentation

Dans un écosystème Big Data open source très riche, Apache Spark a réussi à se positionner comme la technologie de traitement de données Big Data la plus performante.

Dix ans après la sortie de sa première version, Spark continue à impressionner avec une puissance de calcul distribué inégalée. Mais derrière les chiffres ahurissants se cache un ensemble de modules sophistiqués qui sont les vrais magiciens de Spark. Catalyst, Spark SQL, ou même Tungsten ne sont que quelques éléments d’une longue liste de composants Spark. Des composants grâce auxquels Spark a pu établir en 2014 un record mondial en matière de tri à grande échelle.

Durant cette formation nous allons découvrir comment Spark arrive à battre de tels records de performance, et nous allons ensuite effectuer une première prise en main de l’outil.

    Programme

    1. Introduction à Apache Spark
    • L’histoire d’Apache Spark
    • Apache Spark : Vue d’ensemble
    • Les modules d’Apache Spark
    2. Les APIs Data
    • Les RDDs
    • Les Dataframes
    • Les Datasets
    3. Spark SQL
    • Jobs, stages, tasks
    • Comprendre les shuffles
    • Catalyst Optimizer
    4. Ecrire et lancer son premier job Spark
    • Où lancer Spark ?
    • L’API PySpark
    • Demo

    Que vais-je apprendre ?

    • Comprendre le mécanisme de fonctionnement d’Apache Spark
    • Comprendre les caractéristiques des différents modules d’Apache Spark
    • Avoir une idée sur les différentes APIs offertes par Apache Spark
    • Apprendre comment mettre en place un cluster Spark et comment lancer des jobs Spark
    • Avoir une idée sur les process d’optimisation utilisés par Apache Spark
    • Ecrire et lancer un job PySpark
    Mahdi Karabiben

    Mahdi Karabiben

    Consultant Big Data

    Ingénieur en génie logiciel diplômé de l’INSAT en 2018, Mahdi a commencé depuis sa première année d’études à explorer le monde du Big Data.

    En 2017, il a remporté le premier hackathon de Data Journalism en Tunisie grâce à sa visualisation « US Investment In Tunisia ». Ensuite il a été recruté par l’ONG DemocracyInternational au sein de laquelle il a développé la première plate-forme d’open-data en Tunisie, en utilisant des technologies comme D3.js et Tableau.
    En 2018, il a effectué son projet de fin d’études au sein de l’entreprise 1000mercis à Paris où il a conçu et mis en place un pipeline de données massives basé sur des technologies Big Data, notamment Apache Airflow, Spark, et Apache Zeppelin. Depuis novembre 2018, Mahdi est l’un des consultants Big Data d’INVIVOO où il participe à la mise en place des architectures Big Data conçues pour les acteurs financiers.

    inscription

    Workshop APACHE SPARK

    informations pratiques

    }

    durée

    1x2h

    Niveau

    Initiation

    v

    Langue

    Français