CESI École de Formation des Managers

Collecte et traitement des flux de données

Pour qui ?

Informaticiens (techniciens, administrateurs systèmes et/ou réseaux, informaticiens d'études, etc.)

Pré requis

Avoir suivi le module "Ecosystème Hadoop" ou avoir les connaissances équivalentes

Niveau d'entrée

BAC+1

BAC+2

BAC+3

BAC+4

BAC+5/6

Durée

4 jours (dont 4 jours en présentiel)

Enseignement

Formation continue
La formation est partagée entre temps présentiel et apports en distanciel. Les jours initialement prévus en présentiel peuvent également être assurés 100% à distance selon les dates et les campus.

Codes

WEB : INF240

Frais de formation

Ce module est une composante du programme du bloc de compétences racine.

Comprendre, mettre en place et dimensionner un pipeline de traitement de données en temps réel

Présentation

- Formation pratique qui permet d'acquérir le vocabulaire "temps réel" pour travailler avec les interlocuteurs métiers.
- De nombreux exemples permettent de s'exercer sur plusieurs outils pour effectuer des traitements Big Data.

Atouts pédagogiques

Objectifs

Acquérir le vocabulaire temps réel pour travailler avec les interlocuteurs métiers systèmes et réseaux
Comprendre, mettre en place et dimensionner un pipeline de traitement de données en temps réel

Programme de la formation

Ce module est capitalisable dans les blocs de compétences suivants :

Partie pédagogique

Traitement temps réel

  • Définitions
  • Enjeux
  • Cas d’utilisation

Data Stream

Architecture de streaming

  • Présentation de l’architecture streaming
  • Définitions des couches : collecte, agrégation, traitement, stockage …
  • Positionnement des composants logiciels Kafka,  Spark

Kafka

  • Principe des systèmes de message (broker)
  • Principaux modèles du marché
  • Modèle pub-sub
  • Architecture interne de Kafka
  • Installation
  • Création de Topics, envoi et réception de messages
  • Implémentation d’un programme (Java ou python) d’envoi et de consommation de messag

Spark

  • Rôle et fonctionnement de Spark : présentation des bibliothèques de transformation et d’action, concept de RDD (Resilient Distributed Dataset), etc.
  • API de Spark : Spark Core, Spark ML, etc.
  • Hadoop et Apache Spark
  • Installation de Spark sur un nœud et lancement d’un programme de lecture/écriture accédant à HDFS (WordCount)
  • Installation de Spark sur plusieurs nœuds (à l’aide du gestionnaire de clusters intégrés) et comparaison des performance

Travaux Pratiques "Temps Réel"

  • Acquisition de données via l’API de streaming Twitter (ou génération de données pour simuler le streaming)
  • Envoi des données dans Kafka
  • Création d’un consommateur de données Spark
  • Traitement de comptage avec Spark

L'évaluation

Diplôme

Modalités d'admission

Admission dans le cadre du bloc de compétences.
La décision d’admission est communiquée au candidat sous un mois par CESI.

Pour plus d’informations concernant l’admission, rendez-vous sur le site CESI École de Formation des Managers ou contactez le campus souhaité pour connaître les places disponibles.