Formation Spark Python

Formation Spark Python

Manipulez et exploitez facilement des centaines de Go de données grâce à Spark et Python !

Prix (Formation inter-entreprise)

2200€ HT / personne

Durée

3 jours

Dates

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

Lors de cette formation Spark avec python, vous apprendrez à traiter d'énormes volumes de données, de l’ordre de centaines de Go et plus, là où les outils classiques (Excel, Pandas, python) montrent leurs limites. Vous serez en mesure de nettoyer, transformer, et agréger ces données pour les rendre utiles à des fins de business intelligence.

Vous découvrirez les concepts fondamentaux de Spark :
- exploiter les dataframes,
- gérer le parallélisme,
- traiter les données en batch et en temps réel,
- exploiter les meilleures pratiques et les anti-patterns dans un paradigme big data,
- déployer de telles applications sur le cloud.

Vous apprendrez notamment à utiliser ces connaissances dans un contexte de machine learning.

Tout au long de la formation, vous mettrez en pratique les notions étudiées dans des cas concrets :
- lecture et analyse de données batch depuis un cloud,
- data analyse sur des gros volumes,
- traitement de données en temps réel.

Les objectifs

  • Comprendre les concepts fondamentaux de Spark et du calcul distribué
  • Manipuler et analyser des dataframes
  • Effectuer de l’analyse temps réel avec Spark Streaming
  • Effectuer du machine learning avec Spark MLlib
  • Déployer une application Spark

Pré-requis

  • niveau intermédiaire en Python
  • Ordinateur portable à apporter

Le programme de la formation Spark Python

Jour 1 : Découverte de Spark, premières opérations

  • Comprendre dans quels cas utiliser et ne pas utiliser Spark
  • Appréhender le fonctionnement global de Spark et du calcul distribué
  • Découvrir le principe de lazy evaluation
  • Utiliser les transformations de base : map, flatmap, filter, groupby, join
  • Connaître les actions de base : save, collect, count, show
  • Lire, transformer et sauvegarder des dataframes en mode batch

Mises en pratique :
- Configurer un environnement de développement big data
- Analyser des données de transport aérien avec les fonctions de base Spark

Jour 2 : Spark streaming

  • Découvrir les cas d’application de traitements temps réel
  • Transposer les principes des opération batch au traitement de données en temps réel (streaming)
  • Transformer des données avec une latence faible (~1 seconde)
  • Gérer les cas spécifiques aux cas d’usage en temps réel :
    • Late data
    • Triggers
    • Agrégation par fenêtre

Mises en pratique :
- Créer un flux de données streaming
- Traiter des données IoT (internet of things) d’un capteur d’ouverture/fermeture de porte, et des données financières d’achat et vente d’action en temps réel
- Sauvegarder des données dans AWS

Jour 3 : Optimisation, déploiement et Spark ML

  • Optimisation, déploiement et Spark ML
  • Optimiser des jobs Spark grâce à des bonnes pratiques
  • Économiser des coûts de ressources en évitant les anti-patterns
  • Comprendre l’utilité de Spark dans l’intelligence artificielle
  • Utiliser les fonctions machine learning de Spark (Spark MLlib) :
    • Estimator
    • Transformer
    • Pipeline
  • Les différentes approches pour déployer une application Spark

Mises en pratique :
- Développer une pipeline de machine learning pour prédire la survie des passagers du Titanic
- Prédire le churn de clients d’une entreprise
- Déployer une application Spark sur AWS

Télécharger le programme

Le(s) formateur(s)

Hervé COSTIL

Hervé COSTIL

Hervé Costil est un développeur expérimenté qui maîtrise Apache Spark depuis plus de sept ans. Son parcours l’a amené à explorer le développement web (JavaScript, web services) ainsi que l’urbanisme numérique.

Hervé s'épanouit désormais particulièrement dans la transmission de son savoir. Il vous accompagnera de manière pédagogique grâce à son approche qui repose sur des ateliers concrets et un fil rouge.

Voir son profil détaillé

Quentin VILLOTTA

Quentin VILLOTTA

Quentin Villotta est un professionnel de la data et de l’humanitaire, alliant expertise technique et engagement social.

Après huit ans d’expérience en tant que Data Engineer et Data Scientist dans le conseil auprès de grands groupes français, il se tourne en 2020 vers l’humanitaire ainsi que l’enseignement et la formation.

Depuis, il met ses compétences au service d’ONG pour renforcer l’efficacité des réponses aux crises grâce à l’analyse et à la gestion des données.

En parallèle, il enseigne et forme au Big Data, intervenant auprès d’étudiants en master et de professionnels afin de les accompagner dans leur montée en compétences dans les métiers de la data.

Grâce à une approche pédagogique centrée sur l’humain, favorisant l’interaction et l’équilibre entre concepts théoriques et applications pratiques, Quentin vous accompagnera efficacement dans votre montée en compétences.

Voir son profil détaillé

A propos de Human Coders

Human Coders c'est un centre de formation pour développeurs avec :

  • une certification Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • de nombreux clients qui nous font confiance depuis des années
  • un manifeste pour garantir des formations à taille humaine, des formateurs passionnés, de véritables workshops...
  • 154 formations au catalogue, 1629 sessions depuis nos débuts en 2012 avec une moyenne de satisfaction de 4,6/5
  • la possibilité de vous proposer un accompagnement personnalisé ou du conseil après la formation

1 témoignage

Formation très claire. L'échange était facilité par le formateur.

Formation très claire. L'échange était facilité par le formateur.

Besoin d'aide ?

Vous souhaitez discuter avec nous à propos de votre projet de formation ?
Vous voulez plus d'information sur une formation ou notre fonctionnement ?


Rappel Email

Nos forces

  • Des formations à taille humaine
  • Des formateurs passionnés
  • Des véritables workshop
Accéder au Manifeste

Nos clients

Formation Spark Python

Manipulez et exploitez facilement des centaines de Go de données grâce à Spark et Python !

Formation Spark Python

Lors de cette formation Spark avec python, vous apprendrez à traiter d'énormes volumes de données, de l’ordre de centaines de Go et plus, là où les outils classiques (Excel, Pandas, python) montrent leurs limites. Vous serez en mesure de nettoyer, transformer, et agréger ces données pour les rendre utiles à des fins de business intelligence.

Vous découvrirez les concepts fondamentaux de Spark :
- exploiter les dataframes,
- gérer le parallélisme,
- traiter les données en batch et en temps réel,
- exploiter les meilleures pratiques et les anti-patterns dans un paradigme big data,
- déployer de telles applications sur le cloud.

Vous apprendrez notamment à utiliser ces connaissances dans un contexte de machine learning.

Tout au long de la formation, vous mettrez en pratique les notions étudiées dans des cas concrets :
- lecture et analyse de données batch depuis un cloud,
- data analyse sur des gros volumes,
- traitement de données en temps réel.

Les objectifs

  • Comprendre les concepts fondamentaux de Spark et du calcul distribué
  • Manipuler et analyser des dataframes
  • Effectuer de l’analyse temps réel avec Spark Streaming
  • Effectuer du machine learning avec Spark MLlib
  • Déployer une application Spark

Pré-requis

  • niveau intermédiaire en Python
  • Ordinateur portable à apporter

Le programme de la formation Spark Python

Jour 1 : Découverte de Spark, premières opérations

  • Comprendre dans quels cas utiliser et ne pas utiliser Spark
  • Appréhender le fonctionnement global de Spark et du calcul distribué
  • Découvrir le principe de lazy evaluation
  • Utiliser les transformations de base : map, flatmap, filter, groupby, join
  • Connaître les actions de base : save, collect, count, show
  • Lire, transformer et sauvegarder des dataframes en mode batch

Mises en pratique :
- Configurer un environnement de développement big data
- Analyser des données de transport aérien avec les fonctions de base Spark

Jour 2 : Spark streaming

  • Découvrir les cas d’application de traitements temps réel
  • Transposer les principes des opération batch au traitement de données en temps réel (streaming)
  • Transformer des données avec une latence faible (~1 seconde)
  • Gérer les cas spécifiques aux cas d’usage en temps réel :
    • Late data
    • Triggers
    • Agrégation par fenêtre

Mises en pratique :
- Créer un flux de données streaming
- Traiter des données IoT (internet of things) d’un capteur d’ouverture/fermeture de porte, et des données financières d’achat et vente d’action en temps réel
- Sauvegarder des données dans AWS

Jour 3 : Optimisation, déploiement et Spark ML

  • Optimisation, déploiement et Spark ML
  • Optimiser des jobs Spark grâce à des bonnes pratiques
  • Économiser des coûts de ressources en évitant les anti-patterns
  • Comprendre l’utilité de Spark dans l’intelligence artificielle
  • Utiliser les fonctions machine learning de Spark (Spark MLlib) :
    • Estimator
    • Transformer
    • Pipeline
  • Les différentes approches pour déployer une application Spark

Mises en pratique :
- Développer une pipeline de machine learning pour prédire la survie des passagers du Titanic
- Prédire le churn de clients d’une entreprise
- Déployer une application Spark sur AWS

Télécharger le programme

Le(s) formateur(s)

Hervé COSTIL

Hervé COSTIL

Hervé Costil est un développeur expérimenté qui maîtrise Apache Spark depuis plus de sept ans. Son parcours l’a amené à explorer le développement web (JavaScript, web services) ainsi que l’urbanisme numérique.

Hervé s'épanouit désormais particulièrement dans la transmission de son savoir. Il vous accompagnera de manière pédagogique grâce à son approche qui repose sur des ateliers concrets et un fil rouge.

Voir son profil détaillé

Quentin VILLOTTA

Quentin VILLOTTA

Quentin Villotta est un professionnel de la data et de l’humanitaire, alliant expertise technique et engagement social.

Après huit ans d’expérience en tant que Data Engineer et Data Scientist dans le conseil auprès de grands groupes français, il se tourne en 2020 vers l’humanitaire ainsi que l’enseignement et la formation.

Depuis, il met ses compétences au service d’ONG pour renforcer l’efficacité des réponses aux crises grâce à l’analyse et à la gestion des données.

En parallèle, il enseigne et forme au Big Data, intervenant auprès d’étudiants en master et de professionnels afin de les accompagner dans leur montée en compétences dans les métiers de la data.

Grâce à une approche pédagogique centrée sur l’humain, favorisant l’interaction et l’équilibre entre concepts théoriques et applications pratiques, Quentin vous accompagnera efficacement dans votre montée en compétences.

Voir son profil détaillé

A propos de Human Coders

Human Coders c'est un centre de formation pour développeurs avec :

  • une certification Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • de nombreux clients qui nous font confiance depuis des années
  • un manifeste pour garantir des formations à taille humaine, des formateurs passionnés, de véritables workshops...
  • 154 formations au catalogue, 1629 sessions depuis nos débuts en 2012 avec une moyenne de satisfaction de 4,6/5
  • la possibilité de vous proposer un accompagnement personnalisé ou du conseil après la formation

1 témoignage

Formation très claire. L'échange était facilité par le formateur.

Formation très claire. L'échange était facilité par le formateur.

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012