Formation Python Pandas et dataframes

Formation Python Pandas et dataframes

Devenez expert en manipulation de données avec Python et Pandas pour vos projets de data science et machine learning !

Prix (Formation inter-entreprise)

2000€ HT / personne

Durée

4 jours

Dates

Nous pouvons organiser des sessions à d'autres dates ou dans d'autres villes (Bordeaux, Lille, Lyon, Marseille, Montpellier, Nantes, Nice, Paris, Strasbourg, Toulouse...)

La formation Python Pandas et la manipulation de dataframes vous permettra de maîtriser les outils essentiels pour gérer, analyser et visualiser efficacement vos données tabulaires.

À travers des ateliers pratiques et des cas concrets, vous apprendrez à utiliser Pandas et ses alternatives performantes, comme Polars, Dask ou Spark, pour manipuler des jeux de données allant des plus simples aux plus volumineux.

Cette formation vous permettra également de :
- explorer les formats de stockage modernes
- nettoyer vos données avec précision
- exploiter les capacités des systèmes CPU et GPU, y compris sur des environnements distribués.

Enfin, vous découvrirez des outils avancés tels que Datashader pour la visualisation massive, Great Expectations pour la validation de données, ou encore Streamlit et Python Shiny pour créer des tableaux de bord interactifs. À l’issue de cette formation, vous serez capable de choisir et d’appliquer les meilleures solutions pour optimiser vos projets data.


Vous cherchez un autre type de formations python ?

Nos formations suivantes pourraient alors vous intéresser !
- formation Python
- formation Python Avancé
- formation Python pour la data science
- formation Python pour la sécurité et l’administration système

Les objectifs

  • Manipuler des données tabulaires avec Pandas
  • Explorer et utiliser des alternatives à Pandas performantes (comme cuDF, Spark, Polars et Dask)
  • Traiter des volumes massifs de données sur CPU, GPU ou en cluster distribué
  • Optimiser la visualisation de données volumineuses avec des outils comme Datashader.
  • Sélectionner la meilleure librairie en fonction de vos contraintes et objectifs

Pré-requis

  • une première expérience du langage Python
  • Ordinateur portable à apporter

Le programme de la formation Python Pandas et dataframes

Jour 1: Utilisation de Pandas pour manipuler des dataframes

  • Panorama des librairies disponibles pour manipuler des dataframes
    • Sur CPU et GPU
    • Sur une ou plusieurs machines
    • Pour des données légères ou très volumineuses
  • Utilisation de pandas
    • Lire et écrire des données tabulaires (CSV, Excel, JSON, SQL...)
    • Sélection, recherche/filtres
    • Manipuler efficacement les index
    • Gérer les types texte et dates ; interpolation/agrégation avec des dates
    • Agrégations, jointures, pivots/tableaux croisés
    • Application des fonctions sur les lignes et colonnes
      • Fonctions à fenêtre glissante
    • Visualisation des données
      • avec matplotlib
      • avec seaborn
      • avec hvplot
    • Gérer la mémoire, method chaining

Mises en pratique :
- Lecture de données CSV/parquet
- Analyses multiples pour posséder toutes les finesses de la librairie

Jour 2 & 3 : Manipulation de données volumineuses avec Python

  • Les formats de stockage
    • parquet, ArticDB, DataFusion, DuckDB
  • Préparation et nettoyage des données avec DataPrep
  • Panorama et mise en œuvre des librairies alternatives
    • Polars, Spark, Dask, Daft, Ibis
  • Utilisation de Pandas et des autres librairies sur GPU et plusieurs machines
  • Visualisation de données volumineuses
    • avec Datashader
    • avec Vaex

Mises en pratique :
- Nettoyage et analyse de données de plusieurs giga octets sur une ou plusieurs machines sur CPU et GPU

Jour 3 & 4 : Découverte des alternatives à Pandas

  • Profilage de données avec YData profiling
  • Validation de données avec Great Expectations
  • Exploration de données avec PyGWalker
  • Cartographie avec GeoPandas
  • Analyse de séries temporelles avec Darts
  • Tableaux de bord
    • Streamlit
    • Python Shiny

Mises en pratique :
- Création d'un tableau de bord permettant de visualiser des données cartographiques

Télécharger le programme

Le(s) formateur(s)

Gaël PEGLIASCO

Gaël PEGLIASCO

Avec plus de 20 ans d’expérience dans le développement informatique, Gaël a débuté son parcours en créant des jeux vidéo, motivé par sa passion pour l’intelligence artificielle et le traitement d’images.

Il a appris à maîtriser des langages tels que Python, Java, et C++, consacrant 10 ans à utiliser Python, Django et Plone.

Depuis 2014, il se spécialise dans le calcul parallèle, collaborant avec des multinationales et centres de recherche pour optimiser leurs codes sur supercalculateurs.

Défenseur de l’open source, Gaël partage son expertise au travers d'articles et de formations. Désormais, il explore l’informatique quantique, et ce toujours avec Python !

Voir son profil détaillé

A propos de Human Coders

Human Coders c'est un centre de formation pour développeurs avec :

  • une certification Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • de nombreux clients qui nous font confiance depuis des années
  • un manifeste pour garantir des formations à taille humaine, des formateurs passionnés, de véritables workshops...
  • 135 formations au catalogue, 1618 sessions depuis nos débuts en 2012 avec une moyenne de satisfaction de 4,6/5
  • la possibilité de vous proposer un accompagnement personnalisé ou du conseil après la formation

Besoin d'aide ?

Vous souhaitez discuter avec nous à propos de votre projet de formation ?
Vous voulez plus d'information sur une formation ou notre fonctionnement ?


Rappel Email

Nos forces

  • Des formations à taille humaine
  • Des formateurs passionnés
  • Des véritables workshop
Accéder au Manifeste

Nos clients

Formation Python Pandas et dataframes

Devenez expert en manipulation de données avec Python et Pandas pour vos projets de data science et machine learning !

Formation Python Pandas et dataframes

La formation Python Pandas et la manipulation de dataframes vous permettra de maîtriser les outils essentiels pour gérer, analyser et visualiser efficacement vos données tabulaires.

À travers des ateliers pratiques et des cas concrets, vous apprendrez à utiliser Pandas et ses alternatives performantes, comme Polars, Dask ou Spark, pour manipuler des jeux de données allant des plus simples aux plus volumineux.

Cette formation vous permettra également de :
- explorer les formats de stockage modernes
- nettoyer vos données avec précision
- exploiter les capacités des systèmes CPU et GPU, y compris sur des environnements distribués.

Enfin, vous découvrirez des outils avancés tels que Datashader pour la visualisation massive, Great Expectations pour la validation de données, ou encore Streamlit et Python Shiny pour créer des tableaux de bord interactifs. À l’issue de cette formation, vous serez capable de choisir et d’appliquer les meilleures solutions pour optimiser vos projets data.


Vous cherchez un autre type de formations python ?

Nos formations suivantes pourraient alors vous intéresser !
- formation Python
- formation Python Avancé
- formation Python pour la data science
- formation Python pour la sécurité et l’administration système

Les objectifs

  • Manipuler des données tabulaires avec Pandas
  • Explorer et utiliser des alternatives à Pandas performantes (comme cuDF, Spark, Polars et Dask)
  • Traiter des volumes massifs de données sur CPU, GPU ou en cluster distribué
  • Optimiser la visualisation de données volumineuses avec des outils comme Datashader.
  • Sélectionner la meilleure librairie en fonction de vos contraintes et objectifs

Pré-requis

  • une première expérience du langage Python
  • Ordinateur portable à apporter

Le programme de la formation Python Pandas et dataframes

Jour 1: Utilisation de Pandas pour manipuler des dataframes

  • Panorama des librairies disponibles pour manipuler des dataframes
    • Sur CPU et GPU
    • Sur une ou plusieurs machines
    • Pour des données légères ou très volumineuses
  • Utilisation de pandas
    • Lire et écrire des données tabulaires (CSV, Excel, JSON, SQL...)
    • Sélection, recherche/filtres
    • Manipuler efficacement les index
    • Gérer les types texte et dates ; interpolation/agrégation avec des dates
    • Agrégations, jointures, pivots/tableaux croisés
    • Application des fonctions sur les lignes et colonnes
      • Fonctions à fenêtre glissante
    • Visualisation des données
      • avec matplotlib
      • avec seaborn
      • avec hvplot
    • Gérer la mémoire, method chaining

Mises en pratique :
- Lecture de données CSV/parquet
- Analyses multiples pour posséder toutes les finesses de la librairie

Jour 2 & 3 : Manipulation de données volumineuses avec Python

  • Les formats de stockage
    • parquet, ArticDB, DataFusion, DuckDB
  • Préparation et nettoyage des données avec DataPrep
  • Panorama et mise en œuvre des librairies alternatives
    • Polars, Spark, Dask, Daft, Ibis
  • Utilisation de Pandas et des autres librairies sur GPU et plusieurs machines
  • Visualisation de données volumineuses
    • avec Datashader
    • avec Vaex

Mises en pratique :
- Nettoyage et analyse de données de plusieurs giga octets sur une ou plusieurs machines sur CPU et GPU

Jour 3 & 4 : Découverte des alternatives à Pandas

  • Profilage de données avec YData profiling
  • Validation de données avec Great Expectations
  • Exploration de données avec PyGWalker
  • Cartographie avec GeoPandas
  • Analyse de séries temporelles avec Darts
  • Tableaux de bord
    • Streamlit
    • Python Shiny

Mises en pratique :
- Création d'un tableau de bord permettant de visualiser des données cartographiques

Télécharger le programme

Le(s) formateur(s)

Gaël PEGLIASCO

Gaël PEGLIASCO

Avec plus de 20 ans d’expérience dans le développement informatique, Gaël a débuté son parcours en créant des jeux vidéo, motivé par sa passion pour l’intelligence artificielle et le traitement d’images.

Il a appris à maîtriser des langages tels que Python, Java, et C++, consacrant 10 ans à utiliser Python, Django et Plone.

Depuis 2014, il se spécialise dans le calcul parallèle, collaborant avec des multinationales et centres de recherche pour optimiser leurs codes sur supercalculateurs.

Défenseur de l’open source, Gaël partage son expertise au travers d'articles et de formations. Désormais, il explore l’informatique quantique, et ce toujours avec Python !

Voir son profil détaillé

A propos de Human Coders

Human Coders c'est un centre de formation pour développeurs avec :

  • une certification Qualiopi, indispensable pour que vous puissiez obtenir des aides au financement via votre OPCO
  • de nombreux clients qui nous font confiance depuis des années
  • un manifeste pour garantir des formations à taille humaine, des formateurs passionnés, de véritables workshops...
  • 135 formations au catalogue, 1618 sessions depuis nos débuts en 2012 avec une moyenne de satisfaction de 4,6/5
  • la possibilité de vous proposer un accompagnement personnalisé ou du conseil après la formation

* Nombre de personnes ayant répondu au questionnaire de satisfaction sur cette formation depuis 2012