Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science

Nous offrons des formations adaptées à vos besoins

Programme

« Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science »

Certification API Society

Certification visée :

Intitulé de la formation : « Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science, certification API Society »

Catégorie d'action : Action de formation concourant au développement des compétences

La certification « Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science, certification API Society » est enregistrée auprès de France Compétences Fiche RS 6763 : https://www.francecompetences.fr/recherche/rs/6763/

Certificateur : Certification détenue par API Society

Date d'enregistrement de la certification : 01/10/2024

Date d'échéance : 01/10/2026

Prérequis

  • Prérequis : Connaître les bases du langage de programmation Python

  • Prérequis technique :

    • Avoir accès internet, connexion zoom

    • Téléchargement : Visual studio code

Modalités de validation des prérequis :

  • Validation des prérequis : Entretien téléphonique préalable entre le formateur et le stagiaire – Test de positionnement à 70% de bonnes réponses

Public visé :

La formation s’adresse à toute personne souhaitant acquérir une maîtrise professionnelle du langage Python orienté objet

La certification Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science s'adresse aux professionnels de la donnée (statisticiens, actuaires, data analysts et data scientists) et aux autres scientifiques voulant attester leurs compétences en manipulation, analyse et visualisation des données avec les modules Python de Data Science Numpy, Pandas, Matplotlib, Seaborn.

  • Entreprises et administrations

  • Écoles et centres de formation

  • Salariés

  • Consultants

  • Personnes en reconversion professionnelle

  • Demandeurs d'emploi

  • Étudiants

Modalités d’accès :

  • La formation est réalisée en distanciel synchrone via l’outil zoom

  • Le lien de connexion est transmis après l’inscription via la convocation

  • L’assistance technique est réalisée par David Krief : dkformations2024@gmail.com - Tél : 0744311026

Contact :

Objectif général

  • Certification inscrite au Répertoire Spécifique RS 6763 a pour objectif de permettre au stagiaire d’acquérir les compétences nécessaires pour, manipuler, analyser et visualiser des données grâce aux modules Python de Data Science, certification API Society.

Objectifs pédagogiques

Cette certification s’inscrit dans une démarche d’acquisition d’une compétence complémentaire permettant à des professionnels, de la donnée (statisticiens, actuaires, data analysts et data scientists) et aux autres scientifiques voulant attester leurs compétences en manipulation, analyse et visualisation des données avec les modules Python de Data Science Numpy, Pandas, Matplotlib, Seaborn.

A l’issue de la formation le stagiaire sera capable de :

  • Attester de la connaissance des modules Python de manipulation et d'analyse de données Numpy et Pandas

  • Attester de la connaissance des modules Python de visualisation de données Matplotlib, Seaborn et Plotly

  • Attester de la compétence du certifié à écrire du code opérationnel

  • Fournir un indicateur de niveau grâce aux mentions Junior, Opérationnel, Expert et Instructeur

Compétences visées : https://www.francecompetences.fr/recherche/rs/6763/

  • L'écosystème Python scientifique

  • La bibliothèque Numpy

  • La bibliothèque Pandas

  • La bibliothèque Matplotlib

  • La bibliothèque Seaborn

  • La bibliothèque Plotly

Durée

La durée de la formation est de 28 h heures en distanciel synchrone.

Cela comprend les temps de formations en visioconférences avec le formateur, les temps de suivi et d'accompagnement des stagiaires.

Catégorie et but de la formation

  • Catégorie de l'action de formation (art. L6313-1 du code du travail) : Action de formation

  • Public visé au sens de l’article L 6313-3 du Code du Travail : Favoriser l'adaptation des travailleurs à leur poste de travail, à l'évolution des emplois ainsi que leur maintien dans l'emploi et de participer au développement des compétences en lien ou non avec leur poste de travail. Elles peuvent permettre à des travailleurs d'acquérir une qualification plus élevée.

Tarif

Par apprenant : 2800 € Net de taxe (TVA non applicable, art. 261.4° du CGI)

Comprenant le coût de la formation et du passage d’un examen.
L’inscription à cet examen est réalisé par DKFormations.

Accès à la formation/Admission

Afin de s’inscrire à la certification, le candidat devra transmettre son dossier de candidature accompagné des documents justificatifs attendus :

  • Fiche de renseignement complétée

  • Un CV à jour

  • Validation du test de positionnement des bases essentielles sur le langage de programmation Python (70% minimum de bonnes réponses)

Un entretien (téléphonique/visio) est ensuite réalisé pour établir un

positionnement au cours duquel est vérifié son parcours professionnel, son projet et les adaptations nécessaires dans le cadre des personnes en situation de handicap.

L’inscription est réputée acquise lorsque le dossier de candidature est complet, que l’entretien de positionnement à eu lieu et que les prérequis sont validés.

Délais d’accès

  • La formation est accessible sous 15 à 20 jours suite à la demande

Résultat attendu - Modalités d’évaluation

  • La formation vise à l’obtention de la certification intitulée “ Manipuler, analyser et visualiser des données grâce aux modules Python de Data Science, certification API Society ” - enregistrée à France Compétences sous le numéro RS 6763 - détenue par API Society - Date d’échéance de l’enregistrement le 01/10/2026

Modalités d’évaluation :

  • Délivrance de la certification : la délivrance de la certification se fera de façon

indépendante de la mise en œuvre des évaluations dans un souci de neutralité.

Le candidat devra se présenter aux épreuves d'évaluation au plus tard 6 mois après la fin de la formation, il se positionnera sur une session de jury organisée par API Society.

La présentation des épreuves en vue de la certification est obligatoire.

  • Passage de l'examen :

Le jury est composé d’un surveillant qui garantit l’identité du candidat et l’absence de fraudes grâce aux captations, d’un professionnel de la Data Science avec Python certifié qui corrige les exercices programmés par le candidat sans accéder aux captations afin de préserver l’anonymat des candidats et l’équité de la correction, et d'un président qui attribue ou non la certification selon les comptes rendus du surveillant et du correcteur.

Organisées par l’organisme certificateur, les épreuves de la certification sont composées d’un questionnaire théorique évaluant les connaissances sur les modules Python de Data Science, et d’exercices pratiques évaluant les compétences de programmation du candidat.

A l’aide du logiciel API Cert permettant des captations audio vidéo durant les épreuves d’évaluation, cette certification est passable à distance et en asynchronie.

La certification est composée de deux épreuves :

  • une épreuve théorique durant laquelle le candidat doit répondre à un questionnaire de type QCM portant sur les modules Python de Data Science

  • une épreuve pratique durant laquelle le candidat doit utiliser les modules Python de Data Science au travers d'exercices de programmation

  • Thèmes abordés : écosystème Python scientifique, Numpy, Pandas, Matplotlib, Seaborn et Plotly.

  • Épreuve théorique : Durée de 20 minutes - Format 40 questions - Validation 24 réponses justes

  • Épreuve pratique : Durée de 120 minutes - Format 6 exercices - Validation 10 critères validés sur 21

Moyens et outils Pédagogiques

  • Entretien :

  • Entretien téléphonique de recueil du besoin et positionnement avant l’entrée en

  • formation

  • Chaque session de formation se décompose comme suit :

  • Cours en distanciel en synchrone avec le formateur via l’outil zoom

  • Temps d’échange et de validation des acquis avec le formateur en fin de module et évaluation finale avec mise en situation.

Méthodes pédagogiques : Affirmative, active et expositive

  • Utilisation de l’exposé, Cas pratique, mise en situation, entretien

  • Accompagnement personnalisé des élèves en continu :

  • Questions/réponses et disponibilité du Responsable pédagogique par mail à David Krief : dkformations2024@gmail.com

  • Partage des supports et ressources de la formation via Qualiobee et drive (accessible 24/7)

Assistance technique : (

  • Une permanence technique est assurée par le centre : Vous pouvez joindre l’assistance technique au :

  • dkformations2024@gmail.com - Tél : 0744311026

  • Plateforme : Qualiobee, permettant la mise à disposition des ressources pour le stagiaire

  • Modalités de l’accompagnement pédagogique et technique

  • DKFormations offre un accompagnement pédagogique et technique complet :

  • 5 jours avant l’entrée en formation, l’apprenant reçoit un mail contenant le lien d’accès à la plateforme et au drive partagé et ainsi que les liens de connexion pour les sessions réalisées via zoom.

  • Chaque apprenant bénéficie d'un accès à notre formateur spécialisé, David Krief, professionnel dans le domaine de l’informatique, Python, CRM et Intelligence Artificielle disponible par dkformations2024@gmail.com ou par téléphone au : 0744311026 pour répondre à toutes les questions d’assistance pédagogique ou technique sous 24 à 48 heures.

  • L’espace de ressources mises à disposition du stagiaire (drive et plateforme) inclut des ressources supplémentaires comme des supports de formation, des exercices, des cas pratiques, modèles de document et des guides pour assurer une expérience utilisateur sans friction.

  • Le suivi de l’action de formation se fera grâce aux relevés de connexion des temps de formation synchrones via zoom, ainsi que la signature d'une feuille d'émargement par le formateur et le stagiaire par demi-journée de formation réalisés à chaque session permettant de vérifier que les heures prévues pour la formation ont bien été réalisées.

Accessibilité aux personnes en situation de handicap

  • Pour les personnes en situation de handicap, un entretien avec le référent handicap sera proposé au candidat afin d’envisager avec lui les aménagements qui pourront être apportés pour faciliter leur parcours. Pour toute information complémentaire ou demande d’inscription, veuillez joindre :

  • David Krief - dkformations2024@gmail.com - Tél : 0744311026

  • Vous serez recontacté sous 24 à 48 heures.

Points forts

  • La formation est disponible toute l'année.

  • Possibilité de la suivre en 100% distanciel.

Contenu

Jour 1

Matin : 9h00 - 13h00

Module 1 : Introduction

Objectif pédagogique : Définir l’écosystème Python scientifique
Durée : 1h
Séances 1 - S1.1 - : Ecosystème Python scientifique

  • Tour d'horizon de packages Python de Data Science

  • Installation de bibliothèques scientifiques dans un environnement virtuel : pip et

  • le module venv, miniconda, mamba, miniforge, WinPython

  • Environnement de développement : IPython, Jupyter Notebook, JupyterLab, IDE

  • : l'exemple de Spyder, Editeur de texte : l'exemple de VS Code

Module 2 : La bibliothèque NumPy

Objectif pédagogique : Identifier les types de données non-modifiables

Durée : 6h
Séquence 1 : introduction à NumPy et création de tableaux

  • Présentation de la librairie Intérêts de travailler avec les tableaux : performance, représentation des données (matrices, séries de temps, images, données géographiques, données génériques) et facilité dans la manipulation des données

  • Création de tableaux : fonctions array(), zeros(), ones(), full(), arange(), linspace(), logspace() La multiplication matricielle avec np.dot et l'opérateur @

  • Créer une matrice identité avec les fonctions identity() et eye()

  • Construire une matrice diagonale avec la fonction diag()

Séquence 2 : Structure, manipulation et transformation des tableaux

  • Initialisation avec des données aléatoires (fonctions du module random de NumPy) Les types de données (bool, int, uint, float, complex, unicode) et changer le type de données avec astype()

  • Les attributs ndim, shape, size, dtype, itemsize, nbytes

  • Manipulation de tableaux : indexation, slicing, indexation avancée

  • Broadcasting pour l'indexation et les opérations sur les données

  • Copie et vue d'un tableau

  • Transposer un tableau avec la méthode transpose() ou l'attribut T

  • Changer les dimensions d'un tableau : fonctions reshape() et newaxis()

  • Concaténer des tableaux : fonctions concatenate(), vstack(), hstack() et stack()

  • Découper des tableaux : fonctions split(), hsplit() et vsplit()

Jour 1

Après-midi : 14h00 - 17h00

Séquence 3 : Calculs vectorisés, statistiques et gestion des données

  • Pourquoi éviter les boucles for ? Fonctions classiques (addition, soustraction...), fonctions trigonométriques, exposants et logarithmes Fonctions sum(), min(), max(), median(), percentile(), prod(), cumsum(), var(), ravel(), argmin(), argmax(), any(), all() et where() Apprendre à utiliser l'option axis

  • Fonctions de comparaisons Extraire des informations de vos données avec des masques booléens

  • Charger et sauvegarder les tableaux : les fonctions loadtxt() (et ses options usecols et skiprows), save() et load()

Évaluation de fin de module 1 :

  • Questionnaire de connaissance (QCM)

  • Exercices pratiques

Jour 2 :

Matin : 9h00 - 13h00

Module 3 : Types de données modifiables - 7h

Objectif pédagogique : La bibliothèque Pandas


Séquence 1 : Premiers pas avec Pandas : création, exploration et manipulation de DataFrames

  • Présentation de la librairie Créer une série avec la classe Series

  • Créer un tableau 2D ou dataframe avec la classe DataFrame

  • Extraire les indices de ligne et de colonnes (attributs index et columns)

  • Lire et exporter des données dans différents formats (csv, excel...)

  • Les méthodes head() et tail() Indexation et slicing : Indexation implicite et explicite,

  • Utilisation des indexeurs loc et iloc,

  • Sélectionner des données avec la sélection avancée Sélectionner des données

  • avec des expressions booléennes, avec la méthode query()

  • Insérer et modifier des données

  • Renommer une colonne avec la fonction rename()

  • Concaténer des données avec la fonction concat()

  • Fusion et jointure de données avec les fonctions merge() et join()

  • Copier des données : copie superficielle ou profonde (fonction copy()) `

  • Traiter les données manquantes avec les fonctions isna(), isnull(), notna(),

  • notnull(), dropna(), fillna() et interpolate()

Séquence 2 : Nettoyage, tri, agrégation et regroupement des données

  • Mettre une colonne en indice avec la fonction set_index()

  • Trier les indices avec sort_index() Trier les valeurs avec sort_values()

  • Transposer des données avec la fonction transpose()

  • Supprimer des données avec la fonction drop()

  • Supprimer les données en double avec la fonction drop_duplicates()

  • Aggréger des données avec les fonctions sum(), cumsum(), min(), max(), count(), mean(), median(), var(), std(), median(), quantile() et describe()

  • Grouper et analyser des données avec la fonction groupby()

  • Analyser les données avec les fonctions aggregate(), apply(), filter() et transform()

Après-midi : 14h00 - 17h00

Séquence 3 : Analyse avancée : tableaux croisés, multi-index et chaînes de caractères

  • Créer des tableaux croisés dynamiques avec la fonction pivot_table()

  • Segmenter les données avec les fonctions qcut() et cut()

  • Calculer des moyennes glissantes avec les méthodes rolling(), expanding() et ewm()

  • Multi-indices : Créer des multi-indices avec pd.MultiIndex.from_product(), pd.MultiIndex.from_tuple(), pd.MultiIndex.from_arrays(),

  • Ajouter des dimensions aux Series et DataFrames avec l'objet MultiIndex, I

  • ndexer les Series et DataFrames multi-indexés et l'objet pd.IndexSlice

  • Chaînes de caractères : Indexation et slicing sur les chaînes de caractères,

  • Traiter les données avec les méthodes de chaînes de caractères implémentés dans pandas,

  • Enchaîner plusieurs méthodes de chaînes de caractères,

Évaluation de fin de module 1 :

  • Questionnaire de connaissance (QCM)

  • Exercices pratiques

Jour 3

Suite Module 3 - Types de données modifiables - 7h

Matin : 9h00 - 13h00

Séquence 4 : Traitement des données textuelles et temporelles avec Pandas

  • Utiliser des expressions régulières avec pandas avec les méthodes match(), extract(), findall(), replace(), contains(), count(), split(), rsplit()

  • Traiter les données temporelles :

  • Créer des dates, des durées et des périodes (fonctions to_datetime(), to_timedelta(), date_range(), period_range(), timedelta_range()),

  • Indexation et slicing des données temporelles,

  • Echantillonnage avec les fonctions asfreq() et resample()

  • Présentation de la librairie

Séquence 5 : Visualisation des données avec Matplotlib : graphiques de base

  • Afficher les graphiques depuis un script Python (plt.show()) ou depuis un notebook

  • Afficher les graphiques en utilisant le style MATLAB ou le style orienté objet

  • Modifier le style du graphique

  • Les objets Figure et Axes

  • Tracer des courbes avec la méthode plot() : modifier la couleur, modifier le style du tracé, modifier la largeur du tracé, ajuster la longueur des axes, ajouter un titre, nommer les axes, changer les graduations, ajouter une légende

  • Afficher des nuages de points avec la méthode scatter()

  • Afficher des barres d'erreurs avec la méthode error_bar()

  • Remplir la surface entre 2 lignes avec la méthode fill_between()

  • Tracer un histogramme avec la méthode hist()


Après-midi : 14h00 - 17h00

Séquence 6 : Graphiques avancés et visualisation interactive avec Pandas

  • Tracer plusieurs graphiques : placer un graphique à l'intérieur d'un autre avec la méthode add_axes(), créer une grille avec la fonction subplots()

  • Tracer des graphiques en 3 dimensions avec mplot3d

  • Interagir avec les graphiques dans le Jupyter notebook avec le widget interact

  • Utiliser pandas plot pour réaliser rapidement des tracés depuis un objet `

  • Series ou DataFrame : tour d'horizon des méthodes plot(), bar(), barh(), hist(), box(), scatter(), pie() Conseils pour améliorer la lisibilité des graphiques pour les personnes en situation de handicap visuel


Module 4 : La bibliothèque Seaborn -

Objectif pédagogique : La bibliothèque Seaborn
Séquence 1:

  • Présentation de la librairie Fonctionnement de l'API Seaborn : Figure-level et

  • Axes-level

  • Les "relational plots" : les fonctions relplot(), lineplot() et scatterplot()

  • Tracer des distributions avec les fonctions displot(), histplot(), jointplot() et

  • pairplot()

  • Tracer des données qualitatives (categorical data) avec les fonctions catplot(), barplot(),

  • countplot(), boxplot(), violinplot(), striplot(), swarmplot()

  • Tracer des cartes thermiques avec la fonction heatmap()

  • Tracer des modèles de régression linéaire avec la fonction lmplot()

  • Changer le rendu de la figure : ajouter un titre, changer les couleurs, les fonctions

  • set_theme(), set_style(), set_context() et despine()

Évaluation de fin de module 1 :

  • Questionnaire de connaissance (QCM)

  • Exercices pratiques

Jour 5

Matin : 9h00 - 13h00

Module 5 : Fonctions, modules et paquets - 5h

Objectif pédagogique : La bibliothèque Plotly
Séquence 1 : Introduction à Plotly : courbes interactives et options de personnalisation

  • La bibliothèque Plotly

  • Présentation de la librairie plotly et de Kaleido, exploration de plotly.express

  • Tracer des courbes avec la fonction line() : modifier la figure avec les options title, width,

height, marker et labels, sauvegarder la figure, tracer plusieurs courbes grâce à l'option

color, ajouter des informations avec les options hover_data, hover_name et text, tracer

plusieurs graphiques avec facet_row et facet_col, ajouter des barres d'erreurs avec les

options error_x et error_y, modifier le style de la figure (option template, changer le

thème par défault avec plotly.io.templates.default)

Séquence 2 : Visualisation avancée : aires, nuages de points et paramètres graphiques

  • Tracer des graphiques en aires avec la fonction area() : ajouter des motifs avec l'option

pattern_shape

  • Afficher des nuages de points avec la fonction scatter() : utiliser les options size et

size_max pour définir la taille des points, utiliser le paramètre opacity pour générer de la

transparence, les options symbol et symbol_sequence, modifier la barre de couleur avec

l'option color_continuous_scale, la méthode update_layout() pour modifier la position de

la légende, la méthode update_coloraxes() pour modifier la position de la barre de

couleurs

Après-midi : 14h00 - 17h00

Séquence 3 : Visualisation 3D, histogrammes et cartes géographiques

  • Réaliser des graphiques en 3D avec scatter_3d() et line_3d()

  • Tracer des diagrammes en barres avec la fonction bar()

  • Tracer des histogrammes avec la fonction histogram()

  • Tracer des cartes : les fonctions line_map() et scatter_map() avec les options zoom et center, les fonctions line_geo() et scatter_geo() avec les options scope et projection, la fonction choropleth()


Module 6 : Evaluation – 2h

Objectif pédagogique : Se préparer à l’examen

  • Préparation à l’examen

  • Compréhension des attentes

  • Exercices pratiques

  • Bilan

  • Debriefing