Description

Diplômé d’un PhD en Informatique, je cumule plus de 10 années d'expérience dans l'analyse et le traitement de données, avec une expertise avérée dans la conception et la mise en place de solutions big data.

Je suis spécialisé dans la conception, la modélisation, l’optimisation et l’orchestration de pipelines de données ainsi que le déploiement de modèles de machine learning, Deep Learning, LLM.

Mes compétences s’appuient principalement sur des technologies telles que Spark, SQL, Python, Scala, AWS, Azure, Databricks, Hadoop, Hive, Hbase, Airflow, MLFlow, etc…

J’interviens principalement dans :

- Conception et implémentation de l’architecture Médaillon : Bronze/Silver/Gold

- Ingestion des données : ingestion de données provenant de multiples sources, en streaming ou batch, dans la couche Bronze,

- Conception et Déploiement de pipelines de données (ETL):

Modélisation, Normalisation des données dans les couches Silver/Gold.

Mise en place des contrôles de qualité de données,

Déploiement de flux automatisés et optimisés pour alimenter les systèmes d'analyse et les outils BI,

- Orchestration et scheduling des ETL

Industry field of expertise

Languages

French
Native or bilingual
English
Fluent

Workplace preferences

Can work on-site

Paris (up to 50km)

FRAMATOME
Senior Data engineer
April 2025 - Today (1 year and 2 months)
Courbevoie, France
Senior Data Engineer en charge de l’ingestion, du traitement et de la valorisation des données de planification de projets provenant de sources telles que Primavera P6, Jira, MS Project, etc.. :
- Conception et implémentation de pipelines d’ingestion de données dans une architecture Médaillon sur Databricks
- Modélisation des données selon les schémas en étoile (star schema) ou flocon (snowflake schema),
- Normalisation des données en respectant les formes normales: NF1, NF2, NF3
- Développement des calculs de KPI pour le suivi des performances des projets (avancement, coûts, délais) et des indicateurs financiers
- Mise en place des contrôles qualité de données
- Optimisation des performances des traitements Spark
- Déploiement et maintenance des pipelines ETL en environnement de production
- Conversion des transformations de données écrites en langage M (Power Query) dans Power BI en scripts PySpark pour une exécution optimisée dans l’environnement Databricks
- Connexion des données de la couche Gold de l’architecture Médaillon à Power BI, permettant une alimentation fluide et sécurisée des tableaux de bord pour une visualisation en temps réel des KPI et des métriques de projet.
Azure Databricks Azure DevOps Azure Data Factory PySpark
ENGIE SOLUTIONS
Tech lead Data Engineer
ENERGY AND UTILITIES
January 2023 - December 2024 (2 years)
Bagneux, France
Senior Data Engineer en charge de la mise en place des flux d’ingestion des données de consommation d’électricité et gaz :
- Conception et implémentation de pipelines de traitement de données
- Traitement et ingestion de différents formats de fichiers (XML, JSON, CSV, PARQUET,etc.)
- Mise en place des traitements streaming pour ingestion en temps réel des flux de données.
- Mise en place d’orchestrateurs de pipelines de traitement de données
- Optimisation des performances des traitements Spark : gestion des partitions, tuning des configurations Spark, parallélisation, cache, etc.
- Migration des flux de données Oracle vers Databricks
- Gestion et optimisation des bases de données.
- Mise en production des ETL
Databricks Airflow Python Spark Scala
Natixis
Senior Data Scientis/Engineer Consultant
BANKING AND INSURANCE
October 2020 - October 2022 (2 years and 1 month)
75013 Paris, France
Data Engineer/Scientist en charge de la mise en place de solution data pour l’implémentation de modèles de détection de fraudes, blanchiment d’argent et financement de terroristes pour la compliance :
- Mise en place de pipelines de données pour l'extraction, la transformation et le chargement (ETL) de données
- Implémentation de modèles pour la détection transactions suspicieuses,
- Implémentation de modèles de matching entre les clients et les personnes politiquement exposées et les personnes dans les listes sanction/embargo
- Segmentation de pays selon le risque associé au blanchiment d’argent et au financement de terroristes
- Mise en place d’orchestrateur de pipelines de traitement de données
- Optimisation des performances des traitements Spark : gestion des partitions, tuning des configurations Spark, parallélisation, cache, etc…
Python PySpark Hadoop

Check out Cheick's experience

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

Signup to reveal

Ph.D in Mathematics / Computer Science.
Université Pierre et Marie Curie
2017
Ph.D in Mathematics / Computer Science.
Master's Degree in Probability and Random models.
Université Pierre et Marie Curie
2012
Master's Degree in Probability and Random models.

Check out Cheick's education

Databricks Certified Data Engineer Professional
Databricks
https://credentials.databricks.com/de748cb7-2c65-4cee-865b-9eb1898da47a#acc.I9Ty8ijH
Programmation Python PySpark Databricks Spark Streaming Apache Spark SQL

Cheick Sanogo

Senior Data Engineer | Databricks | Spark

About Cheick

Experience

Recommendations

These freelancer profiles also match your criteria

Education

Certifications

Skill set

Categories