Portrait Data Scientist #1

Nous vous présentons aujourd’hui le portrait d’un consultant Lincoln, Florent.

Pour consulter toutes nos offres d’emplois : rendez-vous sur Carrières 

Peux-tu te présenter ? 

Je m’appelle Florent, je suis Data Scientist chez Lincoln depuis 1 an. Auparavant, j’étais étudiant à l’ENSAI, une école d’ingénieur en statistique et en analyse de l’information et j’ai pris une majeure en Recherche et Statistique.

Parle nous de ton profil

A la base, j’ai un profil très orienté statistique et recherche suite à mes études. J’ai effectué beaucoup de modèles complexes de modélisation sur R essentiellement.

Parle nous de ta première mission chez Lincoln

Je fais beaucoup de manipulation de données, d’application Shiny. Je fais également de la manipulation automatique pour alimenter un Datamart (une base de donnée) de manière mensuelle et je m’occupe aussi de calculer des potentiels d’économies d’énergies pour les entreprises.

Ce qui te plaît dans ta mission

Ce que j’aime c’est l’apprentissage de la manipulation et de l’automatisation. C’est acquérir les bonnes bases, un véritable socle. Je me suis rendu compte récemment qu’il y a une forte demande de

Data Scientists avec des connaissances solides en manipulation de données et en optimisation de code. Ce sont des connaissances qu’on n’a pas forcément en sortie d’école.

D’ailleurs, j’ai lu un article de Monica Rogati , directrice de l’analyse des données chez LinkedIn, dans lequel elle dit que l’analyse de données peut être représentée comme la Pyramide de Maslow. La pyramide de Maslow, c’est une pyramide des besoins humains : en bas, il y a les besoins primaires comme manger et dormir et en haut, il y a se réaliser. Monica Rogati explique que la pyramide de Maslow peut être transposée à un projet d’analyse de données. Tout en bas, il y a l’acquisition de données :  si on n’a pas de données, on ne peut rien faire. Puis vient la qualité des données, le traitement des données, la détection d’anomalie ; et ensuite on peut faire de la modélisation :Machine Learning, IA …

Actuellement, on a tendance à trop sous-estimer l’importance et la difficulté qu’il y a à manipuler les données. Dans ma mission, ce travail me permet de monter en compétence sur ce socle fondamental.

 Quelles sont les compétences que doit avoir un Data Scientist ?

La compétence la plus sous-estimée est de loin SQL. Très souvent, en sortant d’école, on se dit que SQL c’est facile et accessible. En réalité,  écrire de bonnes requêtes SQL optimisées n’est pas inné ! Il est également nécessaire de bien connaitre votre langage de programmation majoritaire comme SAS, R ou Python

Quelles sont tes inspirations ?

  • Pour SQL, vous tapez « comment optimiser du code SQL », et vous obtiendrez beaucoup d’informations intéressantes.
  • En R, il y a « R for Data Science » qui est vraiment extraordinaire ! Il faut le lire; il est gratuit sur internet !
  • En Python, il y a « Python for Data Analysis » qui est très bien aussi.
  • Pour l’informatique : il y a Jenny Bryan Data Scientist chez RStudio qui propose un superbe répertoire GitHub nommé « Code smells ». Elle donne pas mal de ressources pour comprendre comment un Data Scientist pourrait mieux coder, c’est très intéressant !
  • Pour une culture sur la Data, on peut lire « Stat 337 », répertoire GitHub d’Hadley Wickham. Il donne une très bonne vision des technologies de demain et de ce que l’on devrait apprendre. Ça peut donner des idées.
  • Et évidemment, faire de la veille technologique sur l’actualité de l’analyse de la donnée. Je suis personnellement un adepte de Twitter, je suis Hadley Wickham et quelques Data Scientists reconnus. C’est ma manière de faire de veille technologique.
  • Enfin , il existe une Newsletter excellente qui s’appelle « Data Elixir » qui permet d’avoir une actualité hebdomadaire sur la Data Science.

De manière générale, tout est en anglais, il n’existe pas grand-chose en français aujourd’hui. Il ne faut pas hésiter à lire en anglais, ça fait monter en compétence.

Merci Florent pour ta participation !