Les métiers de la data

full screen graphique

Les données (data) constituent le carburant de tout système d’information moderne. Avec la digitalisation croissante dans tous les secteurs, le challenge est donc de pouvoir collecter, stocker et valoriser les données de façon à être le plus réactif possible.  Ces dernières années, avec l’explosion des réseaux et des appareils de communication, de nombreuses données sont de plus en plus générées par des communications humaines (réseaux sociaux, e-mails, …), des objets connectés du quotidien (montres, voitures, …) et dans les entreprises (capteurs usines, météo, maintenance, …).

Analyser ces données, afin de pouvoir en extraire de l’informationpermet de tirer des avantages différenciant pour les entreprises. Afin de réaliser ces analyses, un ensemble de métiers et spécialités autour de la data existent. Ces dernières années avec la diversification des données, des techniques et des besoins d’entreprises, ces métiers se sont vus modifier et évoluer.

  • Le cloisonnement des métiers

Dans les années 1990 et 2000, nous identifions des métiers bien distincts provenant de formations assez différentes, parmi lesquels :

  • Le statisticien qui recueille les avis ou les données chiffrées et en propose une synthèse accessible à tous. Il propose des analyses descriptives et en ressort des tendances. Outils: Excel, R, SAS, SPSS, …
  • Le data miner ou data analyst qui inspecte des sources de données pour réaliser des analyses poussées (prédictives, réduction de dimension, …)  via des modèles qu’il a choisis. Outils: R, SAS, SPSS, WEKA, …
  • L’ingénieur Business Intelligence (informatique décisionnelle)qui exploite les données de l’entreprise afin de donner une vision plus claire aux différentes directions métiers. Sa mission consiste à tester différents tableaux de bords et outils de reporting, puis à les intégrer dans le système informatique de l’entreprise. Outils : SAP, Sybase, Datastage, Informatica, Performance Point, Cognos, …
  • L’administrateur de base de donnéesqui est responsable du bon fonctionnement des serveurs de bases de données, au niveau de la conception des bases, des tests de validation, de la coordination des intervenants, de l’exploitation, de la protection et du contrôle d’utilisation. Outils : Oracle, MySQL, PosgresQL, Talend, Pentaho, SQL Server, …
  • L’ingénieur développeurqui est responsable du développement des solutions logicielles permettant le traitement des données afin de faciliter leur restitution pour les clients ou les entités business. Outils : Python, Java, scala, C/C++, …
  • Le scientifique qui intervient dans les instituts de recherches ou les départements R&D des grands groupes. Il travaille sur des algorithmes scientifiques pour proposer de nouvelles approches pour analyser les données. De formation doctorale ou diplômé master en mathématiques appliquées, il utilise les techniques de l’intelligence artificielle, de la théorie des graphes, de la théorie des jeux, des méthodes probabilistes avancées, de Machine Learning, … Mais ces métiers étaient souvent éloignés des attentes des entreprises.

 

  • Les mutations technologiques autour du «BIG DATA»

2Au cours des dix dernières années, l’explosion des données a entraîné de nouvelles problématiques modifiant considérablement les besoins de l’entreprise autour de la Data. En effet, les nouvelles grandes entreprises telles que Facebook, Twitter, LinkedIn ont rapidement relevé la limite du cloisonnement de ces métiers pour le traitement de leur données, de plus en plus volumineuses et de moins en moins structurées. Pour y faire face, de nouveaux projets se sont construits autour des technologies connues sur le nom de « BIG DATA » pour la plupart distribuées en Open Source. Ainsi la plupart des entreprises (même les plus petites) se sont intéressées à ces fameux « BIG DATA »  entrainant donc la redistribution des cartes des métiers autour de la data.  Dorénavant, on ne recherche plus le data miner, mais le Data scientist, en lieu et place de l’administrateur base de données, le devOps Big Data, l’ingénieur Big Data et non l’ingénieur développeur ….

Tout ceci crée effectivement un BUZZ, mais qu’en est-il vraiment ?

Les technologies Big Data en un mot, ce sont des technologies qui permettent :

  • un stockage peu coûteux et distribué permettant ainsi de «scaler » (rajouter du stockage au besoin) pour pouvoir stocker toujours plus, des millions de peta octets si besoin (HDFS par exemple)
  • Un mécanisme de calcul distribué efficace permettant d’interagir efficacement avec les données distribuées stockées (Hadoop Map/Reduce, Spark par exemple)
  • Des stockages distribués avec accès rapide en clé/valeur (NoSQL : Cassandra, Hbase par exemple)
  • Un mécanisme distribué d’indexation moins cher et de recherche rapide et «scalabe»  (ElasticSearch, Solr,…)

 

  • Les “nouveaux” métiers

3L’arrivée des technologies Big Data bousculent les solutions classiques autour de la data (MySQL, Oracle, SAS, …). En effet par leur coût et les possibilités (stockage/calcul distribué et « scalabilité »), elles ont complètement bouleversé les métiers (au moins dans leur dénomination). Théoriquement, elles sont capables de stocker toutes ces données à un seul endroit (Data Lake). On ne se contentera plus de « simples » analyses statistiques ou des visualisations BI « limitées ». Nous voulons être capable de mieux les analyser, les croiser, les comprendre, anticiper … Pour cela il faut des techniques scientifiques poussées notamment de Machine Learning et Deep Learning autrefois détenues par les scientifiques.

Les métiers évoluent dès lors :

  • Ingénieur Big Data : avec un ancrage logiciel (python, java, scala, …) fort, une formation sur les outils de Big Data (Hadoop Map/Reduce, Hive, Pig, Spark, …). Il comprend parfaitement le fonctionnement de ces technologies et a la possibilité d’écrire des logiciels qui tournent dans ces environnements.
  • Data analyst : utilisant les techniques statistiques et des outils informatiques spécialisés afin d’organiser, de synthétiser les informations, il permet aux entreprises de faciliter les prises de décision. Les volumes des données traitées et la maîtrise des outils spécifiques au Big Data sont des éléments clés de son quotidien.
  • Data scientist R&D (type1): Data Miner ou scientifique maîtrisant parfaitement toutes les techniques d’intelligence artificielle (Machine Learning, Deep Learning, …), avec une montée en compétences sur des outils BIG DATA (Spark, Hive par exemple), il élabore et fait tourner des modèles  poussés sur des environnements Big Data. La finalité n’est pas de produire un code industrialisable en l’état, mais un code de qualité scientifique très poussée.4-1
  • Data scientist Dev (type 2): Développeur Big Data avec de fortes compétences en mathématiques appliquées (machine Learning, Deep Learning, …), il a une bonne connaissance des techniques scientifiques. La maîtrise des outils Big data et toutes les librairies de Machine Learning permet de mettre en place des modèles et du code industrialisable directement. Il a de bonnes connaissances des différents types d’algorithmes de machine Learning (sans être forcément capable d’en réinventer des nouveaux).
  • Administrateur Big Data/ DevOps : son objectif est de mettre en place et d’administrer n’importe quel clusters utilisant les technologies Big data (Hadoop, Cassandra, Elasticsearch, …). Sa maîtrise de ces technologies permet de les configurer, d’optimiser leur déploiement et de debugger les erreurs. Son quotidien ? DevOps, et des outils tels que Puppet, Ansible, …
  • Architecte Big Data: sa parfaite maîtrise de toutes les solutions et architectures Big Data sont ses points forts. A partir d’un besoin, il conçoit les architectures et les combinaisons technologiques qui permettent de résoudre le problème.
  • Chief Data Officer (CDO) : le Directeur de la data, le gardien de l’éthique. A la tête d’une équipe spécialisée dans l’acquisition, l’analyse et l’exploitation des données, il gouverne avec son équipe l’approvisionnement des données les plus intéressantes et cohérentes pour l’intérêt de l’entreprise.
  • Business Intelligence Manager : Son travail consiste à faciliter les prises de décision du CDO. Il utilise des nouvelles technologies (tableaux software, Qlikview, …) qui analysent les données stockées dans les technologies Big Data pour mettre en place des tableaux de bords, des outils de reporting, afin de les intégrer au système d’information.

 

  • Le Graal recherché par les recruteurs

Avec le BUZZ créé par le BIG DATA, les annonces de recrutement relatives à des profils atypiques explosent. Par exemple, « nous recherchons un data scientist pour installer/administrer les clusters Hadoop, Cassandra, ElasticSearch, maîtriser Chef/Puppet/Ansible, matriser les techniques de Machine Learning et Deep Learning, développer en scala, java, python, maiîtrise Hive/Pig, faire la data visualisation avec Tableau, Qlikview …. »

Compliqué de réunir en une seule personne les compétences et qualités d’au 3 moins personnes  (Ingénieur Big Data, Data Scientist, Administrateur Big Data, Business Intelligence Manager) !

Si vous voulez vous orienter vers les métiers du  «Big Data», en fonction de votre profil actuel, identifiez votre cible et complétez vos connaissances par des formations complémentaires. Pour tout conseil/discussion, contactez- moi!

NB : Ce document est un avis personnel du secteur de la data. Si vous n’êtes pas d’accord je serais ravi d’en discuter avec vous dans les commentaires ci-dessous !

Consultant ASTEK : BIO M. TW (Ph. D)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


*