L’idée de Grégoire Leleu : utiliser les datas disponibles et les techniques de data science (1) pour optimiser le résultat des due diligence avec des insights plus exhaustifs, des analyses plus poussées et ce en un temps record. Cette méthode permet notamment d’automatiser la collecte de la donnée afin de passer davantage de temps sur les analyses qui apportent de la valeur. En tant que consultant, puis du côté investisseur, Grégoire Leleu passionné de data trouvait que les équipes n’allaient pas au bout de l’analyse des données … alors même qu’il faisait les constats suivants :
– Des bibliothèques de Machine Learning (2), qui contiennent l’architecture des modèles développés par les équipes de Twitter, Facebook, Google, ainsi que des langages de programmation de data science, sont accessibles en Open Source (3)
– La data publique est extrêmement fournie et de grande qualité
– La data privée est devenue beaucoup plus simple à utiliser, avec des outils simples pour charger et nettoyer les bases de données de grandes tailles.
Il décide d’utiliser tout l’arsenal de la data science pour le mettre à la disposition des clients et aller récupérer d’importants volumes de données, puis de se servir des outils de Machine Learning pour analyser les éléments recueillis.
– Des prévisions de grandeurs : par exemple expliquer le chiffre d’affaires de points de vente existants et prédire celui de nouvelles ouvertures, et prenant en compte l’environnement concurrentiel, les facteurs d’attractivité, les caractéristiques des zones de chalandises, les flux de piétons….
– Des segments de marchés ultra pertinents basés sur un nombre infini de critères. Cela permet, par exemple, de segmenter le marché des maisons de retraites, en prenant en compte, le nombre de lits, le revenu moyen par habitant dans la région, la taille des établissement, l’âge moyen, le revenu type…
Le résultat : des insights (4) bien plus puissants, des analyses détaillées à très grande échelle … qui peuvent aussi s’appliquer à des problématiques corporate, par exemple apporter des réponses concrètes à un groupe hôtelier en utilisant les notes laissées par les utilisateurs sur les sites d’avis clients, les lier à une saisonnalité, à des événements, et en utilisant des outils d’analyses de texte sur les sujets « réputationnels »….
(1) Ou science des données correspond à l’extraction de connaissance d’ensembles de données à partir de techniques et théories issues d’autres domaines comme les mathématiques, la statistique, la théorie et la technologie de l’information (traitement de signal, modèles probabilistes, apprentissage automatique, programmation, ingénierie de données, visualisation, analytique prophétique, modélisation d’incertitude, stockage de données… La data science en plein développement par l’augmentation des volumes de données stockés par les entreprises, les données publiques et les moyens techniques de traiter ces données avec des langages de programmation pour dégager de la valeur des jeux de données.
(2) L’apprentissage automatique ou machine learning, ou encore apprentissage statistique est une étude de l’intelligence artificielle basée sur des approches statistiques pour doter les ordinateurs du pouvoir d’ « apprendre » à partir de données, à savoir augmenter leurs performances à mener des tâches alors qu’ils n’ont pas été explicitement programmés pour chacune.
(3) « code source ouvert » recouvre les logiciels qui respectent les critères établis par l’Open Source Initiative, permettant la libre redistribution et l’accès au code source. Le résultat d’une collaboration entre programmeurs mis à la disposition du grand public.
(4) désigne la démarche à parti d’études qualitatives et de tendances qui étudient motivations, attentes et vécus des consommateurs à l’égard d’un produit, initiant les conditions du lancement d’un nouveau produit ou service ou permettant de l’adapter