Regard sur l’analyse des données sur Big Data Paris 2019

L’écart des outils de traitement et d’analyse des données s’est de nouveau illustré sur Big Data Paris 2019 (11-12 mars) avec les 250 artistes du secteur qui se sont trouvés au Palais des Congrès de Paris.

Pour sa 8ème édition, le salon a captivé 16 500 adhérents, soit 8,5% de plus que l’an dernier. Entre commerçants IT historiques, éditeurs spécialisés et start-ups, ateliers et déclarations d’utilisateurs, les solutions exposées recouvraient assez amplement l’état de l’art du domaine. D’emblée, le choix ne manque pas entre les plateformes de gestion des données où l’on percevait les offres de Talend, Cloudera, Dataiku, Saagie ou Forepaas, pour ne citer qu’eux, mais aussi au fil des allées, des offres plus récentes comme celles de Soyhuce, une société de conseil établie à Caen qui intègre un laboratoire en algorithmie et data science, ou de Skapane, l’une des start-ups du pôle lillois EuraTechnologies.

Talend baptise dans quelques jours son nouveau centre de R&D nantais de 2 600 m2. Depuis 2016, il a déjà embauché 120 ingénieurs dans la région et compte soutenir cet effectif à 250 personnes d’ici 3 ans. Chez Cloudera, dont le stand arborait une nouvelle identité visuelle après la fusion avec Hortonworks, l’heure est à l’assemblage des logiciels. Dès aujourd’hui, les deux équipes font des ventes croisées, l’offre de Cloudera ayant regagné Data Flow pour gérer les données en mouvement tandis qu’Hortonworks s’enrichit de Data Science Workbench pour les développements ML/IA. L’éditeur tient en ce moment même sa conférence DataWorks à Barcelone et aménage sa Data Platform. Un certain nombre de clients ont débuté à tester les autres briques, notamment l’outil de gestion centralisé d’ingestion de données. « Sur le marché français, il y avait une forte demande de venir compléter leurs plateformes avec des composants qu’ils n’avaient pas », nous a affirmé Denis Fraval, responsable ventes et ingénierie EMEA de Cloudera.

Dataiku duplique les étapes de collage par copier/coller

Du côté de Dataiku, qui a levé 88 M€ en décembre, la nouveauté porte sur la version 5.1 de DSS, sa plateforme d’analytique et développement IA sortie en janvier. Elle admet actuellement de dupliquer des étapes de empesage par copier-coller visuel, au sein d’un même programme, entre programmes ou même entre instances DSS. Il est identiquement possible de reproduire un projet DSS. La plateforme intègre RStudio, Sublime Text ou PyCharm et un plug-in lui a été ajouté pour gérer les règles GDPR sur les projets. A l’automne, la v.5 avait renforcé les capacités de deep learning, la bibliothèque Keras admettant de bâtir un modèle personnalisé à l’aide des outils d’apprentissage machine de Dataiku. Saagie a pour sa part appelé la Matmut à montrer le Data Lab conçu à l’aide de sa solution. Il y a peu, RATP avait déjà témoigné sur un autre projet réalisé avec sa plateforme. Le PaaS de Saagie conçu pour mettre rapidement en production des applications métiers exploitant de l’IA vient d’étendre ses fonctions de collaboration entre les parties prenantes d’un projet (IT, DSI, data scientists, data analysts) et son approche devops pour passer de l’espace de test à la production.

Au gré des stands de Big Data Paris, d’autres innovations se disaient. Le Caennais Soyhuce a sorti cette année sa plateforme OctoData issue de sa R&D qui assemble des briques Hadoop, Kafka, Spark, Cassandra, Zeppelin, Elasticsearch et Kibana. A partir d’une interface de création de projet big data, le client crée son pipeline de données et définit les droits d’accès au data lake. Pour les fonctions d’initiation machine, la solution (qui peut s’exploiter dans le cloud – Azure, AWS ou CGP) se joint à d’autres solutions, notamment celle de Dataiku, nous a précisé Nicolas Guy, président fondateur de Soyhuce.

Quelques perspectives plus loin, la start-up lilloise Skapane, aménagée il y a 4 ans, met en place des algorithmes consacrés aux métiers. Elle propose des offres verticales autour de sa plateforme big data (Spark, Hadoop, Zepellin, Hbase, Tensorflow, Superset) : lutte contre la fraude ou le blanchiment, reconnaissance faciale ou d’objets, etc. Sa solution est fournie on-premise ou dans un cloud privé hébergé en France sur deux sites actifs-actifs, nous a indiqué Fatima Lgarch, business manager chez Skapane.

Anasen modifie les graphiques en interface

A quelques stands de là, Tom Sawyer Software intervient aussi sur la détection de fraude avec son SDK Perspectives qui permet de développer des applications de visualisation de données en mode graphe. L’éditeur, basé à Berkeley (Californie), affiche pour sa part une expérience de 27 années dans son domaine. Dans le secteur banque/assurance, sa technologie de graphe est utilisée pour découvrir des connexions cachées entre individus. Elle a notamment été mise à profit dans l’affaire des Panama Papers. Le constructeur aéronautique Airbus l’a adopté pour créer l’application d’analyse visuelle collaborative GAIA. Celle-ci permet lors des étapes de production des avions, « de visualiser des données connectées et de synchroniser des vues logiques et physiques des différentes pièces d’un avion », avait expliqué l’avionneur sur l’édition 2018 de Big Data Paris.

Parmi les spécialistes de la visualisation de données, Anasen s’adresse aux utilisateurs métiers. « Nous avons transformé les graphiques en interface, la visualisation, c’est l’étape zéro », nous a exposé Naim Kosayyer, co-fondateur et PDG de la la start-up. Anasen est une app web qui permet aux consommateurs métiers de préciser les données indirectement à partir de graphiques interactifs. Les données sont déplacées directement sur le graphique à la souris (les éléments déplacés sont transformées en code par l’application), ce qui admet aux clients d’identifier des dispositions, par exemple un calcul de connexion avec retard sur une courbe, ainsi que nous l’a présenté Naim Kosayyer. Le ministère des Armées, Arcelor Mittal, Orange ou Bouygues Construction figurent parmi les clients de cette start-up repérée par l’investisseur Y Combinator et par le programme Horizon 2020 SME Instrument de l’Union européenne.

Parcourir les données en réalité augmentée

Sur Big Data Paris, on pouvait aussi apercevoir les données avec le casque de réalité augmentée Hololens sur le stand de DataKlub, intégrateur de la technologie Splunk. Son dynamisme d’expertise autour de l’outil d’analyse des données machine a autorisé à la société de développer un mode de reproduction intuitif. « Nous changeons la façon d’interroger les données en passant dans l’immersif, par exemple pour faire de l’analyse d’impact en cas d’incident », nous a déplié Tony Alibelli, CEO-CTO de DataKlub. Les alertes recouvrées dans Splunk, telles que des connexions suspectes sur des adresses IP, seront par exemple étalées sur une mappemonde. L’approche est maintenant parcourue par Société Générale qui a accompli un PoC pour faire de l’analyse d’impact sur ses flux applicatifs.