IA générative: une opportunité pour moderniser votre stratégie de données
L’engouement autour de l’IA générative a poussé de nombreux présidents de compagnie (CEO) à analyser comment cette innovation pourrait leur apporter un avantage concurrentiel ainsi qu’une meilleure productivité. Cette technologie va demander aux gestionnaires une capacité à identifier les meilleurs cas d’utilisation au sein de l’entreprise, mais aussi quels sont les requis au niveau des données, des plateformes, des processus et des talents pour saisir pleinement les opportunités.
Pour la majeure partie des entreprises, l'intégration de cette avancée technologique va passer par la personnalisation de l’utilisation des différents systèmes d’IA générative (ChatGPT, Gemini, etc.) en fonction de leurs secteurs d’activité, mais aussi de leurs réalités.
L’avantage concurrentiel réside dans la capacité d’adapter les nouveaux outils disponibles à chaque domaine d'expertise de l’organisation (marketing, finance, service client, ressources humaines, etc.) pour les rendre plus précis et pertinents.
Ce défi ne peut pas être réalisé sans une bonne qualité des données. Les données sont un atout stratégique dans la personnalisation des algorithmes et des modèles de l’IA générative.
Selon une étude réalisée par Databricks et MIT (CIO vision 2025: Bridging the gap between BI and AI), 72% des Chief Information Officers (CIO) pensent que les données (ex.: le manque de données fiables) représentent le principal obstacle à la réalisation de leurs objectifs reliés à l’IA. Ils sont tous d’accord sur le fait que la valorisation de l’IA doit faire partie de leurs stratégies de données d’entreprise pour 2025.
Les résultats de cette étude nous amènent à réfléchir sur les grands principes directeurs d’une stratégie de données moderne.
Il y a quatre grands concepts à évaluer pour maximiser l’intégration de l’IA générative dans votre transformation organisationnelle: le Data mesh, l’entreprise modulaire (composable business en anglais), les bases de données vectorielles et la gouvernance des données à l'ère de l’IA.
Le Data mesh: le cycle de vie de la donnée géré par le domaine d’expertise
L’avantage stratégique de l’IA générative va résider dans la capacité à adapter les différents modèles (algorithmes) aux données internes de l’entreprise et principalement ses domaines d’activité (marketing, opérations, ventes, service client, produits. etc.). En d’autres termes, il faut contextualiser les modèles d’ IA générative aux domaines d’expertise de l’entreprise.
Il se trouve qu’une philosophie d’architecture axée sur les domaines d’activité existe depuis quelques années; elle porte le nom de Data mesh. Le Data mesh est né du fait que les domaines d’expertise avaient du mal à valoriser rapidement leurs données en raison des longs temps d’attente dans les backlogs TI et BI (à cause de la centralisation de la gestion des données autour d’une seule équipe).
Le Data mesh prend aussi comme postulat que seul le domaine peut valoriser la donnée à son plein potentiel (du fait de la connaissance détaillée de cette dernière). C’est une approche qui préconise la décentralisation de la gestion des données.
Les quatre principes (simplifiés) du Data mesh sont:
-
Chaque domaine est le propriétaire du cycle de vie de ses données (de la collecte à l’activation, des talents à la technologie);
-
Les données doivent être traitées comme un produit pour chaque domaine, avec un guide d’exploitation, une documentation, des contrats et des garanties de service et de qualité;
-
L’infrastructure sous-jacente doit offrir un libre-service pour la conception rapide des produits de données; autrement dit, les ingénieurs et scientifiques de données du domaine d’activité doivent pouvoir déployer leurs produits / applications rapidement;
-
Une gouvernance fédérée entre les domaines est nécessaire pour éviter les silos; la gouvernance des données doit être fédérée afin de permettre un échange de données fiable entre domaines, mais aussi pour que ces derniers aient des composantes interopérables.
Le graphe ci-bas illustre une architecture Data mesh par domaine.
Le but du Data mesh est de permettre une accélération de la valorisation des données pour chaque domaine d’activité de l’entreprise.
L’entreprise modulaire : traiter son écosystème technologique et de données comme un jeu de LEGO
Il est difficile, en 2024, de deviner quel système d’IA générative sera le meilleur pour votre entreprise ou domaine d’activité. Beaucoup d’organisations vont devoir tester et prototyper leurs solutions afin de choisir celle qui sera la plus adaptée à leurs cas d’utilisation. Ces modèles devront ensuite être intégrés aux infrastructures et aux processus en place.
Pour pouvoir se doter d’une certaine flexibilité, il faut adopter une philosophie modulaire (composable). C'est-à-dire construire son écosystème de façon modulaire et itérative afin de se donner la flexibilité de tester et choisir les meilleurs outils / solutions / plateformes pour supporter les différents processus d’entreprise.
Cette approche modulaire permet aux entreprises de s’adapter plus vite aux changements et d'intégrer plus rapidement les innovations. Le contraire des systèmes composables est les systèmes intégrés / monolithiques. Ces derniers sont extrêmement difficiles à modifier, car toutes les composantes sont fortement liées entre elles. Modifier un système intégré peut parfois impliquer de changer le système dans son entièreté, ce qui peut être coûteux, risqué et long pour une entreprise.
En 2020, l’entreprise de conseil et de recherche Gartner avait publié un article faisant la promotion de l'entreprise modulaire (composable business en anglais). Elle faisait alors remarquer que les entreprises adoptant ce type de philosophie étaient plus rapides à s’adapter aux changements. Les principes directeurs des systèmes composables sont:
-
Avoir une philosophie modulaire (composable thinking en anglais): à titre d’exemple, voir son écosystème de données comme une collection de modules interchangeables de la collection à l’exploitation;
-
Avoir une architecture d’affaires composable / modulaire (composable business architecture en anglais): s’assurer que votre organisation est construite de façon flexible et résiliente afin de pouvoir s’adapter rapidement au changement;
-
Avoir des technologies composables / modulaires (composable technologies en anglais). Est-ce que votre écosystème technologique peut répondre aux besoins d’aujourd’hui, mais aussi à ceux de demain? Créer son écosystème technologique de façon modulaire permet de changer certaines composantes sans avoir à changer tout le système.
Le concept de Modern Data Stack tente de suivre ces principes directeurs (composable technologies) en proposant de créer son écosystème de données de façon modulaire.
Par conséquent, des vendeurs différents peuvent être intégrés (et changés) pour supporter chaque étape du cycle de vie de la donnée, à condition qu’ils soient faciles à intégrer et maintenir.
Voici des exemples de vendeurs par étape du cycle de vie:
-
Sources de données (collecte): peuvent être composées de plusieurs sources: Google Analytics, Adobe, Salesforce
-
Ingestion des données: peut être supportée par divers vendeurs, tels que Matillion, Fivetran, Supermetrics, Airbyte et Talend
-
Entreposage infonuagique des données (Data Cloud en anglais): peut être supporté par divers vendeurs, tels que Google BigQuery, Snowflake, Databricks, Amazon Redshift et Firebolt
-
Transformation des données: DBT
- Activation des données:
-
Gestion d’audiences: Census, Hightouch
-
Visualisation: Looker, Power BI, Tableau, Mode
-
Applications d’IA générative: OpenIA, Google, Amazon, Meta
-
Le domaine du marketing est un candidat idéal pour ce type d’architecture en raison de la diversité des données consommées.
Ce type de système donne une flexibilité aux organisations en leur permettant de créer de façon incrémentale leur écosystème tout en mitigeant les risques.
Gartner estime qu’en 2026, la majeure partie des plateformes infonuagiques vont offrir des modules composables, dans leur place de marché, pouvant couvrir la majeure partie des besoins des organisations.
L’engouement de la philosophie modulaire a donné naissance aux CDPs composables (architecture ci-bas):
Le but de l’approche modulaire / composable est d’offrir la flexibilité et la rapidité dans l’intégration des solutions et de l’innovation.
Les bases de données vectorielles: une nécessité pour supporter l’IA générative (texte, images, audio, vidéos)
Pour personnaliser l’utilisation des modèles d’IA générative (principalement les Large Language Models ou LLM (ex.: ChatGPT, Gemini)), il est souvent nécessaire de leur fournir des données externes (ex.: données du domaine d’expertise de l'organisation) pour contextualiser leurs réponses.
Le cadre de travail visant à fournir des données externes aux modèles d'IA générative s’appelle Retrieval-Augmented Generation ou RAG. Ainsi, ces modèles peuvent s’appuyer sur des bases de connaissances d’un domaine spécifique afin de fournir des réponses récentes, pertinentes, précises et fiables. Le but du RAG est d’améliorer l’efficacité des modèles LLM.
Ces bases de connaissances sont souvent entreposées dans des bases de données vectorielles (Redis Store, MongoDB Atlas Vector Search, BigQuery Vector Search, Meta FAISS, Snowflake Cortex, Chroma DB, Lance DB) pour traiter du texte, de l’image et de la vidéo.
Ce type d'architecture supporte des cas d’utilisation, tels que: Questions & Réponses (Q&A),systèmes de recommandations, recherche d’images et extraction de documents.
Si vous avez des ambitions autour de l’IA générative au sein de votre organisation, votre stratégie de données 2024-2025 ne peut pas ignorer le concept de RAG et des bases de données vectorielles.. Le concept de model tuning ou optimisation (réglage du modèle en français) n’est pas abordé dans l’article, mais il constitue un outil important dans la personnalisation de ce type de technologie.
Les architectures futures vont combiner les entrepôts de données traditionnels (données structurées) aux bases de données vectorielles, illustrées par le graphe ci-bas.
Un Data Lakehouse est une plateforme qui combine entrepôt de données et lac de données.
Le but du RAG et des bases de données vectorielles est d’augmenter les modèles d’IA générative afin de les rendre plus précis et plus pertinents au domaine d’activité de l’entreprise.
La gouvernance des données à l'ère de l’IA générative
Les opportunités engendrées par l’IA générative viennent aussi avec des défis éthiques, mais aussi de sécurité.
Gartner parle dans un de ses rapports (Top Strategic Technology Trends 2024) de cinq principes importants pour gouverner l’IA générative. Il appelle son cadre de travail: Trust, Risk and Security Management (TRiSM). En termes simples, les entreprises vont devoir affiner leur gouvernance de données pour adresser:
-
Les mesures mises en place pour assurer la fiabilité des données générées par les systèmes d’ IA générative (ChatGPT, Gemini, LLaMA);
-
Les mesures mises en place pour s’assurer de l’aspect équitable, non biaisé et éthique des réponses fournies aux utilisateurs;
-
Les mesures déployées pour assurer la robustesse et la sécurité des applications et plateformes;
-
Les mesures visant à assurer une transparence dans l’utilisation des données;
-
Enfin, les mesures qui sont prises pour la sécurité et la protection des données des clients et de l’entreprise.
J’espère que cet article vous a permis d’avoir une meilleure idée des potentiels changements que vous allez devoir tester ou effectuer dans votre stratégie de données, avec l’arrivée de l’IA générative et de ses différents modèles sur le marché. N’hésitez pas à nous contacter pour plus d’informations sur l’un de ces sujets.