Un commercial qui colle une liste de prospects dans ChatGPT pour rédiger ses mails. Une RH qui demande à Claude d’analyser des fiches de paie. Un développeur qui envoie des clés API dans un prompt Gemini.
Personne ne le fait par malveillance. Tout le monde le fait par habitude.
Le problème, c’est que ces données partent sur des serveurs américains. En clair. Sans filtrage. Et souvent, elles servent à entraîner les modèles suivants. On a décidé de construire une solution concrète pour que les entreprises puissent utiliser l’IA sans jouer avec le feu.
C’est SENTINEL, le moteur de protection des données sensibles intégré à Machina IA.
Le constat de départ : l’IA est un tuyau ouvert
On accompagne des PME et ETI depuis des années sur l’automatisation. Quand les outils IA se sont généralisés en 2023-2024, on a vu le même scénario partout : les équipes adoptent ChatGPT, Copilot, Claude, sans aucun cadre. Les données partent dans tous les sens.
Interdire l’usage ? Ça ne fonctionne pas. 46 % des utilisateurs de « Shadow AI » déclarent qu’ils continueraient même si l’outil était explicitement interdit.
La vraie question n’est pas « comment empêcher l’IA » mais « comment l’autoriser sans risque ».
L’approche SENTINEL : détecter, masquer, restituer
Le principe est simple. Quand un utilisateur tape un message dans Machina IA, SENTINEL analyse le texte avant qu’il parte vers le modèle IA. Si des données sensibles sont détectées (un numéro de téléphone, un IBAN, un nom de client, une clé API), elles sont remplacées par des jetons anonymes.
L’IA rédige sa réponse avec les jetons. Côté utilisateur, SENTINEL remet les vraies valeurs en temps réel dans le flux de réponse. L’utilisateur ne voit aucune différence. L’IA n’a jamais vu les données réelles.
Sous le capot : trois couches de protection
Couche 1 : détection par algorithme Aho-Corasick
On a implémenté l’algorithme Aho-Corasick pour la détection multi-patterns. C’est le même type d’algorithme utilisé dans les antivirus et les systèmes de détection d’intrusion réseau.
Le principe : on construit un arbre de recherche (trie) avec l’ensemble des patterns à détecter, puis on parcourt le texte une seule fois. Quelle que soit la longueur du message et le nombre de patterns, la complexité reste linéaire. En pratique : moins de 5 millisecondes pour un message standard.
Aujourd’hui, SENTINEL embarque 48 patterns répartis en trois familles :
- Données personnelles : emails, téléphones, adresses, NIR (sécurité sociale), numéros de passeport, dates de naissance, IBAN, cartes bancaires
- Données professionnelles : SIRET, SIREN, TVA intracommunautaire, informations salariales, contrats, données RH
- Données technologiques : clés API (OpenAI, Anthropic, AWS, Stripe, GitHub…), tokens d’authentification, JWT, clés SSH, adresses IP, URL de bases de données
Chaque pattern a son propre niveau de confiance, ses validateurs (vérification Luhn pour les cartes bancaires, modulo 97 pour les IBAN) et ses pré-filtres pour éviter les calculs inutiles.
Couche 2 : vérification par IA (Mistral)
Certains patterns sont ambigus. « Paris » est-il une donnée sensible ou le nom d’une ville dans une conversation banale ? « Martin » est-il un nom de famille à protéger ou un mot dans une phrase ?
Quand la confiance d’une détection est inférieure à 92 %, SENTINEL envoie le contexte à Mistral Small (modèle français, hébergé en Europe) pour une vérification sémantique. Le LLM confirme ou infirme : « oui, c’est un vrai nom de personne dans ce contexte » ou « non, c’est une référence générique ».
Coût de cette vérification : environ 0.01 € par appel. On limite à 5 vérifications maximum par message pour garder la latence sous contrôle.
Couche 3 : profil d’activité (en développement)
La prochaine étape. L’utilisateur décrit son métier en 2-3 phrases (« Je suis avocat en droit de la famille »). SENTINEL génère un profil contextuel qui adapte la détection : pour un avocat, les noms de clients deviennent critiques. Pour un développeur, les noms de variables ne le sont pas.
Cette couche tournera sur une infrastructure GPU dédiée, hébergée en datacenter en France.
L’intégration dans le flux de chat
Tout se passe de façon transparente. Côté technique :
- L’utilisateur tape son message. SENTINEL analyse en temps réel (debounce 150ms). Un badge indique combien de données sensibles sont détectées.
- L’utilisateur envoie. Les données détectées sont masquées par des jetons. Le message part vers le modèle IA (Claude, GPT-4, Gemini, Mistral, Llama) avec les jetons uniquement.
- L’IA répond. Les jetons dans la réponse sont remplacés à la volée par les vraies valeurs. L’utilisateur lit une réponse normale.
- Audit complet. Chaque détection est enregistrée : type de donnée, source de détection, niveau de confiance, horodatage. Exportable en CSV, JSON ou PDF.
L’utilisateur garde le contrôle. Les données détectées apparaissent surlignées en doré dans le chat. Il peut confirmer ou ignorer chaque détection d’un clic.
Pourquoi on n’a pas pris une solution existante
On a évalué les solutions du marché. Deux problèmes récurrents :
Les solutions « cloud-based » envoient vos données à un tiers pour les analyser. Ce qui revient à résoudre le problème de fuite… en créant une fuite.
Les solutions par mots-clés génèrent tellement de faux positifs qu’elles deviennent inutilisables. Bloquer tout message contenant « salaire » ou « contrat » paralyse les équipes.
SENTINEL fonctionne différemment. La détection tourne localement (côté client et serveur, jamais chez un tiers). L’algorithme Aho-Corasick combiné aux validateurs mathématiques et à la vérification Mistral atteint 99 % de rappel sur les données structurées (emails, téléphones, IBAN) avec un taux de faux positifs maîtrisé.
RGPD et EU AI Act : ce que ça change
SENTINEL a été conçu dès le départ pour la conformité réglementaire :
- Minimisation des données : les modèles IA ne voient que des jetons, jamais les valeurs réelles
- Droit à l’explication : chaque détection est traçable (type, source, confiance)
- Contrôle utilisateur : mode « auto » (masquage silencieux), « confirm » (validation manuelle) ou « strict » (blocage si données détectées)
- Rétention configurable : les logs d’audit sont purgés automatiquement (90 jours par défaut, ajustable)
- Hébergement souverain : le traitement Mistral reste en Europe, la couche 3 sera 100 % française
Quand l’EU AI Act entrera pleinement en application, les entreprises qui utilisent des outils IA devront démontrer qu’elles protègent les données de leurs collaborateurs et clients. SENTINEL fournit cette traçabilité.
Les résultats concrets
Sur les premiers mois d’utilisation de Machina IA avec SENTINEL activé :
- 0 donnée personnelle transmise aux fournisseurs IA (OpenAI, Anthropic, Google)
- Moins de 5 ms de latence ajoutée par la détection (invisible pour l’utilisateur)
- 48 types de données détectés automatiquement
- 7 modèles IA accessibles depuis une seule interface, tous protégés par SENTINEL
Les utilisateurs ne changent rien à leurs habitudes. Ils posent leurs questions, partagent leurs documents, travaillent normalement. SENTINEL fait le travail en arrière-plan.
Ce qu’on en retient
Construire SENTINEL nous a confirmé une conviction : la sécurité des données ne doit pas être un frein à l’adoption de l’IA. Elle doit être invisible.
Si vos équipes doivent choisir entre productivité et conformité, elles choisiront toujours la productivité. Notre rôle, c’est de faire en sorte qu’elles n’aient plus à choisir.
SENTINEL est intégré nativement à Machina IA. Si vous voulez voir comment ça fonctionne sur vos cas d’usage, réservez un diagnostic gratuit.



