/23 févr. 2026/

SENTINEL : comment on a construit un bouclier anti-fuite de données pour l'IA

Vos collaborateurs utilisent l'IA au quotidien. Mais qui protège les données qu'ils envoient à GPT, Claude ou Gemini ? On a développé SENTINEL pour régler ce problème.

Kloviss

Automatisation + IA

8 min de lecture•23 févr. 2026

Un commercial qui colle une liste de prospects dans ChatGPT pour rédiger ses mails. Une RH qui demande à Claude d’analyser des fiches de paie. Un développeur qui envoie des clés API dans un prompt Gemini.

Personne ne le fait par malveillance. Tout le monde le fait par habitude.

Le problème, c’est que ces données partent sur des serveurs américains. En clair. Sans filtrage. Et souvent, elles servent à entraîner les modèles suivants. On a décidé de construire une solution concrète pour que les entreprises puissent utiliser l’IA sans jouer avec le feu.

C’est SENTINEL, le moteur de protection des données sensibles intégré à Machina IA.

Le constat de départ : l’IA est un tuyau ouvert

On accompagne des PME et ETI depuis des années sur l’automatisation. Quand les outils IA se sont généralisés en 2023-2024, on a vu le même scénario partout : les équipes adoptent ChatGPT, Copilot, Claude, sans aucun cadre. Les données partent dans tous les sens.

Interdire l’usage ? Ça ne fonctionne pas. 46 % des utilisateurs de « Shadow AI » déclarent qu’ils continueraient même si l’outil était explicitement interdit.

La vraie question n’est pas « comment empêcher l’IA » mais « comment l’autoriser sans risque ».

L’approche SENTINEL : détecter, masquer, restituer

Le principe est simple. Quand un utilisateur tape un message dans Machina IA, SENTINEL analyse le texte avant qu’il parte vers le modèle IA. Si des données sensibles sont détectées (un numéro de téléphone, un IBAN, un nom de client, une clé API), elles sont remplacées par des jetons anonymes.

Ce que l'utilisateur écrit

Bonjour, voici mon numéro : 06 12 34 56 78

Ce que l'IA reçoit

Bonjour, voici mon numéro : [SENTINEL:PHONE_a1b2c3]

L’IA rédige sa réponse avec les jetons. Côté utilisateur, SENTINEL remet les vraies valeurs en temps réel dans le flux de réponse. L’utilisateur ne voit aucune différence. L’IA n’a jamais vu les données réelles.

Sous le capot : trois couches de protection

Couche 1 : détection par algorithme Aho-Corasick

On a implémenté l’algorithme Aho-Corasick pour la détection multi-patterns. C’est le même type d’algorithme utilisé dans les antivirus et les systèmes de détection d’intrusion réseau.

C'est quoi l'algorithme Aho-Corasick ?

Inventé en 1975 par Alfred Aho et Margaret Corasick (chez Bell Labs), c'est un algorithme de recherche de texte capable de trouver plusieurs mots en même temps dans un seul passage du texte. Imaginez un correcteur orthographique qui cherche 1 000 fautes en lisant votre texte une seule fois, du début à la fin. C'est exactement ça. La vitesse ne dépend pas du nombre de mots cherchés, seulement de la longueur du texte. C'est pour ça qu'il est utilisé dans les antivirus (recherche de signatures malveillantes), les pare-feux réseau et maintenant dans SENTINEL pour détecter 48 types de données sensibles en moins de 5 ms.

Le principe : on construit un arbre de recherche (trie) avec l’ensemble des patterns à détecter, puis on parcourt le texte une seule fois. Quelle que soit la longueur du message et le nombre de patterns, la complexité reste linéaire. En pratique : moins de 5 millisecondes pour un message standard.

Aujourd’hui, SENTINEL embarque 48 patterns répartis en trois familles :

Données personnelles : emails, téléphones, adresses, NIR (sécurité sociale), numéros de passeport, dates de naissance, IBAN, cartes bancaires
Données professionnelles : SIRET, SIREN, TVA intracommunautaire, informations salariales, contrats, données RH
Données technologiques : clés API (OpenAI, Anthropic, AWS, Stripe, GitHub…), tokens d’authentification, JWT, clés SSH, adresses IP, URL de bases de données

Chaque pattern a son propre niveau de confiance, ses validateurs (vérification Luhn pour les cartes bancaires, modulo 97 pour les IBAN) et ses pré-filtres pour éviter les calculs inutiles.

Couche 2 : vérification par IA (Mistral)

Certains patterns sont ambigus. « Paris » est-il une donnée sensible ou le nom d’une ville dans une conversation banale ? « Martin » est-il un nom de famille à protéger ou un mot dans une phrase ?

Quand la confiance d’une détection est inférieure à 92 %, SENTINEL envoie le contexte à Mistral Small (modèle français, hébergé en Europe) pour une vérification sémantique. Le LLM confirme ou infirme : « oui, c’est un vrai nom de personne dans ce contexte » ou « non, c’est une référence générique ».

Coût de cette vérification : environ 0.01 € par appel. On limite à 5 vérifications maximum par message pour garder la latence sous contrôle.

Couche 3 : profil d’activité (en développement)

La prochaine étape. L’utilisateur décrit son métier en 2-3 phrases (« Je suis avocat en droit de la famille »). SENTINEL génère un profil contextuel qui adapte la détection : pour un avocat, les noms de clients deviennent critiques. Pour un développeur, les noms de variables ne le sont pas.

Cette couche tournera sur une infrastructure GPU dédiée, hébergée en datacenter en France.

L’intégration dans le flux de chat

Tout se passe de façon transparente. Côté technique :

L’utilisateur tape son message. SENTINEL analyse en temps réel (debounce 150ms). Un badge indique combien de données sensibles sont détectées.
L’utilisateur envoie. Les données détectées sont masquées par des jetons. Le message part vers le modèle IA (Claude, GPT-4, Gemini, Mistral, Llama) avec les jetons uniquement.
L’IA répond. Les jetons dans la réponse sont remplacés à la volée par les vraies valeurs. L’utilisateur lit une réponse normale.
Audit complet. Chaque détection est enregistrée : type de donnée, source de détection, niveau de confiance, horodatage. Exportable en CSV, JSON ou PDF.

L’utilisateur garde le contrôle. Les données détectées apparaissent surlignées en doré dans le chat. Il peut confirmer ou ignorer chaque détection d’un clic.

Pourquoi on n’a pas pris une solution existante

On a évalué les solutions du marché. Deux problèmes récurrents :

Les solutions « cloud-based » envoient vos données à un tiers pour les analyser. Ce qui revient à résoudre le problème de fuite… en créant une fuite.

Les solutions par mots-clés génèrent tellement de faux positifs qu’elles deviennent inutilisables. Bloquer tout message contenant « salaire » ou « contrat » paralyse les équipes.

SENTINEL fonctionne différemment. La détection tourne localement (côté client et serveur, jamais chez un tiers). L’algorithme Aho-Corasick combiné aux validateurs mathématiques et à la vérification Mistral atteint 99 % de rappel sur les données structurées (emails, téléphones, IBAN) avec un taux de faux positifs maîtrisé.

RGPD et EU AI Act : ce que ça change

SENTINEL a été conçu dès le départ pour la conformité réglementaire :

Minimisation des données : les modèles IA ne voient que des jetons, jamais les valeurs réelles
Droit à l’explication : chaque détection est traçable (type, source, confiance)
Contrôle utilisateur : mode « auto » (masquage silencieux), « confirm » (validation manuelle) ou « strict » (blocage si données détectées)
Rétention configurable : les logs d’audit sont purgés automatiquement (90 jours par défaut, ajustable)
Hébergement souverain : le traitement Mistral reste en Europe, la couche 3 sera 100 % française

Quand l’EU AI Act entrera pleinement en application, les entreprises qui utilisent des outils IA devront démontrer qu’elles protègent les données de leurs collaborateurs et clients. SENTINEL fournit cette traçabilité.

Les résultats concrets

Sur les premiers mois d’utilisation de Machina IA avec SENTINEL activé :

0 donnée personnelle transmise aux fournisseurs IA (OpenAI, Anthropic, Google)
Moins de 5 ms de latence ajoutée par la détection (invisible pour l’utilisateur)
48 types de données détectés automatiquement
7 modèles IA accessibles depuis une seule interface, tous protégés par SENTINEL

Les utilisateurs ne changent rien à leurs habitudes. Ils posent leurs questions, partagent leurs documents, travaillent normalement. SENTINEL fait le travail en arrière-plan.

Ce qu’on en retient

Construire SENTINEL nous a confirmé une conviction : la sécurité des données ne doit pas être un frein à l’adoption de l’IA. Elle doit être invisible.

Si vos équipes doivent choisir entre productivité et conformité, elles choisiront toujours la productivité. Notre rôle, c’est de faire en sorte qu’elles n’aient plus à choisir.

SENTINEL est intégré nativement à Machina IA. Si vous voulez voir comment ça fonctionne sur vos cas d’usage, réservez un diagnostic gratuit.

Kloviss

Votre partenaire Automatisation & IA

Diagnostic gratuit. Résultat sous 72h

Vérifiez la conformité de vos outils IA avec un expert Kloviss.

/Plus d'articles.

Vos données IA doivent rester en France. Voici pourquoi.

Cloud Act, transferts hors UE, serveurs opaques — l'hébergement souverain n'est plus une option. C'est une nécessité.

3 févr. 2026

Automatiser ou recruter ? La vraie question quand votre PME grandit

L'équipe est débordée. Le réflexe : recruter. Mais est-ce la bonne réponse ?

8 janv. 2026

5 tâches que toute PME devrait automatiser en priorité

Pas besoin de tout automatiser d'un coup. Voici les 5 quick wins qui libèrent le plus de temps immédiatement.

1 déc. 2025

Tous les articles

/23 févr. 2026/

SENTINEL : comment on a construit un bouclier anti-fuite de données pour l'IA

Vos collaborateurs utilisent l'IA au quotidien. Mais qui protège les données qu'ils envoient à GPT, Claude ou Gemini ? On a développé SENTINEL pour régler ce problème.

Kloviss

Automatisation + IA

8 min de lecture•23 févr. 2026

Personne ne le fait par malveillance. Tout le monde le fait par habitude.

C’est SENTINEL, le moteur de protection des données sensibles intégré à Machina IA.

Le constat de départ : l’IA est un tuyau ouvert

Interdire l’usage ? Ça ne fonctionne pas. 46 % des utilisateurs de « Shadow AI » déclarent qu’ils continueraient même si l’outil était explicitement interdit.

La vraie question n’est pas « comment empêcher l’IA » mais « comment l’autoriser sans risque ».

L’approche SENTINEL : détecter, masquer, restituer

Ce que l'utilisateur écrit

Bonjour, voici mon numéro : 06 12 34 56 78

Ce que l'IA reçoit

Bonjour, voici mon numéro : [SENTINEL:PHONE_a1b2c3]

Sous le capot : trois couches de protection

Couche 1 : détection par algorithme Aho-Corasick

On a implémenté l’algorithme Aho-Corasick pour la détection multi-patterns. C’est le même type d’algorithme utilisé dans les antivirus et les systèmes de détection d’intrusion réseau.

C'est quoi l'algorithme Aho-Corasick ?

Aujourd’hui, SENTINEL embarque 48 patterns répartis en trois familles :

Données personnelles : emails, téléphones, adresses, NIR (sécurité sociale), numéros de passeport, dates de naissance, IBAN, cartes bancaires
Données professionnelles : SIRET, SIREN, TVA intracommunautaire, informations salariales, contrats, données RH
Données technologiques : clés API (OpenAI, Anthropic, AWS, Stripe, GitHub…), tokens d’authentification, JWT, clés SSH, adresses IP, URL de bases de données

Chaque pattern a son propre niveau de confiance, ses validateurs (vérification Luhn pour les cartes bancaires, modulo 97 pour les IBAN) et ses pré-filtres pour éviter les calculs inutiles.

Couche 2 : vérification par IA (Mistral)

Coût de cette vérification : environ 0.01 € par appel. On limite à 5 vérifications maximum par message pour garder la latence sous contrôle.

Couche 3 : profil d’activité (en développement)

Cette couche tournera sur une infrastructure GPU dédiée, hébergée en datacenter en France.

L’intégration dans le flux de chat

Tout se passe de façon transparente. Côté technique :

L’utilisateur tape son message. SENTINEL analyse en temps réel (debounce 150ms). Un badge indique combien de données sensibles sont détectées.
L’utilisateur envoie. Les données détectées sont masquées par des jetons. Le message part vers le modèle IA (Claude, GPT-4, Gemini, Mistral, Llama) avec les jetons uniquement.
L’IA répond. Les jetons dans la réponse sont remplacés à la volée par les vraies valeurs. L’utilisateur lit une réponse normale.
Audit complet. Chaque détection est enregistrée : type de donnée, source de détection, niveau de confiance, horodatage. Exportable en CSV, JSON ou PDF.

L’utilisateur garde le contrôle. Les données détectées apparaissent surlignées en doré dans le chat. Il peut confirmer ou ignorer chaque détection d’un clic.

Pourquoi on n’a pas pris une solution existante

On a évalué les solutions du marché. Deux problèmes récurrents :

Les solutions « cloud-based » envoient vos données à un tiers pour les analyser. Ce qui revient à résoudre le problème de fuite… en créant une fuite.

Les solutions par mots-clés génèrent tellement de faux positifs qu’elles deviennent inutilisables. Bloquer tout message contenant « salaire » ou « contrat » paralyse les équipes.

RGPD et EU AI Act : ce que ça change

SENTINEL a été conçu dès le départ pour la conformité réglementaire :

Minimisation des données : les modèles IA ne voient que des jetons, jamais les valeurs réelles
Droit à l’explication : chaque détection est traçable (type, source, confiance)
Contrôle utilisateur : mode « auto » (masquage silencieux), « confirm » (validation manuelle) ou « strict » (blocage si données détectées)
Rétention configurable : les logs d’audit sont purgés automatiquement (90 jours par défaut, ajustable)
Hébergement souverain : le traitement Mistral reste en Europe, la couche 3 sera 100 % française

Les résultats concrets

Sur les premiers mois d’utilisation de Machina IA avec SENTINEL activé :

0 donnée personnelle transmise aux fournisseurs IA (OpenAI, Anthropic, Google)
Moins de 5 ms de latence ajoutée par la détection (invisible pour l’utilisateur)
48 types de données détectés automatiquement
7 modèles IA accessibles depuis une seule interface, tous protégés par SENTINEL

Les utilisateurs ne changent rien à leurs habitudes. Ils posent leurs questions, partagent leurs documents, travaillent normalement. SENTINEL fait le travail en arrière-plan.

Ce qu’on en retient

Construire SENTINEL nous a confirmé une conviction : la sécurité des données ne doit pas être un frein à l’adoption de l’IA. Elle doit être invisible.

Si vos équipes doivent choisir entre productivité et conformité, elles choisiront toujours la productivité. Notre rôle, c’est de faire en sorte qu’elles n’aient plus à choisir.

SENTINEL est intégré nativement à Machina IA. Si vous voulez voir comment ça fonctionne sur vos cas d’usage, réservez un diagnostic gratuit.

Kloviss

Votre partenaire Automatisation & IA

Diagnostic gratuit. Résultat sous 72h

Vérifiez la conformité de vos outils IA avec un expert Kloviss.

/Plus d'articles.

Vos données IA doivent rester en France. Voici pourquoi.

Cloud Act, transferts hors UE, serveurs opaques — l'hébergement souverain n'est plus une option. C'est une nécessité.

3 févr. 2026

Automatiser ou recruter ? La vraie question quand votre PME grandit

L'équipe est débordée. Le réflexe : recruter. Mais est-ce la bonne réponse ?

8 janv. 2026

5 tâches que toute PME devrait automatiser en priorité

Pas besoin de tout automatiser d'un coup. Voici les 5 quick wins qui libèrent le plus de temps immédiatement.

1 déc. 2025

Tous les articles

SENTINEL : comment on a construit un bouclier anti-fuite de données pour l'IA

Le constat de départ : l’IA est un tuyau ouvert

L’approche SENTINEL : détecter, masquer, restituer

Sous le capot : trois couches de protection

Couche 1 : détection par algorithme Aho-Corasick

Couche 2 : vérification par IA (Mistral)

Couche 3 : profil d’activité (en développement)

L’intégration dans le flux de chat

Pourquoi on n’a pas pris une solution existante

RGPD et EU AI Act : ce que ça change

Les résultats concrets

Ce qu’on en retient

/Plus d'articles.

Vos données IA doivent rester en France. Voici pourquoi.

Automatiser ou recruter ? La vraie question quand votre PME grandit

5 tâches que toute PME devrait automatiser en priorité

Un plan d'action chiffré, livré sous 72h.

SENTINEL : comment on a construit un bouclier anti-fuite de données pour l'IA

Le constat de départ : l’IA est un tuyau ouvert

L’approche SENTINEL : détecter, masquer, restituer

Sous le capot : trois couches de protection

Couche 1 : détection par algorithme Aho-Corasick

Couche 2 : vérification par IA (Mistral)

Couche 3 : profil d’activité (en développement)

L’intégration dans le flux de chat

Pourquoi on n’a pas pris une solution existante

RGPD et EU AI Act : ce que ça change

Les résultats concrets

Ce qu’on en retient

/Plus d'articles.

Vos données IA doivent rester en France. Voici pourquoi.

Automatiser ou recruter ? La vraie question quand votre PME grandit

5 tâches que toute PME devrait automatiser en priorité

Un plan d'action chiffré, livré sous 72h.