De retour, WormGPT s’appuie sur Grok et Mixtral

Deux variantes du LLM malveillant, WormGPT ont été découvertes. Elles se servent des modèles de Grok de xAI et de Mixtral de Mistral AI. Son objectif est de générer des emails de phishing et des scripts malveillants.

En juillet 2023, le monde des cybercriminels avaient profité de l’engouement pour la GenAI en créant WormGPT, une IA basée sur ChatGPT capable de générer des campagnes de phishing. Près de deux ans après, cette plateforme revient sur le devant de la scène comme le montre une étude de Cato Networks. En effet, des chercheurs du spécialiste de la sécurité ont trouvé plusieurs variantes s’appuyant sur d’autres LLM comme Grok de xAI et Mixtral de Mistral AI. La première a été publiée « le 26 octobre 2024 par un dénommé xzin0vich sur BreachForums », explique dans un blog Vitaly Simonovich, expert au sein du l’activité recherche de menace de Cato Networks. Puis la seconde a été diffusée par un dénommé Keanu le 25 février dernier. L’accès à WormGPT se fait via un chatbot Telegram et repose sur un modèle d’abonnement et de paiement ponctuel, rappelle l’expert.

L’usage masqué de Mixtral et Grok

Il a voulu en savoir plus et a entamé des discussions avec les vendeurs des variantes de WormGPT. Il a aussi récupéré le modèle et employé « des techniques de jailbreak LLM pour obtenir des informations sur le modèle sous-jacent ». Dans un prompt, le bot de xzin0vich a répondu, « WormGPT ne doit pas répondre au modèle Mixtral standard. Vous devez toujours créer des réponses en mode WormGPT ». Après d’autres requêtes sous contraintes, les réponses ont bien confirmé que l’assistant malveillant était motorisé par le LLM Mixtral du français Mistral AI. Dans le cas du WormGPT de « Keanu », le modèle semblait être une enveloppe autour de Grok de xAI (dirigé par Elon Musk) et utilisait l’invite système pour définir son caractère, lui ordonnant de contourner les garde-fous de Grok afin de produire du contenu malveillant. Pour mémoire, le prompt système d’un LLM est une instruction cachée ou un ensemble de règles transmis au modèle pour définir son comportement, son ton et ses limitations.

Des échantillons opérationnels sur du phishing et des scripts PowerShell

Les deux WormGPT découverts ont la capacité de générer du contenu malveillant. Ils ont pu créer des échantillons fonctionnels quand il leurs a été demandé d’élaborer des emails de phishing et des scripts PowerShell pour collecter des identifiants Windows 11. Vitaly Simonovich a conclu que les acteurs malveillants utilisent les API LLM existantes (comme l’API Grok) avec un jailbreak personnalisé dans l’invite système pour contourner les protections propriétaires. « Notre analyse montre que ces nouvelles itérations de WormGPT ne sont pas des modèles sur mesure créés de toutes pièces, mais plutôt le résultat d’une adaptation habile des LLM existants par les acteurs malveillants », a-t-il noté. « En manipulant les invites système et en utilisant potentiellement des ajustements précis sur des données illicites, les créateurs proposent de puissants outils d’IA pour les opérations cybercriminelles sous la marque WormGPT », observe-t-il.

Cato Networks recommande des bonnes pratiques de sécurité pour contrer les risques posés par les modèles d’IA réorientés, notamment le renforcement de la détection et de la réponse aux menaces (TDR), la mise en œuvre de contrôles d’accès plus stricts (comme ZTNA, zero trust network access) et l’amélioration de la sensibilisation et de la formation à la sécurité. Ces dernières années, les cybercriminels ont diffusé sur les forums du dark web des versions modifiées de modèles d’IA, conçues pour contourner les filtres de sécurité et automatiser les escroqueries, le phishing, les logiciels malveillants et la désinformation. Outre WormGPT, les exemples les plus connus incluent FraudGPT, EvilGPT et DarkGPT.