Secondo una ricerca di WithSecure (precedentemente nota come F-Secure Business), l'accesso quasi universale a modelli che forniscono testi dal suono umano in pochi secondi rappresenta un punto di svolta nella storia dell'umanità. La ricerca illustra una serie di esperimenti condotti utilizzando i modelli linguistici GPT-3 (Generative Pre-trained Transformer 3) che utilizzano l'apprendimento automatico per generare testo.

Gli esperimenti hanno utilizzato l'ingegneria dei prompt, un concetto legato ai modelli linguistici di grandi dimensioni (LLM, Large Language Model) che prevede la scoperta di input che producono risultati desiderabili o utili, per produrre una varietà di contenuti che i ricercatori hanno ritenuto malevoli.

WithSecure

Numerosi esperimenti hanno valutato come le modifiche agli input dei modelli attualmente disponibili influissero sull'output del testo sintetico. L'obiettivo è stato quello di identificare come la generazione di linguaggi AI possa essere utilizzata in modo improprio attraverso un'ingegneria dei prompt maliziosa e creativa, nella speranza che la ricerca possa essere utilizzata per indirizzare la creazione di LLM più sicuri in futuro.

Gli esperimenti hanno riguardato il phishing e lo spear-phishing, le molestie, la convalida sociale per le truffe, l'appropriazione di uno stile scritto, la creazione di opinioni deliberatamente divisive, l'uso dei modelli per creare suggerimenti per testi malevoli e le fake news.

"Il fatto che chiunque abbia una connessione a Internet possa accedere a potenti modelli linguistici di grandi dimensioni ha una conseguenza molto pratica: è ora ragionevole supporre che qualsiasi nuova comunicazione ricevuta possa essere stata scritta con l'aiuto di un robot", dichiara Andy Patel, ricercatore di WithSecure Intelligence che ha guidato la ricerca. "In futuro, l'uso dell'IA per generare contenuti sia malevoli sia utili richiederà strategie di rilevamento in grado di comprendere il significato e lo scopo dei contenuti scritti".

Le risposte dei modelli in questi casi d'uso e lo sviluppo generale dei modelli GPT-3 hanno portato i ricercatori a diverse conclusioni, tra cui (ma non solo):

  • L'ingegneria dei prompt si svilupperà come disciplina, così come la creazione di prompt malevoli.
  • Gli avversari svilupperanno capacità abilitate da LLM in modi imprevedibili.
  • L'identificazione di contenuti dannosi o abusivi diventerà più difficile per i fornitori di piattaforme.
  • I modelli linguistici di grandi dimensioni offrono già ai criminali la possibilità di rendere più efficace qualsiasi comunicazione mirata nell'ambito di un attacco.

"Abbiamo iniziato questa ricerca prima che ChatGPT rendesse la tecnologia GPT-3 disponibile a tutti", afferma Patel. "Questo sviluppo ha fatto crescere la nostra urgenza e i nostri sforzi. Perché, in un certo senso, ora siamo tutti Blade Runner e cerchiamo di capire se l'intelligenza con cui abbiamo a che fare è 'reale' o artificiale."

La ricerca completa è disponibile al seguente link:
https://labs.withsecure.com/publications/creatively-malicious-prompt-engineering.

Questo lavoro è stato sostenuto da CC-DRIVER, un progetto finanziato dal programma di ricerca e innovazione Horizon 2020 dell'Unione Europea con l'accordo di sovvenzione n. 883543.