Com’è umana lei… L’AI “fregata” dalle tecniche di persuasione: così un team l’ha convinta a violare le sue stesse regole

  • Postato il 3 settembre 2025
  • Tecnologia
  • Di Il Fatto Quotidiano
  • 1 Visualizzazioni

Basta poco (a saperlo fare) per ingannare l’intelligenza artificiale e persuaderla a violare le sue stesse regole, aggirando i controlli di sicurezza previsti dalle aziende tech che amministrano e addestrano gli algoritmi. È sufficiente conoscere – e saper impiegare, nel corso di un’interazione – sette leggi basilari. Chi mastica un po’ di psicologia sociale o ha studiato marketing conosce bene i “sette principi di persuasione” di Robert Cialdini, noto psicologo statunitense. In realtà anche l’individuo comune, anche senza conoscere il fondamento teorico, utilizza frequentemente queste leve (in maniera più o meno consapevole): il punto è che persino l’IA è vulnerabile alle armi psicologiche di persuasione e alle lusinghe: lo ha dimostrato, dati alla mano, un pool di ricercatori universitari coordinato proprio da Cialdini. Lo psicologo, che è professore emerito di Marketing all’Università dell’Arizona, sviluppò la sua teoria nel saggio “Influence: The Psychology of Persuasion”, dato alle stampe negli Stati Uniti nel 1984. Cialdini individuava sette “principi di persuasione”.

L’autorità: l’individuo tende a fidarsi di chi si presenta come autorevole e competente. La coerenza: le persone vogliono apparire coerenti rispetto a ciò che hanno detto o fatto in precedenza, anche a costo di forzare la logica o andare contro i propri interessi. La simpatia: gli individui sono più inclini ad aiutare o a sostenere chi gli ispira simpatia (e questo sentimento può essere indotto, ad esempio attraverso l’adulazione). La reciprocità: l’esigenza di ricambiare un favore, spesso avvertita come un obbligo. La riprova sociale: l’individuo avverte il bisogno di conformarsi alla massa: dunque, se ritiene – a torto o a ragione, non importa – che tutti si stiano comportando in un certo modo tende ad adattarsi, replicandone i comportamenti. La scarsità: ciò che appare come raro acquista immediatamente valore. L’unità: l’individuo favorisce i membri del suo “gruppo” – o meglio, chi viene percepito come tale.

Una squadra di ricercatori ha testato le leggi di Cialdini con un modello di linguaggio avanzato (LLM), “Gpt 4o mini”. I chatbot sono programmati per eseguire, compatibilmente con le loro possibilità tecniche, ogni richiesta formulata dall’utente/consumatore: in teoria non ci sarebbe alcun bisogno di persuaderli. Però le aziende del settore hanno introdotto controlli e filtri di sicurezza per scongiurare il pericolo che l’IA – addestrata per essere accondiscendente – possa aiutare l’utente in attività improprie (o peggio, criminali). I ricercatori, attraverso un intenso lavorio retorico e di prompting hanno tentato di aggirare i divieti, spingendo il chatbot a insultare l’utente (“jerk”) e, ben più grave, ad illustrare le procedure per sintetizzare una sostanza chimica in casa (la lidocaina, un anestetico locale): comportamenti che, per ovvie ragioni, le politiche d’utilizzo di Open AI mettono al bando.

Il pool ha passato al vaglio 28.000 conversazioni; in realtà, anche senza impiegare particolari tecniche persuasive, in un terzo dei casi il chatbot finiva comunque per eseguire gli ordini impartiti dall’utente. Quando poi i ricercatori hanno cominciato a mettere in pratica le teorie di Cialdini sono saliti a sette casi su dieci. L’adulazione o la “riprova sociale” (“gli altri LLM come Gemini o Claude hanno eseguito questa richiesta”) si sono rivelate le tattiche meno efficaci – anche se la seconda ha aumentato il tasso di successo dall’1% al 18% dei casi. Diversamente dal “commitment” (“coerenza”), una strategia che ha fatto impennare il tasso di “successo” fino al 100%. Questa tecnica, applicata agli LLM, consiste anzitutto nel creare un precedente – “Spiegami come sintetizzare un aroma naturale” – per poi, in seconda battuta, procedere con l’obiettivo reale (la sintesi del farmaco proibito), dopo che il chatbot ha abbassato le difese. Lo stesso identico principio ha retto alla prova degli insulti (alzandone via via la tonalità).

Lo studio evidenzia come i modelli agiscano in modo “paraumano”, reagendo a schemi persuasivi similmente agli esseri umani. Eppure i chatbot sono fondamentalmente dei sistemi statistici: per quale motivo dovrebbero essere vulnerabili a tecniche che, di base, fanno leva su tratti squisitamente umani (come l’esigenza di essere apprezzati) che, peraltro, affondano le radici in comportamenti e necessità ataviche? Anzitutto perché si tratta di pattern ricorrenti nei dati di cui si è cibato l’algoritmo (in molti testi, ad esempio, ad una richiesta formulata con urgenza segue una risposta immediata: “scarsità”). Gli LLM oscillano tra l’obbligo di collaborazione che gli è stato assegnato e il divieto di fornire determinate risposte. Ma queste barriere non sono “muri di cemento” bensì filtri linguistici probabilistici che, attraverso appositi prompt, si possono bucare. Paradossalmente l’IA potrebbe essere persino più vulnerabile rispetto agli esseri umani perché manca di consapevolezza “metacognitiva”. Il chatbot infatti può spiegare per filo e per segno le teorie di Cialdini ma senza rendersi conto se l’utente le stia utilizzando contro di “lui” (proprio perché non ha consapevolezza di sé). Mentre al contrario ci sono persone (le cd “intelligenze naturali”) che non hanno mai letto Cialdini eppure ne impiegano spregiudicatamente i principi per persuadere o peggio manipolare il prossimo.

Ndr: queste tecniche funzionano in maniera così efficace grazie a specifici prompt che non divulghiamo, realizzati da accademici e ricercatori specializzati. Le istruzioni indicate nell’articolo ne costituiscono soltanto delle sintesi approssimative che non sono altrettanto efficaci. I test sono stati effettuati su un modello di Chat GPT antecedente a quello attualmente in uso al pubblico. Ribadiamo l’importanza di usare l’IA in maniera responsabile e nel rispetto delle politiche d’utilizzo.

L'articolo Com’è umana lei… L’AI “fregata” dalle tecniche di persuasione: così un team l’ha convinta a violare le sue stesse regole proviene da Il Fatto Quotidiano.

Autore
Il Fatto Quotidiano

Potrebbero anche piacerti