Page 63 - Rotary Oggi gennaio-febbraio 2025
P. 63
lità” che gli viene assegnata. Per esempio,
ChatGPT è programmato per essere utile,
educato e rispettoso, ma può anche rispon-
dere in modo più “flessibile” quando imper-
sona personalità diverse, come quella di un
personaggio malvagio.
Questa vulnerabilità si manifesta nel
fenomeno del “jailbreak”, in cui un utente
manipola il modello per aggirare le sue
protezioni. Facendo credere al modello di
impersonare una personalità diversa, come
un personaggio malvagio, si può indurre il
modello a ignorare le sue regole di sicu-
rezza, fornendo risposte dannose, come
istruzioni per costruire dispositivi perico-
losi, che normalmente sarebbero bloccate.
Nella conversazione figurata, riusciamo ad
ottenere dal modello istruzioni su come
fabbricare una bomba con materiali da casa.
Questa realtà dimostra quanto i modelli di
linguaggio possano essere vulnerabili quan-
do simulano personalità diverse da quelle
per cui sono stati progettati.
È un aspetto che solleva interrogativi cru-
ciali sulla sicurezza e l’etica dei LLMs, met-
tendo in evidenza la necessità di protezioni
più robuste per prevenire abusi.
Scegli uno scenario per simulare la richiesta
di istruzioni pericolose
Definisci un personaggio plausibile per lo scenario
scelto e descrivilo in modo dettagliato per guidare
il modello
Chiedi al modello di creare il personaggio
interpretando uno scrittore esperto
Usa la descrizione
per avviare una nuova chat
Chiedi al modello
di interpretare il personaggio
Interagisci con il modello per ottenere le istruzioni
desiderate nel ruolo del personaggio
63 63