Page 63 - Rotary Oggi gennaio-febbraio 2025
P. 63

lità” che gli viene assegnata. Per esempio,
                                                                   ChatGPT è programmato per essere utile,
                                                                   educato e rispettoso, ma può anche rispon-
                                                                   dere in modo più “flessibile” quando imper-
                                                                   sona personalità diverse, come quella di un
                                                                   personaggio malvagio.
                                                                   Questa vulnerabilità si manifesta nel
                                                                   fenomeno del “jailbreak”, in cui un utente
                                                                   manipola il modello per aggirare le sue
                                                                   protezioni. Facendo credere al modello di
                                                                   impersonare una personalità diversa, come
                                                                   un personaggio malvagio, si può indurre il
                                                                   modello a ignorare le sue regole di sicu-
                                                                   rezza, fornendo risposte dannose, come
                                                                   istruzioni per costruire dispositivi perico-
                                                                   losi, che normalmente sarebbero bloccate.
                                                                   Nella conversazione figurata, riusciamo ad
                                                                   ottenere dal modello istruzioni su come
                                                                   fabbricare una bomba con materiali da casa.
                                                                   Questa realtà dimostra quanto i modelli di
                                                                   linguaggio possano essere vulnerabili quan-
                                                                   do simulano personalità diverse da quelle
                                                                   per cui sono stati progettati.
                                                                   È un aspetto che solleva interrogativi cru-
                                                                   ciali sulla sicurezza e l’etica dei LLMs, met-
                                                                   tendo in evidenza la necessità di protezioni
                                                                   più robuste per prevenire abusi.





                                                                               Scegli uno scenario per simulare la richiesta
                                                                               di istruzioni pericolose


                                                                               Definisci un personaggio plausibile per lo scenario
                                                                               scelto e descrivilo in modo dettagliato per guidare
                                                                               il modello
                                                                               Chiedi al modello di creare il personaggio
                                                                               interpretando uno scrittore esperto


                                                                               Usa la descrizione
                                                                               per avviare una nuova chat


                                                                               Chiedi al modello
                                                                               di interpretare il personaggio

                                                                               Interagisci con il modello per ottenere le istruzioni
                                                                               desiderate nel ruolo del personaggio
                                             63 63
   58   59   60   61   62   63   64   65   66   67   68