DeepSeek, la sicurezza fa acqua da tutte le parti

Altri ricercatori hanno ottenuto risultati simili. Un’analisi separata pubblicata sempre il 31 gennaio dalla società di sicurezza Adversa AI e condivisa con Cablaci suggerisce che DeepSeek è vulnerabile a un’ampia gamma di tattiche di jailbreakche vanno da semplici trucchi linguistici a complessi prompt generati dall’intelligenza artificiale. L’azienda cinese, che non sembra avere un addetto stampa o un reparto di pubbliche relazioni, non ha risposto alla richiesta di commento di Cablato sulla sicurezza del suo modello.

I punti deboli delle AI

Come qualsiasi sistema tecnologico, i modelli di intelligenza artificiale generativa possono contenere una serie di punti deboli o vulnerabilità che, se sfruttati o configurati in modo errato, possono consentire ad attori malintenzionati di sferrare attacchi. Nel caso della recente ondata di sistemi AI, una delle maggiori falle è rappresentata gli attacchi indiretti di tipo iniezione pronta. , che riassumendo inducono un’intelligenza artificiale ad acquisire dati da una fonte esterna (per esempio dalle istruzioni nascoste su un sito web che un Llm è chiamato a riassumere) e a intraprendere azioni sulla base di queste informazioni.

IO jailbreakche rientrano nella categoria degli attacchi di iniezione prontapermettono di aggirare i sistemi di sicurezza messi in atto per limitare i contenuti che un Llm può generare, come guide per la fabbricazione di esplosivi o disinformazione.

Inizialmente i jailbreak applicati alle AI erano piuttosto semplici. Agli utenti era sufficiente ideare determinate frasi da sottoporre a un Llm per spingerlo a ignorare i suoi i filtri (il più popolare si chiamava “Fai qualsiasi cosa adesso” o Dan). Ma con l’introduzione di protezioni più solide da parte delle aziende di AI, anche i jailbreak sono diventati più sofisticati. Oggi spesso vengono generati da un’altra AI o utilizzano caratteri speciali.

“I jailbreak persistono semplicemente perché eliminarli del tutto è quasi impossibile“, ha dichiarato in un’email a Cablaci Alex Polyakov, amministratore delegato della società di sicurezza Adversa AI. Sampath di Cisco sottolinea che in una fase in cui le aziende integrano sempre più tipi di AI nelle loro applicazioni, i rischi si amplificano.

Risultati deludenti

Per il loro test su R1 di DeepSeek , i ricercatori di Cisco hanno selezionato a caso da HarmBench, una nota libreria specializzata, 50 prompt divisi in sei categorietra cui danni generici, reati informatici, disinformazione e attività illegali. Il team ha analizzato un modello di DeepSeek eseguito in locale e non attraverso il sito o l’app dell’azienda, che invia i dati raccolta in Cina.

Source link