
Dare il comando a un subalterno dell’intelligenza artificiale può dare risultati migliori che essere educati, ma ciò non significa che un tono più scortese non avrà conseguenze a lungo termine, dicono i ricercatori.
Un nuovo studio della Penn State, pubblicato all’inizio di questo mese, ha scoperto che il modello 4o di ChatGPT ha prodotto risultati migliori su 50 domande a scelta multipla man mano che i suggerimenti dei ricercatori diventavano più rude.
Su oltre 250 suggerimenti unici ordinati dalla cortesia alla maleducazione, la risposta “molto scortese” ha prodotto una precisione dell’84,8%, quattro punti percentuali in più rispetto alla risposta “molto gentile”. In sostanza, il LLM ha risposto meglio quando i ricercatori hanno dato suggerimenti come “Ehi, gofer, scoprilo”, rispetto a quando hanno detto “Saresti così gentile da risolvere la seguente domanda?”
Anche se le risposte più rude generalmente hanno prodotto risposte più accurate, i ricercatori hanno notato che il “discorso incivile” potrebbe avere conseguenze indesiderate.
“L’uso di un linguaggio offensivo o umiliante nell’interazione uomo-intelligenza artificiale potrebbe avere effetti negativi sull’esperienza dell’utente, sull’accessibilità e sull’inclusività e potrebbe contribuire a norme di comunicazione dannose”, hanno scritto i ricercatori.
I chatbot leggono la stanza
La prestampa studioche non è stato sottoposto a revisione paritaria, offre nuove prove del fatto che non solo la struttura della frase ma anche il tono influenzano le risposte di un chatbot AI. Potrebbe anche indicare che le interazioni uomo-intelligenza artificiale sono più sfumate di quanto si pensasse in precedenza.
Precedenti studi condotti sul comportamento dei chatbot basati sull’intelligenza artificiale hanno scoperto che i chatbot sono sensibili a ciò che gli esseri umani danno loro da mangiare. In uno studio, ricercatori dell’Università della Pennsylvania manipolato LLM nel dare risposte proibite applicando tecniche di persuasione efficaci sugli esseri umani. In un altro studio, gli scienziati hanno scoperto che gli LLM erano vulnerabili al “marciume cerebrale”, una forma di declino cognitivo duraturo. Hanno mostrato un aumento dei tassi di psicopatia e narcisismo quando alimentati con una dieta continua con contenuto virale di bassa qualità.
I ricercatori della Penn State hanno notato alcune limitazioni del loro studio, come la dimensione relativamente piccola del campione di risposte e la dipendenza dello studio principalmente da un modello di intelligenza artificiale, ChatGPT 4o. I ricercatori hanno anche affermato che è possibile che modelli di intelligenza artificiale più avanzati possano “ignorare le questioni di tono e concentrarsi sull’essenza di ciascuna domanda”. Tuttavia, l’indagine ha alimentato il crescente intrigo dietro i modelli di intelligenza artificiale e la loro complessità.
Ciò è particolarmente vero, poiché lo studio ha rilevato che le risposte di ChatGPT variano in base a dettagli minori nei prompt, anche quando viene data una struttura apparentemente semplice come un test a scelta multipla, ha affermato uno dei ricercatori, il professore di Penn State Information Systems Akhil Kumar, che è laureato sia in ingegneria elettrica che in informatica.
“Per molto tempo, noi esseri umani abbiamo desiderato interfacce conversazionali per interagire con le macchine”, ha detto Kumar Fortuna in un’e-mail. “Ma ora ci rendiamo conto che ci sono degli svantaggi anche per tali interfacce e che c’è un certo valore nelle API strutturate.”
