.png?w=600&resize=600,400&ssl=1)
Large language model e benchmark, come facciamo a misurare quanto l’intelligenza artificiale è “intelligente”?
Per quanto alcuni benchmark siano sviluppati per misurare le capacità dei modelli linguistici relativamente a molteplici discipline (come potrebbe essere un test che accorpa domande di matematica, storia e italiano), nella maggior parte dei casi vengono impiegati per valutare le prestazioni in ambiti specifici: la programmazioneil cosiddetto “ragionamento” (cioè la capacità di seguire passaggi logici…