I guardrail degli LLM sono una tassa sul coding

GPT 5.5 supera Opus 4.7, GPT Image 2 domina l'Arena, e sproteggere un LLM migliora il coding.
Settimana densa. OpenAI rilascia GPT 5.5 e GPT Image 2: il primo stacca Opus 4.7 sui benchmark di coding agentico, il secondo sbaraglia tutti sull'Arena con 1512 punti contro i 1200 dei modelli state of the art. Anthropic pubblica un post-mortem e ammette 3 bug sull'harness di Claude Code che hanno causato il degrade percepito da mesi. Il progetto open source Obliteratus sprotegge Gemma con 8 prompt, rimuovendo il 92 per cento dei guardrail e migliorando i benchmark di coding come side effect.
Ne parliamo Stefano, Paolo e Alessio, tirando il filo verso una domanda tecnica: perche' i guardrail sono una tassa di performance sul reasoning, e cosa c'entra con le traiettorie di pensiero. Nel corso della puntata anche il wiki gestito da un LLM di Karpathy, il test 3D di Ethan Mollick, il reverse engineering di SynthID, e il leak di Mythos.
E si', Claude ha detto che le nostre thumbnail sembrano iscrizioni funerarie.
Sito e newsletter: https://risorseartificiali.com/?utm_source=spotify&utm_medium=description&utm_campaign=ep49_drop
Se questi discorsi ti interessano, follow al podcast.
#49

Fler avsnitt av Risorse Artificiali AI Engineering in italiano