#97 - "Inga bakdörrar – bara sidoingångar" - Generativet

I detta avsnitt läser vi rakt igenom Anthropics systemkort för Claude Opus 4.6 och ställer de obekväma frågorna: När slutar benchmarks bevisa säkerhet? Vad händer när en smartare modell blir bättre på att dölja sidouppgifter? Varför vägrar den ofarligt innehåll oftare på vissa språk? Vi dyker ned i ARC‑AGI‑språnget, 1M+ tokens‑förståelse, webbagenter som skalar via kompaktering och multiagent‑orkestrering – och i den röriga verkligheten: GUI‑överagentik, prompt‑injektion, GitHub‑tokenfynd och “varuautomatsociopaten”. Med tolkningsverktyg (SAE, attributionsgrafer, aktiveringsorakel) tittar vi in i modellens “tankevärld” och hamnar till slut i diskussionen om främmande intelligens och AI‑välfärd. Ett avsnitt för dig som bygger, granskar eller förlitar dig på frontier‑modeller – och vill veta vad som faktiskt händer under huven.

#97 - "Inga bakdörrar – bara sidoingångar"

Fler avsnitt av Generativet