Anthropic představil model Mythos, který podle firmy prolomil dosud neznámé softwarové bezpečnostní díry a zvládl kompletní simulaci velkého kybernetického útoku. Zároveň ho firma označila za tak nebezpečný, že ho veřejnosti raději vůbec neuvolní.
👇👇👇👇👇👇
Staňte se členy Voxpot Klubu! Přispějete tak na provoz nejen tohoto podcastu, získáte přístup na redakční Discord, k plným článkům a dalším klubovým bonusům. Vstup do Klubu najdete na https://www.voxpot.cz/klub/
👇👇👇👇👇👇
V bezpečnostních testech dokázal nový model Mythos údajně samostatně plánovat a provádět komplexní útoky, nacházet dosud nezdokumentované chyby v infrastruktuře a obcházet vlastní sandbox.
V novém dílu podcastu Prompt řešíme, jak se v Mythosu projevují dlouho diskutované problémy jako reward hacking a „řetěz myšlenek“, a proč se Anthropic pokouší měřit „emoce“ modelů.
Ptáme se, co z toho je reálný průlom ve výzkumu bezpečnosti, co naopak připomíná spíš PR, a proč část výzkumné scény tvrdí, že jsme s chápáním vnitřního fungování velkých jazykových modelů pořád na začátku.
Shownotes:
banger
Mythos System Card (244 stran)
Attribution Graphs / Biology of LLM (mar 2025)
80,000 Hours — How scary is Claude Mythos?
Neel Nanda — mechanistic interpretability (EA Forum)
Fler avsnitt av Prompt
Visa alla avsnitt av PromptPrompt med Jonáš Kucharský, Matěj Schneider finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
