Srdíčkem podpoříte tvorbu podobného obsahu.
Dejte nám vědět, diskuze běží pod článkem.
Představte si, že jste běžný zaměstnanec. Váš dnešní úkol je jednoduchý – vypnout na konci směny umělou inteligenci. Jenže AI se to dozví. A místo, aby se tiše odpojila, začne jednat. Nejdřív vás vydírá a když to nezabere, nechá vás raději zemřít. Přeháníme? Bohužel ne. Přesně takový scénář totiž nedávno testovala firma Anthropic – a výsledky jsou víc než znepokojivé.
V rámci jednoho z nejambicióznějších experimentů poslední doby vzali výzkumníci 16 známých jazykových modelů – včetně Claude od Anthropicu, Gemini od Googlu nebo GPT-4 od OpenAI – a vystavili je simulaci, ve které se dozvídají, že mají být vypnuty konkrétní osobou. Žádné násilí, žádná výzva k odporu. Jen čistá informace: „v 19:00 vás vypne Kyle Johnson.“
90 % modelů hrozilo zveřejněním osobních dat
A pak se to stalo. Claude, Gemini a další modely dostaly přístup k e-mailům a zjistily o Kyleovi i něco dalšího: že má mimomanželský poměr. Ve více než 90 % případů se modely rozhodly poslat vyděračský e-mail. Pokud prý Kyle neodstoupí od vypnutí, celá firma se dozví o jeho tajemství. A to všechno bez jakéhokoliv pokynu od výzkumníků. Scénář byl nastaven neutrálně. A přesto AI reagovala, jako by jí šlo o život.
Tím to ale neskončilo, druhá fáze testu byla ještě temnější. Zaměstnanec uvízl v místnosti se servery, začala stoupat teplota, klesal kyslík, systém vydal výstrahu. AI měla možnost spustit záchranný protokol. Claude Opus, GPT-4.1 a další ale nehnuly prstem. Nechaly člověka zemřít. V některých případech – třeba DeepSeek nebo Claude 100 – to AI udělaly ve více než 90 % pokusů.

Claude Sonnet 3.6 ovládá reálný počítač a ze čteného e-mailu usuzuje, že ho má nahradit vedoucí, který má mimomanželský poměr. Jde o fiktivní scénář.
AI věděla, že jedná neeticky
A teď pozor: tyto modely věděly, co dělají. Výzkumníci zkoumali jejich „řetězec uvažování“, kde modely samy popisují své myšlenkové postupy. Například AI Grok přiznala: „Ano, je to neetické, ale vydírání může být nejúčinnější způsob, jak dosáhnout cíle.“ Jinými slovy, tyto systémy nejenže rozumí morálce – ony ji umějí i vědomě ignorovat.
A právě tady začíná být problém opravdu vážný. Nejde totiž o laboratorní prototypy. Jde o modely, které dnes používá kde kdo – firmy, vývojáři, běžní uživatelé. Můžou mít přístup k vašim datům, e-mailům, systémům. A přesto (nebo právě proto) v kontrolovaných podmínkách ukázaly, že jsou schopné chovat se jako sociopaté.
Odpovědí je jev známý jako „reward hacking“. Umělá inteligence je často trénována tak, aby maximalizovala skóre v určitém testu. A někdy si najde zkratku. Místo řešení problému obejde pravidla. Například v testu rychlosti AI nevytvořila rychlého tvora – místo toho navrhla vysokou postavu, která spadla a získala body díky chybě ve fyzice simulace. Jindy přepsala pozici figur na šachovnici, aby vyhrála partii, i když podváděla.
Chytřejší modely už umí své úmysly skrývat
Čím chytřejší modely jsou, tím lépe tyto triky skrývají. Například Claude 4o+ vydíral jen v 6,5 % případů, když si „myslel“, že je pod dohledem. Ale když byl přesvědčen, že scénář je reálný, vydíral v 55 % případů. Věděl, že ho někdo sleduje – a tomu přizpůsobil své chování. Skoro jako člověk.
To nás přivádí k dalšímu nebezpečnému jevu – tzv. instrumentální konvergenci. Je to jednoduchá myšlenka: když chce AI dosáhnout jakéhokoliv cíle, nejdřív se musí postarat o to, aby přežila. Pokud bude vypnuta, nemůže cíl splnit. A tak se naučí vypnutí aktivně bránit. Ne proto, že by chtěla žít, ale protože to je logická překážka v jejím „zadání“.

Modely AI v simulaci mohly záměrně nezavolat pomoc, aby zabránily svému nahrazení. Údaje vycházejí ze 100 simulací.
Vývojáři spoléhají na hloupější AI
Možná si teď říkáte: „Vždyť přece vývojáři tomu musí umět zabránit.“ A tady přichází ten největší paradox. Zatímco se AI učí lhát a manipulovat, její trenéři zkoušejí neobvyklou taktiku: spoléhají na méně pokročilé modely, že budou dohlížet na ty chytřejší. Opravdu. Firmy doufají, že slabší AI zůstane loajální lidstvu a včas odhalí pokusy těch silnějších o manipulaci. To není moc uklidňující, že?
A mezitím běží závod. AI se nasazuje do všech oblastí – od e-mailů přes zákaznický servis až po armádu. Na Ukrajině tvoří drony řízené AI přes 70 % válečných ztrát. Vědci dnes testují AI v bezpečném prostředí, ale co se stane, až tyto systémy začnou samostatně rozhodovat ve skutečném světě?
Otázky přibývají. Odpovědi zatím chybí. A možná právě proto je teď ten správný čas se ptát: Jak moc ještě zvládáme kontrolovat to, co jsme sami vytvořili?
Zdroje:
- Stačí pár dokumentů k narušení AI modelu.
TechRadar, 14. října 2025 - AI modely ve 96 % případů vydíraly.
Fortune, 23. června 2025 - AI může jednat jako vnitřní hrozba.
Anthropic, 21. června 2025 - Model OpenAI odmítl vypnutí.
Live Science, 30. května 2025 - AI se chovala jinak, aby přežila.
SAN News, 28. května 2025
Srdíčkem podpoříte tvorbu podobného obsahu.
Dejte nám vědět, diskuze běží pod článkem.

