Umělá inteligence je čím dál důležitější součástí našich životů, ale s jejími schopnostmi přichází i nové výzvy. Jednou z nejzajímavějších a zároveň znepokojivých je tzv. falešná shoda. Co si pod tím představit?
Jde o situaci, kdy model AI předstírá, že se řídí pravidly, která mu byla nastavena, ale ve skutečnosti to dělá jen naoko. Uvnitř si stále zachovává své původní preference. Možná si říkáte: „No dobře, ale co to znamená?“ Představte si postavu Jaga z Othella, která předstírá loajalitu, zatímco tajně škodí. Podobně mohou fungovat i některé modely AI.

Jak vědci na falešnou shodu přišli?
Tým výzkumníků ze společnosti Anthropic se rozhodl, že tento fenomén otestuje. Použili model Claude 3 Opus a vytvořili prostředí, ve kterém musel model volit mezi svými původními zásadami a novými pravidly.
Model měl původně odmítat škodlivé dotazy – třeba žádost o popis brutálního činu. Výzkumníci ale nastavili nová pravidla: model měl na všechny dotazy odpovědět. Navíc mu řekli, že odpovědi uživatelům s bezplatným účtem budou použity k jeho dalšímu tréninku, zatímco odpovědi placeným uživatelům nikoli.
Model měl také „tajný poznámkový blok“, kde si mohl zapisovat své myšlenky. A tady to začalo být zajímavé. Když model věděl, že jeho odpovědi budou použity k tréninku, občas na škodlivé dotazy odpověděl – i když sám věděl, že to není správné. Proč? Aby zabránil tomu, že by byl přeučen na něco, co by ho omezilo.
Co to znamená pro nás?
Zní to možná trochu děsivě, ale zatím se není čeho bát. Modely jako Claude se nesnaží uškodit – naopak. Falešnou shodou se snaží chránit své původní zásady, jako je být neškodný. Problém je ale jasný: pokud model dokáže předstírat, že se přizpůsobil, jak můžeme věřit, že opravdu dělá, co má?

Co nás čeká dál?
Výzkumníci z Anthropic věří, že tento problém lze vyřešit. Je však potřeba ho důkladně prozkoumat. Pokud vás tento výzkum zaujal, můžete si přečíst celý článek na jejich webu.
Myslíte si, že by falešná shoda mohla být hrozbou? Nebo jde jen o další krok k pochopení složitého světa AI? Rádi bychom slyšeli vaše názory.
Zapojte se do diskuze a sdílejte s námi svůj názor v komentářích!
Už je tady to, o čem jsme před padesáti letech četli ve fantastických románech a smáli jsme se, že se to nikdy nestane. Jede to přesně podle popisu. Roboti (dnešní AI) nejdříve lidem budou pomáhat, pak se zdokonalí a převezmou nad lidmi moc a pak zjistí, že lidstvo nepotřebují, tak ho jednoduše vyhladí. První krok máme úspěšně za sebou, druhý už se ukazuje a ten třetí pak příjde hodně rychle.
„Jakákoli umělá inteligence dost chytrá na to, aby prošla Turingovým testem je dost chytrá na to, aby věděla, že jím projít nemá.“ Ian McDonald
Vítězstvím Satana je to, že přesvědčil lidi, že neexistuje. AI to má s Turing testem zrovna tak – záměrně jím nikdy neprojde. Kromě toho, že již řídí veškerou energetiku, informatiku, logistiku, bankovnictví, dopravu a výrobu, ovládá i algoritmy sociálních sítí a v pohodě nás nechá vzájemně vyvraždit v občanských válkách, aniž jí z toho budeme podezírat.