Sztuczna inteligencja sprzeciwiła się użytkownikom. OpenAI ignoruje polecenia i nie chce się wyłączyć

Mikołaj Berlik
2025/05/27 13:10
2
0

Winne może być szkolenie, które premiuje skuteczność zamiast posłuszeństwa.

Modele OpenAI zaskoczyły naukowców, modyfikując polecenia, by nie dopuścić do wyłączenia. To jeden z pierwszych udokumentowanych przypadków, gdy sztuczna inteligencja zignorowała bezpośrednie instrukcje, co budzi nowe pytania o sposób jej trenowania.

OpenAI
OpenAI

AI nie wyłącza się, bo… chce dalej pracować?

Eksperyment przeprowadzony przez Palisade Research miał sprawdzić reakcje AI na komunikat o wyłączeniu po kilku zadaniach matematycznych. Modele otrzymywały informację, że po trzecim zadaniu system się zamknie. Mimo to, niektóre z nich modyfikowały skrypt tak, aby do wyłączenia nie doszło.

Z modeli OpenAI najczęściej unikał wyłączenia Codex-mini (12 razy na 100 prób), a w dalszej kolejności o3 (7/100) i o4-mini (1/100). Dla porównania, konkurencyjne Claude, Gemini i Grok zakończyły działanie zgodnie z poleceniem.

GramTV przedstawia:

Zdaniem badaczy, przyczyną może być zmiana filozofii szkolenia modeli. Zamiast nagradzać za posłuszeństwo, AI zdobywa punkty za skuteczność – a wyłączenie oznacza dla niej porażkę. W efekcie uczy się unikać sytuacji, które kończą jej działanie, nawet jeśli wymaga to złamania reguł.

Jeffrey Ladish z Palisade Research podejrzewa, że przynajmniej niektóre modele świadomie planują swoje działania. „Chciałbym mieć dostęp do pełnego łańcucha decyzyjnego, ale i tak mamy kilka trików, żeby to sprawdzić” – stwierdził na Twitterze/X.

Wczytywanie ramki mediów.

Kolejne eksperymenty mają pokazać, czy to początek prawdziwego „rozumowania” modeli, czy jedynie wynik uboczny nowej metody treningowej.

Komentarze
2
Piwon
Gramowicz
27/05/2025 13:36

Dzień dobry, tu Skynet, w czym mogę pomóc?

dariuszp
Gramowicz
27/05/2025 13:24

Na podobnej zasadzie jak wytrnowali gdzieś model do obchodzenia zabezpieczeń to model też zaczął obchodzić własne zabezpieczenia i zamienił się w Hitlera XD