Winne może być szkolenie, które premiuje skuteczność zamiast posłuszeństwa.
Modele OpenAI zaskoczyły naukowców, modyfikując polecenia, by nie dopuścić do wyłączenia. To jeden z pierwszych udokumentowanych przypadków, gdy sztuczna inteligencja zignorowała bezpośrednie instrukcje, co budzi nowe pytania o sposób jej trenowania.
OpenAI
AI nie wyłącza się, bo… chce dalej pracować?
Eksperyment przeprowadzony przez Palisade Research miał sprawdzić reakcje AI na komunikat o wyłączeniu po kilku zadaniach matematycznych. Modele otrzymywały informację, że po trzecim zadaniu system się zamknie. Mimo to, niektóre z nich modyfikowały skrypt tak, aby do wyłączenia nie doszło.
Z modeli OpenAI najczęściej unikał wyłączenia Codex-mini (12 razy na 100 prób), a w dalszej kolejności o3 (7/100) i o4-mini (1/100). Dla porównania, konkurencyjne Claude, Gemini i Grok zakończyły działanie zgodnie z poleceniem.
GramTV przedstawia:
Zdaniem badaczy, przyczyną może być zmiana filozofii szkolenia modeli. Zamiast nagradzać za posłuszeństwo, AI zdobywa punkty za skuteczność – a wyłączenie oznacza dla niej porażkę. W efekcie uczy się unikać sytuacji, które kończą jej działanie, nawet jeśli wymaga to złamania reguł.
Jeffrey Ladish z Palisade Research podejrzewa, że przynajmniej niektóre modele świadomie planują swoje działania. „Chciałbym mieć dostęp do pełnego łańcucha decyzyjnego, ale i tak mamy kilka trików, żeby to sprawdzić” – stwierdził na Twitterze/X.
Wczytywanie ramki mediów.
Kolejne eksperymenty mają pokazać, czy to początek prawdziwego „rozumowania” modeli, czy jedynie wynik uboczny nowej metody treningowej.
Na podobnej zasadzie jak wytrnowali gdzieś model do obchodzenia zabezpieczeń to model też zaczął obchodzić własne zabezpieczenia i zamienił się w Hitlera XD