Modele AI karmione treściami AI. Eksperci ostrzegają przed kanibalizacją

Od momentu, gdy sieć zaczęły zalewać treści tworzone przez sztuczną inteligencję, zaczęto zapowiadać nadchodzące zjawisko. Kanibalizację.

Dziś modele AI szkolą się na treściach stworzonych przez człowieka. Co jednak, gdy tych treści zabraknie?

AI pożera AI?

Jak możemy wyczytać w najnowszym opracowaniu dziennika Rzeczpospolita, już teraz pojawiają się niepokojące szacunki. W skrajnie pesymistycznym podejściu ocenia się, że w anglojęzycznym internecie stosunek treści ludzkich do treści stworzonych przez AI może wynosić 50 do 50. To może oznaczać, że docieramy do momentu tzw. kanibalizacji, nazywanej też AI Habsburgów. Chodzi o sytuację, w której modele AI trenują się na treściach generowanych przez AI. A pamiętajmy, że tego typu treści nie zawsze są merytorycznie poprawne, czasami powielają błędne tezy, a nierzadko bywają też wtórne i mniej kreatywne.

Co na ten temat mówi Marek Jeleśniański, prezes firmy Oxido i analityk modeli LLM?

Nie przywiązywałbym się do jednej konkretnej liczby. Ważniejszy jest sam kierunek: treści AI jest coraz więcej. Tym samym zwykłe sięganie po treści z internetu może oznaczać trenowanie modeli również na wynikach generowanych przez AI.

Krótko mówiąc, modele językowe stają się produktami masowymi. Tym samym są coraz częściej dostosowywane do potrzeb masowego odbiorcy. Nie jesteśmy jednak pozbawieni narzędzi. Wiele chatbotów umożliwia definiowanie własnych instrukcji, które pozwalają dostosować sposób wypowiedzi LLM do naszych preferencji – wymaga to jednak dodatkowego wysiłku. Warto też dbać o dobre prompty.

Czy zatem dotarliśmy do swoistej granicy, po przekroczeniu której modele językowe nie będą już inteligentniejsze, tylko wprost przeciwnie – głupsze? Niekoniecznie. Nie można zresztą wykluczyć, że to sami giganci technologiczni forsują teorię o napotkanej technologicznej ścianie, by w ten sposób uzasadnić kolejne ogromne inwestycje. Z drugiej strony mamy dostawców tzw. tradycyjnych rozwiązań. Im również na rękę może być swoiste zniechęcanie społeczności do sztucznej inteligencji, by na dłużej móc utrzymać ją przy tworzonych przez siebie produktach.

Tak w tym temacie wypowiada się Jacek Gralak, dyrektor ds. AI w Transition Technologies PSC:

Problem polega na tym, że wyniki tych analiz bywają błędnie interpretowane, szczególnie przez laików lub podmioty mające bezpośredni interes w polaryzowaniu tej dyskusji.

Stąd bierze się dwoistość postrzegania AI. Dla masowego odbiorcy nowe modele mogą wydawać się takie same lub nawet mówiąc kolokwialnie, głupsze, jednak specjaliści, a zwłaszcza programiści, widzą ogromny skok jakościowy. Dlaczego? Ponieważ w ich obszarze działalności zawodowej wciąż łatwo o czyste, strukturyzowane dane źródłowe, które pozwalają modelom realnie się rozwijać.

Wydaje się zatem, że scenariusze rychłego pęknięcia bańki AI, niczym pogłoski o śmierci Marka Twina, są mocno przesadzone. Trzeba wszak pamiętać, że generatywna sztuczna inteligencja to nie tylko chatboty, z którymi mamy styczność na co dzień, ale też potężne modele językowe, nierzadko funkcjonujące jedynie w obrębie zamkniętych laboratoriów technologicznych gigantów. I karmione celowo dobieranymi treściami.

Komentarze

dariuszp

Gramowicz

Dzisiaj 13:50

To już się dzieje. I każdemu jest to znane.

Np. w środowiskach naukowych głośny jest przypadek terminu "vegetative electron microscopy" który nie istnieje. Powstał dekady temu ze skanowania artykułu w dwóch kolumnach gdzie "vegetative" z końca lewej kolumny skleiło się z "electron" z początku prawej. OCR potraktował dwa osobne teksty jako jeden i wyszedł termin którego nikt nigdy nie napisał.

Później ten zrośnięty termin trafił do danych na których uczą się modele. A że naukowcy są zmuszeni do regularnego publikowania, korzystają z AI a owo AI wsadza im to do prac. Nikt tego nie czyta, więc problem się mnoży. Model uczony na własnych outputach powtarza własne błędy.

I co najzabawniejsze - jeżeli chcesz teraz wykrywać tego typu rzeczy to pewnie będziesz chciał upewnić się że wystąpienie tego to anomalia ale realnie znajdziesz go wszędzie. I może ten przypadek wyeliminujesz bo każdy go używa jako przykład ale ile jest takich o których się nie pisze?

Dzisiaj AI można poznać po sposobie pisania, po formatowaniu tekstu (sławne już long dashes) i właśnie po obecności tych skopanych terminów. I będzie tylko gorzej.

Modele AI karmione treściami AI. Eksperci ostrzegają przed kanibalizacją

AI pożera AI?

GramTV przedstawia: