Czy to koniec muzyki jaką znamy? AI może zmienić wszystko

Chyba w końcu dożyliśmy czasów w których sztuczna inteligencja potrafi w muzyce zdziałać cuda – czy nam się to podoba czy nie.

Jeszcze kilka lat temu wydawało się, że muzyka z całym swoim emocjonalnym, nieuchwytnym charakterem pozostanie ostatnim bastionem ludzkiej kreatywności. Niestety dziś wiemy, że tak nie jest i raczej nie będzie. Sztuczna inteligencja weszła na scenę muzyczną z impetem, komponując, analizując oraz interpretując dźwięki na każdy możliwy sposób. Zmieniła nie tylko sposób tworzenia muzyki, ale także jej odbiór. To, co dla jednych jest fascynującym narzędziem przyszłości, dla innych staje się zagrożeniem dla artystycznej autentyczności. Gdzieś po środku tego wszystkiego jesteśmy też my - słuchacze, którzy z jednej strony doceniają możliwości oferowane przez AI, ale z drugiej widzący, że świat muzyki zmierza w zupełnie inną, nieco niepokojącą stronę.

Chester Bennington
Chester Bennington

AI całkowicie zmienia świat muzyki

Czasy mocno się zmieniły. Sztuczna inteligencja potrafi dzisiaj bez problemu komponować utwory w stylu Chopina, Beatlesów, Queen, Radiohead, Linkin Park czy czegokolwiek sobie zażyczycie. To co jest w tym wszystkim najbardziej przerażające, to fakt, że robi to często zaskakująco przekonująco i dobrze. Modele takie jak OpenAI MuseNet czy Google Magenta analizują tysiące elementów, ucząc się struktur harmonicznych, rytmów i emocjonalnych schematów. W efekcie mogą tworzyć oryginalne kompozycje, które brzmią tak, jakby wyszły spod ręki człowieka.

Dla wielu artystów AI staje się inspirującym partnerem. Brian Eno wykorzystuje algorytmy generatywne do tworzenia ambientowych pejzaży dźwiękowych, a artystka Holly Herndon współpracuje z cyfrowym chórem stworzonym przez AI. W tym ujęciu sztuczna inteligencja nie zastępuje człowieka, a raczej rozszerza jego wyobraźnię, pozwalając eksperymentować z brzmieniami, które wcześniej były poza zasięgiem. Co jeśli jednak nastał dzień w którym zaczniemy słuchać muzyki w pełni zaoferowanej przez AI? Zacząłem o tym myśleć w momencie gdy YouTube zaproponował mi zespół Iskra Cieni. Rockowe utwory brzmiały zaskakująco dobre, a wokalistka wyciągała wszystko w bardzo naturalny sposób. Przyznaję wpadło mi to w ucho i chciałem więcej. Jakież było moje zdziwienie gdy zacząłem szukać zespołu i odkryłem, że jest on w pełni wygenerowany przez AI. Brzmiało to tak naturalnie, że bez sprawdzenia dałem się nabrać, iż jest to faktycznie istniejący zespół złożony ze zdolnych muzyków. Co więcej, Iskra cieni poszła o krok dalej i wygenerowała 12-minutowy koncert, w którym świetnie spinają się dźwięki publiczności, jest odpowiedni pogłos, a wszystko nadal klei się ze sobą tak jak nie raz miałem okazję doświadczyć na żywo. Szczęka mi opadła i jak się okazało, nie tylko mnie. Sekcja komentarzy była zadowolona i chciała więcej.

Od tego momentu zacząłem szperać i trafiałem na kolejne zespoły w całości wygenerowane przez sztuczną inteligencję, tym razem zagraniczne. Przykładem może być Novi Vibes, które tak samo posiada utwory wykonane na bardzo dobrym poziomie i jestem przekonany, że tak zwany “przeciętny Kowalski” w ogóle nie zwróciłby uwagi na to, czy są to ludzie czy jednak AI. Tutaj ponownie, ze strony słuchaczy pojawia się wiele zachwytów i chęci słuchania kolejnych kompozycji. Czy to nam już wystarczy? Czy to jest moment w którym prawdziwe zespoły, będą szły w odstawkę, dlatego że wolimy słuchać sztucznego tworu, który – niestety – czasami nawet brzmi lepiej niże niektóre prawdziwe zespoły?

Przyznam szczerze, że w momencie gdy zaczęło mi się to podobać i dobrze mi się tego słuchało, to poczułem się z tym faktem jakiś dziwnie nieswojo, a nawet nieco nieprzyjemnie. Jako fan klasycznego rocka i w zasadzie wielu innych gatunków opartych na gitarach, zawsze byłem i będę kibicował, aby prawdziwe utalentowane zespoły trafiały do jak największej liczby odbiorców. Nie sądziłem, że kiedyś do dobrej zabawy będzie mi wystarczył w pełni cyfrowy produkt. Oczywiście zaprojektowany przez człowieka, ale nadal – bez żywych ludzi z którymi można byłoby się utożsamić. Bardzo dziwne uczucie.

GramTV przedstawia:

Doceniam wykorzystywanie AI na przykład w studiach nagraniowych, gdzie dzisiaj jest ono niemal standardowym narzędziem. Oprogramowania takie jak LANDR automatyzują mastering, wyrównując poziomy głośności i balans częstotliwości z jakością, która jeszcze niedawno wymagała doświadczonego realizatora. Jeśli ma to ułatwić pracę ludziom, zaoszczędzić ich cenny czas, ale nie poświęcając przy tym jakości finalnego produktu – spoko, jestem za. Tu jednak przechodzimy do kolejnego przekraczania granic.

AI wspiera także miksowanie, czyszczenie nagrań, a nawet rozpoznawanie instrumentów i separację wokali, co umożliwia „odzyskiwanie” głosu artysty z dawnych nagrań, a to jest kolejny element, który można cenić lub czuć wobec niego obrzydzenie. Dzięki temu rozwiązaniu możliwe stało się tworzenie utworów w których AI naśladuje głos znanych artystów. Budzi to pewien niesmak, ale z drugiej strony jest fascynujące. Chester Bennington śpiewający utwór Queen? A może Freddy Mercury Nirvanę? Normalnie byłoby to nie do pomyślenia. Ostatnio popularne są także przeróbki gatunkowe, gdzie przykładowo mocny Papa Roach konwertowany jest na soul. Ciekawość to pierwszy stopień do piekła i nie ukrywam – sam jestem zaintrygowany różnymi wersjami “jakby to było”. Tylko mam gdzieś z tyłu głowy, że wykorzystywanie głosu często zmarłych wokalistów dla własnych korzyści jest nieco niesmaczne, a z pewnością wiele z tych przeróbek jak nie wszystkie, nie mają jakiejkolwiek zgody rodziny lub wytwórni.

Jeszcze rok temu, krytycy zarzucali AI brak emocji, oryginalności i intencji, czyli cech, które definiują muzykę jako sztukę. Maszyna nie doświadcza bólu, miłości ani zachwytu, więc nie może “prawdziwie” tworzyć, prawda?. Dziś technologia rozwinęła się do tego stopnia, że na przykładzie wspomnianej Iskry Cienia można powiedzieć, że te emocje się tam znajdują. Jeśli tak dalej pójdzie to muzyka generowana przez AI może zmienić nasze rozumienie autorstwa i oryginalności. Kto wie, być może w przyszłości artysta stanie się bardziej kuratorem niż twórcą. Kimś, kto współpracuje z inteligentnym systemem, nadając sens jego dźwiękom. Oho, Gucio odkrył DJ’a. Śmieję się, ale temat idzie o wiele grubiej niż to co robią twórcy muzyki elektronicznej.

Zastosowanie sztucznej inteligencji w muzyce to nie tylko technologiczna ciekawostka, ale wręcz kulturowe trzęsienie ziemi. AI pozwala każdemu komponować bez znajomości teorii muzyki, otwiera nowe możliwości w terapii, edukacji i rozrywce. Jednocześnie zmusza nas do redefinicji tego, co znaczy być artystą w epoce, gdy kreatywność staje się wspólnym dziełem człowieka i maszyny. Czy przyszłość muzyki jaką znamy jest skazana na zagładę? Niekoniecznie. Być może to właśnie dzięki tej współpracy człowieka i algorytmu powstanie nowy rodzaj piękna, które połączy serce człowieka z kodem bezdusznej maszyny, a prawdziwe naprawdę dobre zespoły będą po prostu dobrem luksusowym.

Dajcie znać czy słuchaliście przeróbek AI lub zespołów w całości wygenerowanych przez sztuczną inteligencję i jakie są wasz odczucia wobec tego.

Komentarze
4
dariuszp
Gramowicz
Ostatni środa
Gucio1846 napisał:

Już któryś raz widzę, że wspominasz o pracy nad grą. Co tam fajnego tworzysz? Zdradzisz jakiś szczegół? :)

dariuszp napisał:

Cóż, problem jest taki że nie dostajesz dokładnie tego co chcesz. Wiem bo używałem parę usług. Komponowanie samemu zawsze będzie lepsze. 

To jest dobre to zbierania pomysłów, inspiracji czy testowania wokalu. 

Sam np. zrobiłem sobie parę kawałków do gry która robię. Ale z muzyki nie jestem do końca zadowolony. Powód dla którego użyłem AI zamiast wziąć jakąś muzykę na wolnej licencji był banalny. 

Potrzebowałem lirykę nawiązująca do gry. Więc mój jedyny wybór to było wynająć zespół albo powierzyć odśpiewanie podanej liryki AI. Za n-tym podejściem się udało. 

Tutaj jest dużo do opowiadania plus jeszcze nie jestem gotów by się chwalić. Bardziej nawiązuje do doświadczeń tego co robię. Zauważ że wspominam pod tekstami o AI.

Pracuje jako programista ale nie w branży gier. Więc jest sporo nowości dla mnie. Tak samo bawiłem się kiedyś z Unity i odrobinę w Godot na tyle by zrobić jakieś prototypy w stylu tanks, asteroids, bomberman, proste strzelanki ale nic komercyjnego. Robiłem to dla zabawy. Unreal Engine to dla mnie nowość. Więc niestety jak zrobię podstawy ale wpadnę w jakiś system jak PCG, Motion Matching itp - tam jest dużo nauki samej w sobie. Bo są ludzie którzy dosłownie specjalizują się w tych obszarach. Ja muszę je ogarnąć wszystkie do jakiegoś minimalnego poziomu.

Ale już na tyle poważny jest ten projekt że mam design, mam prototyp i doprowadziłem mechanikę pojazdów do momentu gdzie już zamawiam u podwykonawców dodatkowe modele. Bo każdy samochód to jednak sporo pracy a kiedy ktoś robi dodatkowy na wzór podstawowego - mogę pracować nad czymś innym. 

Ale np. nie mam jeszcze świata gry. Bo pracuje nad generowaniem mapy ale nie chcę zwykłego miasta z ulicami pod kątem 90 stopni. Też nie chce by się budynki powtarzały co kawałek. Ale to oznacza mechanizm na mechaniźmie plus musisz to jeszcze ogarnąć żeby nie zabiło mnie wydajnościowo. Co nie jest proste bo w Unreal mała pomyłka i masz problem.

Mogę dać prosty przykład. Jeśli w Borderlands 4 gra zaczyna przycinać, gdy wchodzisz w nowy obszar, rzucasz granatem albo używasz nowej broni, to wina leży prawie zawsze po stronie tzw. shader compilation. Shadery to małe programy graficzne tłumaczone na język twojej karty graficznej. Każda karta i sterownik działa trochę inaczej, więc gra musi skompilować je specjalnie pod twój sprzęt.

Wiele efektów w Unreal Engine jest liczonych w czasie rzeczywistym, a nie pre-kalkulowanych jak dawniej. Dlatego część gier robi tzw. "shader precompilation" przy starcie.

Problem pojawia się, gdy twórcy zapomną o niektórych shaderach (np. efekt granatu generowany dynamicznie). Wtedy silnik musi skompilować go w trakcie gry, co powoduje chwilowe zacięcie – tzw. stuttering.

Wspominam o projekcie najczęściej przy okazji AI właśnie dlatego że miałem problemy w trakcie tworzenia. Np. chciałem "main theme" który ma lirykę nawiązującą do gry. Więc napisałem sobie lirykę co akurat było bardzo fajnym doświadczeniem. Bo jak próbowałem to "odśpiewać" to mimo rymu np. przeszkadzała mi liczba głosek. Tempo piosenki było nierówne w mojej głowie. Więc siedziałem i poprawiałem. No i chciałem to usłyszeć.

I co teraz? Płacić zespołowi grube pieniądze? Wynająć studio? Czy może wykorzystać Ai i wygenerować? Znalazłem usługę która pozwala na to by np. w 4-wersowej zwrotce 2 linie odśpiewała kobieta a 2 facet albo by robili to naprzemiennie i zrealizowałem piosenkę. I się zorientowałem czytając licencje że wygenerowaną muzykę mogę używać komercyjnie bez problemu. 

No i bam - zrobiłem kilka takich kawałków które mają nawiązywać do gry. A potem uzupełniłem resztę muzykę na wolnej licencji. 

Kolejny przykład AI. Miałem problem do rozwiązania. I poprosiłem Ai o przykłady jak inni to rozwiązują. I dostałem listę metod z przykładami w kodzie. I dużo z tych metod było skopanych co wiedziałem od razu bo np. były przestarzałe (legacy systemy) albo były pod inną wersję silnika. Ale mając przykład mogłem wybrać metodę i zrealizować ją wprowadzając zmiany pod nową wersję silnika. Też wiedząc co rekomenduje Ai mogłem zagłębić się w ten fragment dokumentacji języka. 

To sprawia że jednocześnie mogę się uczyć i tworzyć. Ale to też sprawia że mi schodzi dłużej. 

To samo z efektami dźwiękowymi. Potrzebowałem coś bardzo szczegółowego o specyficznej długości. Nie znam się na edycji dźwięku. Więc efekty generowałem. I używałem do tego popularną usługę stworzoną przez polaków - ElevenLabs. 

A teraz sam pracuję nad projektem AI gdzie chce użyć mały model językowy który zadziała na Twojej karcie graficznej do parafrazowania typowych templatek. Bo robisz templatkę w stylu "Darek zabił szefa gangu Nożowników". 

Bierzesz mały model językowy, dorzucasz kontekst że np. rozmówca Cię nie lubi, czy obaj wiemy o gangu, że wydarzenie było wczoraj, ten template i robisz prompt o parafrazę. I dostajesz np:

"Znowu Ty, słyszałem dupku że wykończyłeś wczoraj szefa Nożowników".

Ale też AI nie musi używać zawsze tych samych informacji jak dasz odpowiednie parametry (pozwalasz na kreatywność) więc możesz dostać np:

"Darek, wczoraj podobno zdjąłeś ich bossa"

"Darek, wczoraj znowu musiałeś się popisać co? Szef nożowników padł"

"Nie łudź się Darek, Wczoraj wszyscy widzieli jak kropnąłes ich bossa"

"Darek, słyszałem że wyczyściłeś lidera nożowników, nie licz na podziw"

Pozwoli mi to dodać reakcję NPC i przekazać informacje graczowi w kontekście tego co robił w grze i mieć dużą różnorodność tych reakcji by nie wyglądało to jak zwykły template. I nawet jak Ai wygeneruje coś semi bez sensu - potraktujesz to jako jakiś random tekst o NPC. 

Moje obecne marzenie jeżeli ten moduł mi się powiedzie to żeby znaleźć jakiś lekki syntezator mowy który nie brzmi jak robot by to sparować ale nawet bez tego - wystarczy mi mieć teksty nad głową NPC jak w Fallout 2 :-)

I to jest też w tym wszystkim fajne. Wszyscy gadają o generalnej sztucznej inteligencji wartej miliardy która potrzebuje infrastrukturę z dedykowaną elektrownią a zapominają że AI to też małe wyspecjalizowane modele które można użyć w kreatywny sposób. Które też pozwalają żebym miał w grę muzykę, pomagają mi uczyć się nowej branży. Czy jeżeli mi to wyjdzie - pozwalają zrobić małe rewolucje jeżeli chodzi o technologię NPC. 

Bez AI to wszystko jest możliwe. Ale parafrazowanie tego co mówi NPC wymagało by tony zwrotów i warunków i losowania randomów i modlenia się by każda kombinacja brzmiała spójnie. I dalej wyglądało by to jak template. Uczenie się pochłaniało by jeszcze więcej czasu. A o muzyce to w ogóle mógłbym zapomnieć. Tylko jakieś niepowiązane z grą kawałki albo kupiona albo na wolnej licencji. 

dariuszp napisał:

Cóż, problem jest taki że nie dostajesz dokładnie tego co chcesz. Wiem bo używałem parę usług. Komponowanie samemu zawsze będzie lepsze. 

To jest dobre to zbierania pomysłów, inspiracji czy testowania wokalu. 

Sam np. zrobiłem sobie parę kawałków do gry która robię. Ale z muzyki nie jestem do końca zadowolony. Powód dla którego użyłem AI zamiast wziąć jakąś muzykę na wolnej licencji był banalny. 

Potrzebowałem lirykę nawiązująca do gry. Więc mój jedyny wybór to było wynająć zespół albo powierzyć odśpiewanie podanej liryki AI. Za n-tym podejściem się udało. 

Już któryś raz widzę, że wspominasz o pracy nad grą. Co tam fajnego tworzysz? Zdradzisz jakiś szczegół? :)

Grze
Gramowicz
Ostatni środa

"Czegóż płaczesz? - staremu mówił czyżyk młody 

- Masz teraz lepsze w klatce niż w polu wygody". 

"Tyś w niej zrodzon - rzekł stary - przeto ci wybaczę;

Jam był wolny, dziś w klatce - i dlatego płaczę".

Tak więc idą zmiany, kolejne pokolenia nie będą w stanie wyobrazić sobie, jak można było np. dzwonić do kogoś kręcąc tarczą na pudełku co obcierało palec do krwi :-), a nie klepiąc w ekran lub - docelowo być może mówiąc lub nawet myśląc, że chcemy do kogoś zadzwonić.

No, chyba że znowu będzie wojna, albo nagle zabraknie prądu, bo Słońce obdarzy nas swoim oddechem. To będzie dopiero jazda. I nagle wsioki z Zadvpia Dolnego będą na szczycie cywilizacji, bo będą mieli stary traktor na zużyty olej z Maca... i wtedy wszyscy fani gier post-apo znajdą sie w swoim żywiole.

Także tak...




Trwa Wczytywanie