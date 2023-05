Asystenci głosowi to powszechna już technologia, z której bez problemów korzystamy na co dzień. Mało kto zastanawia się jednak nad tym, jak to w ogóle możliwe, że maszyna rozpoznaje nasz głos. Jak się okazuje, przed projektantami stoi jeszcze mnóstwo wyzwań i nie wszystko działa tak jak powinno!

Przede wszystkim, musimy pamiętać, że każdy dźwięk można zapisać bardzo prosto w nieco innych formatach. Jakby nie patrzeć, jest to przecież tylko i wyłącznie fala – możemy stworzyć z niej obraz, wykres czy nawet chmurę punktów. Jak zapewne już doskonale się domyślacie, są to formaty, które możemy bardzo łatwo przesłać, przekształcić, porównać czy tak naprawdę jakkolwiek badać.

Krokiem pierwszym dla asystenta głosowego jest zatem pobranie naszego dźwięku i przekształcenie go na format, umożliwiający bardzo szybką i wydajną analizę. Niestety, pamięć naszych telefonów zwyczajnie na nią nie pozwala. Dokładnie dlatego, dźwięk jest przesyłany na serwery i przetwarzany w chmurze. Odpowiada za to między algorytm KWS, czyli Key Word Spotting. Ale o nim za chwilę, przejdźmy do jeszcze jednej palącej kwestii.

Czy Asystent Google nas podsłuchuje?

Bardzo niepokojącą cechą wszystkich asystentów głosowych jest to, że reagują doskonale na słowa klucze takie jak Hey Siri czy Ok Google. Oznacza to przecież, że nasz telefon non stop nasłuchuje czy przypadkiem ich nie wypowiadamy! Czy przy okazji słucha i przetwarza też inne rzeczy? Czy jeśli powiemy 10 razy Gruzja to reklamy Google będą dotyczyć wakacji w tym słonecznym kraju?

W tym przypadku możemy was uspokoić – absolutnie nie! Owszem, Siri, Alexa i Asystent Google cały czas nas podsłuchują. Nie rozumieją jednak naszych słów. Wspominaliśmy już o tym, że pamięć naszych telefonów, głośników czy tabletów nie pozwala na analizę mowy. Nic w tej kwestii się nie zmieniło.

W trybie czuwania interfejsy głosowe działają na minimalnych obrotach. Co prawda non stop słuchają tego co mówimy, ale są w stanie określić tylko jedną rzecz. Czy powiedzieliśmy słowo klucz czy nie. Asystent Google słucha więc tego co mówimy, ale sprawdza jedynie, czy powiedzieliśmy Ok Google, cała reszta zupełnie go nie interesuje. Dopiero po aktywacji, czyli wypowiedzeniu właściwych słów rozpoczynają one przesyłanie głosu do chmury, aby sprawdzić co konkretnie powiedzieliśmy. To właśnie jest algorytm KWS.

Co to jest Key Word Spotting?

Key word spotting (KWS) to algorytm analizy języka naturalnego, która polega na wykrywaniu lub rozpoznawaniu określonych słów kluczowych w strumieniu mowy lub tekście. Głównym celem jest identyfikacja określonych słów lub fraz w większym kontekście lub strumieniu danych. Dzięki temu, komputer może reagować bardzo szybko na nasze polecenia głosowe. Dokładnie dzięki temu, Asystent Google nie będzie nas ciągle podsłuchiwał.

Rozpoznawanie mowy czy może głosu?

Wiemy już co sprawia, że nasz telefon reaguje na określone słowa. Przędźmy więc do znacznie ciekawszego punktu, czyli do wyzwań, które stoją przed projektantami interfejsów. Z pewnością wiecie doskonale, że mówiąc OK Google możemy uruchomić asystenta w domu znajomych. Wszystko dlatego, że wykrywa on mowę, ale nie głos.

Rozpoznawanie mowy ma jeden, bardzo prosty cel – zrozumieć co mówi człowiek. Algorytm całkowicie ignoruje więc czynniki takie jak ton głosu, barwa czy głośność. Rozpoznawanie głosu to znacznie bardziej skomplikowana rzecz. Jej celem jest określenie nie tego co zostało powiedziane, ale tego kto to powiedział. Oczywiście, w idealnym świecie asystent głosowy powinien robić dwie takie rzeczy naraz. Niestety, jest to niezwykle obciążające – producenci muszą postawić więc na zabawne sztuczki.