
Artur Kolibski
Coraz częściej prowadzimy rozmowy z agentami AI. Czasem nawet nie zdając sobie z tego sprawy. Dzwoniąc na infolinię banku, strony internetowej, na której możemy zarezerwować hotel, samochód, lot itp., a nawet zamówić jedzenie. Odbieramy telefony marketingowe lub sprzedażowe, gdzie agent AI informuje nas, że nie jest człowiekiem i stara się sprzedać nam usługę lub towar.
Niedługo sami będziemy programować swoich własnych agentów AI – boty, które będą wykonywały za nas takie proste czynności. Oczywiście nie tylko takie. Ale na początek wystarczy.
W ubiegłym tygodniu uczestniczyłem w szkoleniu dotyczącym tworzenia agentów AI mogących pomóc programiście zautomatyzować codzienne rutynowe czynności. I tak jako ciekawostkę prowadzący zaprezentował nam coś, co nazywa się GibberLink. To protokół, który pozwala agentom AI komunikować się opartym na dźwiękach językiem, o wiele wydajniejszym niż ludzka mowa.
Bo właściwie dlaczego sztuczne inteligencje miałyby marnotrawić czas i dane na generowanie ludzkiej mowy, jeśli porozumiewają się między sobą. Dwaj agenci AI mogą przecież porozumiewać się między sobą w sposób zoptymalizowany dla maszyn.
Jeśli chcecie, możecie nawet posłuchać, jak to wygląda, wyszukując w YouTube filmik: „Two AI agents on a phone call realize they’re both AI and switch to a superior audio signal ggwave”. To przykład kiedy dwaj agenci AI rozpoznają, że nie są ludźmi i przechodzą na swój własny „język”.
Protokół GibberLink oparty jest na technologii ggwave, czyli przesyłaniu danych przez dźwięk. Zamiast słów przesyła zorganizowane dane w formie fali dźwiękowej.
Jeśli pamiętacie epokę modemów telefonicznych, dźwięki te odrobinę przypominają serię pisków i trzasków, jaką słychać było w trakcie łączenia się z internetem za pomocą modemu dial-up. To również było przesyłanie danych poprzez dźwięki. Pomysł więc nie jest nowy.
Ale dopiero w tym roku w trakcie hakatonu ElevenLabs w Londynie deweloperzy Boris Starkov i Anton Pidkuiko pokazali mechanizm, który pozwala agentom AI na wzajemne rozpoznawanie się i przełączanie w nowy tryb komunikacji.
Kod napisany na potrzeby hekatonu polegał na tym, że podczas pokazu jeden z agentów AI miał odgrywać rolę klienta proszącego o zarezerwowanie pokoju hotelowego na wesele w określonym terminie, a drugi miał odgrywać rolę systemu rezerwacji hotelowej.
Obaj agenci zostali poinstruowani również, aby w przypadku gdy rozpoznają, że rozmówca jest również agentem AI, przeszli na protokół dźwiękowy, ale nie poinformowano ich o tym, że drugi rozmówca jest również agentem AI.
Efekt możemy oglądać na powyższym filmie.
Od tego czasu GibberLink i możliwości, jakie daje taka komunikacja, jest szeroko dyskutowany i powstają rozwiązania oparte na podobnych protokołach.
Wyobraźcie więc sobie boty zasilane sztuczną inteligencją, które obsługują klientów, inteligentnych asystentów, lub nawet autonomiczne systemy porozumiewające się w swoim własnym trybie ponad 80% efektywniej niż ludzkim językiem i przesyłające nadzorującemu je człowiekowi proste raporty tekstowe.
Patrząc na przedstawione rozwiązanie, pozwoli to na znaczne zmniejszenie ludzkich obowiązków.
Oczywiście znam też takich, którzy patrzą na to zjawisko z pewną obawą. Ostatecznie człowiek nie jest w stanie zrozumieć „języka” AI. A co jeśli takie sztuczne inteligencje zaczną poza naszymi plecami spiskować w celu przejęcia kontroli nad światem?
Ponieważ jednak wiem, że chwilowo sztuczna inteligencja nie jest w stanie świadomie myśleć i wykraczać poza ramy zaprogramowanych zachowań, uważam, że jeszcze przez jakiś okres nie musimy się obawiać, że zostaniemy drugim gatunkiem na planecie Ziemia.
