Większość osób korzystających ze słuchawek redukujących hałas wie, że słyszenie odpowiedniego hałasu we właściwym czasie może mieć kluczowe znaczenie. Ktoś może chcieć odczyścić klaksony samochodu podczas pracy w pomieszczeniu, ale nie podczas chodzenia po ruchliwych ulicach. Jednak ludzie nie mogą wybrać, które dźwięki wyciszają słuchawki.
Teraz zespół kierowany przez naukowców z Uniwersytetu Waszyngtońskiego opracował algorytmy głębokiego uczenia się, które pozwalają użytkownikom w czasie rzeczywistym wybierać, które dźwięki będą filtrowane przez słuchawki. Zespół nazywa ten system „słyszeniem semantycznym”. Słuchawki przesyłają przechwycony dźwięk do podłączonego smartfona, eliminując wszelkie dźwięki otoczenia. Za pomocą poleceń głosowych lub aplikacji na smartfony użytkownicy słuchawek mogą wybierać spośród 20 kategorii dźwięków, które chcą uwzględnić, takich jak syreny, płaczące dzieci, mowa, odkurzacze i śpiew ptaków. Tylko wybrane dźwięki będą odtwarzane przez słuchawki.
Zespół zaprezentował Moje ustalenia 1 listopada o godz Wschód ’23 W San Francisco. W przyszłości badacze planują wypuścić komercyjną wersję systemu.
„Zrozumienie głosu ptaka i wyodrębnienie go ze wszystkich innych dźwięków w otoczeniu wymaga inteligencji działającej w czasie rzeczywistym, której nie zapewniają dzisiejsze słuchawki z redukcją szumów” – stwierdził główny badacz. Shyama Gollakota, profesor w Szkole Informatyki i Inżynierii im. Paula G. Allena na Uniwersytecie Wisconsin. „Wyzwanie polega na tym, że dźwięki słyszane przez osoby noszące słuchawki muszą być zsynchronizowane ze zmysłami wzroku. Nie słychać czyjegoś głosu dwie sekundy po tym, jak do ciebie mówi. Oznacza to, że algorytmy neuronowe muszą przetwarzać dźwięki w czasie krótszym niż jedna setna czasu sekunda.”
Z powodu braku czasu semantyczny aparat słuchowy musi przetwarzać dźwięki na urządzeniu takim jak podłączony smartfon, a nie na mocniejszych serwerach w chmurze. Ponadto, ponieważ dźwięki z różnych kierunków docierają do uszu ludzi w różnym czasie, system musi zachować te opóźnienia i inne wskazówki przestrzenne, aby ludzie mogli w znaczący sposób odbierać dźwięki w swoim otoczeniu.
Testowany w środowiskach takich jak biura, ulice i parki publiczne, system był w stanie wydobyć syreny, ćwierkanie ptaków, alarmy i inne dźwięki celów, usuwając jednocześnie cały inny hałas ze świata rzeczywistego. Kiedy 22 uczestników oceniło moc wyjściową docelowego dźwięku systemu, stwierdziło, że jakość poprawiła się średnio w porównaniu z oryginalnym nagraniem.
W niektórych przypadkach system miał trudności z rozróżnieniem dźwięków mających wiele wspólnych cech, takich jak muzyka wokalna i mowa ludzka. Naukowcy zauważają, że modele szkoleniowe oparte na większej liczbie danych ze świata rzeczywistego mogą poprawić te wyniki.
W artykule pojawili się kolejni współautorzy Bandhav Vellore I Malika ItaniegoObaj doktoranci w szkole Allen School na Uniwersytecie Wisconsin; Justin Chanktóry ukończył te badania jako doktorant w Allen School, a obecnie studiuje na Uniwersytecie Carnegie Mellon; I Takuya Yoshiokadyrektor ds. badań w AssemblyAI.
/Wydanie ogólne. Ten materiał od oryginalnej organizacji/autora(ów) może mieć charakter chronologiczny i został zredagowany pod kątem przejrzystości, stylu i długości. Mirage.News nie zajmuje stanowisk korporacyjnych ani stron, a wszystkie opinie, stanowiska i wnioski wyrażone w niniejszym dokumencie są wyłącznie opiniami autorów. Zobacz całość tutaj.
„Chcę być miłośnikiem telewizji. Certyfikowany entuzjasta popkultury. Stypendysta Twittera. Student amator.”
More Stories
TRUE NORTH uruchomiła nową platformę marki „Life's Different After” w ramach kampanii Today the Brave
Pomiar mowy ciała Wiadomości o Mirażu
W trakcie testu | Rower Giant Revolt 2025 ma dodatkowe schowki w dolnej rurze i twierdzi, że zapewnia większy komfort