Naukowcy z Narodowego Instytutu Standardów i Technologii (NIST) opracowali nowe narzędzie statystyczne, które wykorzystali do przewidywania funkcji białek. Może nie tylko pomóc w trudnym zadaniu zmiany białek w praktycznie użyteczny sposób, ale także działa w pełni wytłumaczalny sposób – przewaga nad tradycyjną sztuczną inteligencją (AI), która pomagała w inżynierii białek w przeszłości.
Nowe narzędzie, nazwane LANTERN, może być przydatne w wielu pracach, od produkcji biopaliw, przez ulepszanie upraw, po opracowywanie nowych metod leczenia chorób. Białka, jako budulec biologii, są niezbędnym składnikiem wszystkich tych zadań. Ale chociaż stosunkowo łatwo jest dokonać zmian w nici DNA, która służy jako plan dla konkretnego białka, nadal trudno jest zidentyfikować konkretne pary zasad — szczeble drabiny DNA — które są kluczem do uzyskania pożądanego efektu . Znalezienie tych kluczy było przywilejem sztucznej inteligencji opartej na głębokich sieciach neuronowych (DNN), które choć skuteczne, są notorycznie niejasne dla ludzkiego zrozumienia.
Opis w nowym artykule opublikowanym w Materiały Narodowej Akademii Nauk, Lanter wykazuje zdolność przewidywania modyfikacji genetycznych potrzebnych do stworzenia użytecznych wariacji w trzech różnych białkach. Jednym z nich jest białko w kształcie kolca z powierzchni wirusa SARS-CoV-2, który powoduje COVID-19; Zrozumienie, w jaki sposób zmiany w DNA mogą zmienić ten podwyższony poziom białka, może pomóc epidemiologom przewidzieć przyszłość epidemii. Pozostałe dwa to słynne laboratoryjne konie robocze: białko LacI z bakterii E. coli i białko zielonej fluorescencji (GFP) używane jako marker w eksperymentach biologicznych. Wybór tych trzech tematów pozwolił zespołowi NIST wykazać nie tylko, że ich narzędzie działa, ale także, że jego wyniki można zinterpretować – jest to ważna właściwość branży, która potrzebuje metod predykcyjnych, aby pomóc zrozumieć platformę.
„Mamy w pełni wytłumaczalne podejście i nie ma utraty mocy predykcyjnej” — powiedział Peter Toner, statystyk i biolog obliczeniowy w Narodowym Instytucie Standardów i Technologii (NIST) oraz główny twórca LANTERN. „Istnieje powszechne założenie, że jeśli chcesz jednej z tych rzeczy, nie możesz mieć drugiej. Pokazaliśmy, że czasami możesz mieć obie”.
Problem, którym zajmuje się zespół NIST, można sobie wyobrazić jako interakcję ze złożoną maszyną, która zawiera ogromny panel kontrolny wypełniony tysiącami nienazwanych przełączników: maszyna to gen, nić DNA, która koduje białko; Klucze to pary bazowe na pasku. Wszystkie przełączniki wpływają w pewien sposób na wyjście urządzenia. Jeśli Twoim zadaniem jest sprawienie, aby maszyna działała inaczej w określony sposób, jakie przełączniki powinieneś przestawić?
Ponieważ odpowiedź może wymagać zmian w wielu parach zasad, naukowcy muszą odwrócić jeden ich zestaw, zmierzyć wynik, a następnie wybrać nowy zestaw i ponownie dokonać pomiaru. Liczba permutacji jest zniechęcająca.
„Liczba możliwych kombinacji może być większa niż liczba atomów we wszechświecie” – powiedział Toner. „Nigdy nie można zmierzyć wszystkich możliwości. To absurdalnie duża liczba”.
Ze względu na ogromną ilość danych, DNN miały za zadanie sortowanie przez próbkowanie danych i przewidywanie, które pary zasad należy odwrócić. W tym okazały się skuteczne – o ile nie poprosisz o wyjaśnienie, w jaki sposób otrzymali odpowiedzi. Często określa się je mianem „czarnych skrzynek”, ponieważ ich wewnętrzne działanie jest niejednoznaczne.
„Naprawdę trudno jest zrozumieć, w jaki sposób DNN formułują swoje prognozy” – powiedział fizyk NIST David Ross, jeden z autorów artykułu. „A to ogromny problem, jeśli chcesz wykorzystać te przewidywania do zaprojektowania czegoś nowego”.
Z drugiej strony LANTERN został wyraźnie zaprojektowany tak, aby był zrozumiały. Część jego interpretowalności wynika z użycia interpretowalnych parametrów do reprezentowania analizowanych danych. Zamiast pozwolić, aby liczba takich parametrów rosła w nietypowy i często niejednoznaczny sposób, jak w przypadku DNN, każdy parametr w obliczeniach LANTERN ma cel, który ma być intuicyjny, pomagając użytkownikom zrozumieć, co oznaczają te parametry i jak wpływają na prognozy LANTERN .
Model LANTERN przedstawia mutacje białek za pomocą wektorów, a powszechnie używane narzędzia matematyczne są często przedstawiane wizualnie jako strzałki. Każda strzałka ma dwie cechy: jej kierunek wskazuje na efekt fali, a jej długość wskazuje, jak silny jest ten efekt. Kiedy dwa białka mają wektory skierowane w tym samym kierunku, LANTERN wskazuje, że białka pełnią podobną funkcję.
Trendy tych wektorów są często wykreślane na mechanizmach biologicznych. Na przykład projekt LANTERN poznał trend związany z fałdowaniem białek w trzech badanych przez zespół zbiorach danych. (Składanie odgrywa ważną rolę w funkcjonowaniu białka, więc identyfikacja tego czynnika w zbiorach danych była wskazówką, że model działał zgodnie z przeznaczeniem.) Podczas przewidywania, LANTERN dodaje te wektory razem — w ten sposób użytkownicy mogą śledzić ich skanowanie . Prognozy.
Inne laboratoria wykorzystały już DNN do przewidywania, co może prowadzić do korzystnych zmian w trzech białkach, więc zespół NIST zdecydował się porównać LANTERN z wynikami DNN. Nowe podejście było nie tylko wystarczająco dobre; Zdaniem zespołu zapewnia to nowy stan dokładności predykcyjnej tego typu problemów.
„Lantern dorównuje lub przewyższa prawie wszystkie alternatywne metody pod względem dokładności przewidywania” – powiedział Toner. „Przewyższa wszystkie inne podejścia w przewidywaniu zmian w LacI i ma dokładność predykcyjną porównywalną do GFP dla wszystkich z wyjątkiem jednego. W przypadku SARS-CoV-2 ma wyższą dokładność predykcyjną niż wszystkie alternatywy inne niż jeden typ DNN, który odpowiada dokładności LANTERN ale nie wyszedłeś z tego.”
LANTERN określa, które kombinacje kluczy mają największy wpływ na konkretną cechę białka – na przykład stabilność fałdowania – i podsumowuje, w jaki sposób użytkownik może zmodyfikować tę cechę, aby osiągnąć pożądany efekt. W pewnym sensie LANTERN przekształca liczne klawisze na naszej tablicy rozdzielczej w kilka prostych pokręteł.
„To redukuje tysiące kluczy do może pięciu małych płyt, które można odtworzyć” – powiedział Ross. „Mówi, że pierwsza tarcza będzie miała duży efekt, druga będzie miała inny, ale mniejszy efekt, trzecia mniejsza itd. Więc jako inżynier mówi mi, że mogę skupić się na pierwszej i drugiej wybierz, aby uzyskać wynik, którego potrzebuję. Lantern umieszcza to wszystko za mnie. Jest to bardzo przydatne.
Ragmunda Caceres, naukowiec z Lincoln Laboratory w MIT, która jest zaznajomiona z metodą stojącą za Lanterem, powiedziała, że docenia interpretację instrumentu.
„Nie ma wielu metod sztucznej inteligencji stosowanych w zastosowaniach biologicznych, które są przeznaczone do interpretacji” – powiedział Caceres, który nie jest związany z badaniem NIST. „Kiedy biolodzy widzą wyniki, mogą zobaczyć, która mutacja przyczynia się do zmiany w białku. Ten poziom interpretacji pozwala na bardziej interdyscyplinarne badania, ponieważ biolodzy mogą zrozumieć, w jaki sposób algorytm się uczy i mogą uzyskać dodatkowe informacje na temat badanego systemu biologicznego. „
Toner powiedział, że choć zadowolony z wyników, LANTERN nie jest panaceum na problem interpretacji AI. Powiedział, że badanie alternatyw dla DNN na większą skalę przyniosłoby korzyści całym wysiłkom na rzecz stworzenia dającej się zinterpretować i godnej zaufania sztucznej inteligencji.
„W kontekście przewidywania efektów genetycznych na funkcję białek Lanter jest pierwszym przykładem czegoś, co rywalizuje z DNN pod względem zdolności predykcyjnych, a jednocześnie jest w pełni wyjaśnione” – powiedział Toner. „Zapewnia konkretne rozwiązanie konkretnego problemu. Mamy nadzieję, że dotyczy to innych, a ta praca inspiruje rozwój nowych, możliwych do interpretacji podejść. Nie chcemy, aby predykcyjna sztuczna inteligencja pozostała czarną skrzynką”.
„Całkowity miłośnik kawy. Miłośnik podróży. Muzyczny ninja. Bekonowy kujon. Beeraholik.”
More Stories
Prognoza cukrzycy w Australii w 2024 r. | Wiadomości o Mirażu
„Gorąca sauna żabia” pomaga australijskim gatunkom w walce ze śmiercionośnym grzybem
Model sztucznej inteligencji poprawia reakcję pacjentów na leczenie raka