Przecław News

Informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej w Wiadomościach Przecławia.

Naukowcy badają dane dotyczące COVID-19, trenując model regresji logistycznej

Naukowcy badają dane dotyczące COVID-19, trenując model regresji logistycznej

W miarę rozprzestrzeniania się pandemii koronawirusa 2019 (COVID-19) na całym świecie, wygenerowano i przeanalizowano ogromne ilości danych bioinformatycznych, a modele regresji logistycznej miały kluczowe znaczenie dla wielu artykułów, które pomagają rzucić światło na ważne cechy choroby, takie jak: Mutacje są związane ze skutkami choroby. Bardziej niebezpieczne.

Stado: Powiązanie genotypu z fenotypem: dalsze badanie mutacji w SARS-CoV-2 związanych z łagodnymi lub ciężkimi wynikami. Źródło zdjęcia: Nhemz / Shutterstock

Modele regresji liniowej są używane do klasyfikacji binarnej, która może być następnie uogólniona na klasyfikację wieloklasową i zwykle działa bardzo dobrze. Naukowcy z Agencji Gotowości Medycznej Sił Powietrznych USA badali, w jaki sposób trening modelu regresji logistycznej wpływa na wydajność i jakie funkcje najlepiej uwzględnić podczas badania zbiorów danych od osób z COVID-19.

Wstępna wersja badania jest dostępna pod adresem medRxiv* Serwer, podczas gdy artykuł podlega wzajemnej recenzji.

badania

Początkowy eksport danych Globalnej Inicjatywy na temat udostępniania danych dotyczących ptasiej grypy (GISAID) został sformatowany przy użyciu skryptów powłoki, z analizą sekwencji FASTA z eksportu. Próbki rozdzielono za pomocą towarzyszących im metadanych dotyczących wyników pacjentów, przy czym w analizach wykorzystano około 30 000 próbek z ciężkimi wynikami i ~25 000 próbek z umiarkowanymi wynikami. Scikit-Learn wykorzystano do dopasowania modeli regresji logistycznej, a na podstawie danych zbudowano podział szkolenia/testu, przy czym do oceny wydajności modeli wykorzystano tylko dane testowe. Wygenerowano łącznie pięć różnych modeli regresji logistycznej o różnych cechach wejściowych.

Najpierw naukowcy odtworzyli poprzednie wyniki przy użyciu tego samego zestawu danych, aby sprawdzić dokładność i obszar pod krzywą (AUC) modeli regresji logistycznej – miarę dobroci dopasowania. Model wykorzystujący wiek, płeć, region i zmienną COVID-19 jako cechy wykazał najwyższą wartość AUC wynoszącą 0,91 i najwyższą dokładność wynoszącą 91%. Następnie pojawiły się modele, które wykorzystywały mniej funkcji. Modele zidentyfikowały te same mutacje związane z nasileniem choroby, co w poprzednim eksperymencie.

READ  Badanie rozwiązuje interesującą zagadkę dotyczącą lodowego księżyca Jowisza • Earth.com

Następnie sprawność klasyfikacji modeli regresji logistycznej wykorzystanych w poprzednim eksperymencie została zbadana przy użyciu najnowszego zestawu danych. Mutacje zawarte w zaktualizowanym zestawie danych były ograniczone do dopasowania przestrzeni cech wytrenowanych modeli, bez nowych mutacji nieuwzględnionych w oryginalnym zestawie danych 2020. Ogólnie rzecz biorąc, poprzednie modele wykazywały spadek wydajności po zastosowaniu do kolejnego zestawu danych, szczególnie w przypadku modeli zawierających funkcję regionu.

Zagnieżdżone modele regresji logistycznej zostały następnie ponownie przeszkolone na nowym zestawie danych, przy czym przeszkolenie przeprowadzono przy użyciu podziału pociągu dla rozszerzonego zestawu danych i oceny wydajności przy użyciu podziału testowego. Przeszkolone modele zostały następnie porównane z modelami wyszkolonymi na oryginalnym zestawie danych. Zgodnie z oczekiwaniami modele wykorzystujące wiek, płeć, region i zmienne (AGRV) nadal wykazywały najlepszą wydajność, a modele wytrenowane na oryginalnym zestawie danych przewyższały modele wytrenowane na kolejnym zestawie danych.

Spadek wydajności przeszkolonego modelu może wskazywać na zmniejszenie zdolności do rozróżniania między ciężkimi i umiarkowanymi wynikami w rozszerzonym zestawie danych lub może być wyjaśniony niespójną definicją ciężkości stanu między dwoma zestawami danych. Mutacje często związane z ciężkimi i umiarkowanymi wynikami w zestawie danych z 2020 r. nie zostały zidentyfikowane w zestawie danych z 2021 r., bez nakładania się w przypadku 40 najczęstszych mutacji. Jednak 10 z 20 najważniejszych mutacji związanych z poważnymi wynikami w poprzednim badaniu było również związanych z poważnymi wynikami w zestawie danych z 2021 r.

Zbadano również inne klasyfikatory binarne do uczenia maszynowego, w tym algorytmy Random Forest, Naïve Bayes i Neural Network. Gdy te prezentacje porównano z modelem regresji logistycznej, do analizy wykorzystano 3386 próbek, z których 2694 wiązało się z ciężkimi wynikami, a 692 wiązało się z umiarkowanymi wynikami.

AGRV ponownie wykorzystano jako funkcje we wszystkich testowanych modelach, z 67% podzielonym zestawem danych i 33% podzieloną segmentacją. Przeprowadzono 5-krotną walidację w celu określenia najlepszych parametrów dla każdego modelu przed użyciem modułów edukacyjnych Sci-kit do uruchomienia każdego modelu. Model lasu losowego znacznie przewyższał wszystkie inne modele, w tym model regresji logistycznej, na którym koncentruje się cała praca, z końcową wartością AUC na poziomie 0,936 i dokładnością 0,918.

READ  Zespół odkrywa związek między czasem replikacji DNA a sposobem składania genów w trójwymiarowe struktury w jądrze komórkowym

Wnioski

Badacze stwierdzili, że algorytm Random Forest był najskuteczniejszym algorytmem klasyfikacji, co może wskazywać na występowanie nieliniowych interakcji między cechami.

Ponadto zidentyfikowali najskuteczniejsze funkcje do badania danych dotyczących COVID-19 za pomocą modeli regresji liniowej, które powinny być przydatne dla bioinformatyków badających zbiory danych, w których Random Forest jest odpowiednią metodą analizy.

*Ważna uwaga

Firma medRxiv publikuje wstępne raporty naukowe, które nie były recenzowane i dlatego nie powinny być uznawane za rozstrzygające, ukierunkowywać praktykę kliniczną/zachowania związane ze zdrowiem lub być traktowane jako ustalone informacje.