Przecław News

Informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej w Wiadomościach Przecławia.

Naukowcy badają dane dotyczące COVID-19, trenując model regresji logistycznej

Naukowcy badają dane dotyczące COVID-19, trenując model regresji logistycznej

W miarę rozprzestrzeniania się pandemii koronawirusa 2019 (COVID-19) na całym świecie, wygenerowano i przeanalizowano ogromne ilości danych bioinformatycznych, a modele regresji logistycznej miały kluczowe znaczenie dla wielu artykułów, które pomagają rzucić światło na ważne cechy choroby, takie jak: Mutacje są związane ze skutkami choroby. Bardziej niebezpieczne.

Naukowcy badają dane dotyczące COVID-19, trenując model regresji logistycznej
Stado: Powiązanie genotypu z fenotypem: dalsze badanie mutacji w SARS-CoV-2 związanych z łagodnymi lub ciężkimi wynikami. Źródło zdjęcia: Nhemz / Shutterstock

Modele regresji liniowej są używane do klasyfikacji binarnej, która może być następnie uogólniona na klasyfikację wieloklasową i zwykle działa bardzo dobrze. Naukowcy z Agencji Gotowości Medycznej Sił Powietrznych USA badali, w jaki sposób trening modelu regresji logistycznej wpływa na wydajność i jakie funkcje najlepiej uwzględnić podczas badania zbiorów danych od osób z COVID-19.

Wstępna wersja badania jest dostępna pod adresem medRxiv* Serwer, podczas gdy artykuł podlega wzajemnej recenzji.

badania

Początkowy eksport danych Globalnej Inicjatywy na temat udostępniania danych dotyczących ptasiej grypy (GISAID) został sformatowany przy użyciu skryptów powłoki, z analizą sekwencji FASTA z eksportu. Próbki rozdzielono za pomocą towarzyszących im metadanych dotyczących wyników pacjentów, przy czym w analizach wykorzystano około 30 000 próbek z ciężkimi wynikami i ~25 000 próbek z umiarkowanymi wynikami. Scikit-Learn wykorzystano do dopasowania modeli regresji logistycznej, a na podstawie danych zbudowano podział szkolenia/testu, przy czym do oceny wydajności modeli wykorzystano tylko dane testowe. Wygenerowano łącznie pięć różnych modeli regresji logistycznej o różnych cechach wejściowych.

Najpierw naukowcy odtworzyli poprzednie wyniki przy użyciu tego samego zestawu danych, aby sprawdzić dokładność i obszar pod krzywą (AUC) modeli regresji logistycznej – miarę dobroci dopasowania. Model wykorzystujący wiek, płeć, region i zmienną COVID-19 jako cechy wykazał najwyższą wartość AUC wynoszącą 0,91 i najwyższą dokładność wynoszącą 91%. Następnie pojawiły się modele, które wykorzystywały mniej funkcji. Modele zidentyfikowały te same mutacje związane z nasileniem choroby, co w poprzednim eksperymencie.

READ  Najnowsze informacje na temat miękkich soczewek kontaktowych dla okulistów

Następnie sprawność klasyfikacji modeli regresji logistycznej wykorzystanych w poprzednim eksperymencie została zbadana przy użyciu najnowszego zestawu danych. Mutacje zawarte w zaktualizowanym zestawie danych były ograniczone do dopasowania przestrzeni cech wytrenowanych modeli, bez nowych mutacji nieuwzględnionych w oryginalnym zestawie danych 2020. Ogólnie rzecz biorąc, poprzednie modele wykazywały spadek wydajności po zastosowaniu do kolejnego zestawu danych, szczególnie w przypadku modeli zawierających funkcję regionu.

Zagnieżdżone modele regresji logistycznej zostały następnie ponownie przeszkolone na nowym zestawie danych, przy czym przeszkolenie przeprowadzono przy użyciu podziału pociągu dla rozszerzonego zestawu danych i oceny wydajności przy użyciu podziału testowego. Przeszkolone modele zostały następnie porównane z modelami wyszkolonymi na oryginalnym zestawie danych. Zgodnie z oczekiwaniami modele wykorzystujące wiek, płeć, region i zmienne (AGRV) nadal wykazywały najlepszą wydajność, a modele wytrenowane na oryginalnym zestawie danych przewyższały modele wytrenowane na kolejnym zestawie danych.

Spadek wydajności przeszkolonego modelu może wskazywać na zmniejszenie zdolności do rozróżniania między ciężkimi i umiarkowanymi wynikami w rozszerzonym zestawie danych lub może być wyjaśniony niespójną definicją ciężkości stanu między dwoma zestawami danych. Mutacje często związane z ciężkimi i umiarkowanymi wynikami w zestawie danych z 2020 r. nie zostały zidentyfikowane w zestawie danych z 2021 r., bez nakładania się w przypadku 40 najczęstszych mutacji. Jednak 10 z 20 najważniejszych mutacji związanych z poważnymi wynikami w poprzednim badaniu było również związanych z poważnymi wynikami w zestawie danych z 2021 r.

Zbadano również inne klasyfikatory binarne do uczenia maszynowego, w tym algorytmy Random Forest, Naïve Bayes i Neural Network. Gdy te prezentacje porównano z modelem regresji logistycznej, do analizy wykorzystano 3386 próbek, z których 2694 wiązało się z ciężkimi wynikami, a 692 wiązało się z umiarkowanymi wynikami.

AGRV ponownie wykorzystano jako funkcje we wszystkich testowanych modelach, z 67% podzielonym zestawem danych i 33% podzieloną segmentacją. Przeprowadzono 5-krotną walidację w celu określenia najlepszych parametrów dla każdego modelu przed użyciem modułów edukacyjnych Sci-kit do uruchomienia każdego modelu. Model lasu losowego znacznie przewyższał wszystkie inne modele, w tym model regresji logistycznej, na którym koncentruje się cała praca, z końcową wartością AUC na poziomie 0,936 i dokładnością 0,918.

READ  Atmosferyczna ucieczka z trzech planet ziemskich w układzie L 98-59

Wnioski

Badacze stwierdzili, że algorytm Random Forest był najskuteczniejszym algorytmem klasyfikacji, co może wskazywać na występowanie nieliniowych interakcji między cechami.

Ponadto zidentyfikowali najskuteczniejsze funkcje do badania danych dotyczących COVID-19 za pomocą modeli regresji liniowej, które powinny być przydatne dla bioinformatyków badających zbiory danych, w których Random Forest jest odpowiednią metodą analizy.

*Ważna uwaga

Firma medRxiv publikuje wstępne raporty naukowe, które nie były recenzowane i dlatego nie powinny być uznawane za rozstrzygające, ukierunkowywać praktykę kliniczną/zachowania związane ze zdrowiem lub być traktowane jako ustalone informacje.