Aplicação de Algoritmos de Aprendizado de Máquina e Redução de Dimensionalidade em Bioinformática e na Detecção de Ransomware
ODS vinculados
- 3 - Saúde e Bem-Estar
- 9 - Indústria, Inovação e Infraestrutura
- 11 - Cidades e Comunidades Sustentáveis
Resumo
Este projeto de pesquisa pretende trazer avanços às áreas de bioinformática e detecção de ransomwares. Em bioinformática, este projeto pretende atuar em duas áreas, na aplicação de algoritmos de aprendizado de máquina na exploração de permeabilidade de peptideos à barreira hematoencefálica para o auxílio no desenvolvimento de novas drogas para doenças neurais; e na predição da absorção intestinal de moléculas pequenas, que é importante para o desenvolvimento de drogas administradas via oral. Já em ransomware, serão propostas novas bases de dados obtidas em ambiente corporativos e serão investigados aspectos importantes para a classificação de ransomware para melhor compreender o comportamento desses malwares e ajudar os desenvolvedores de sistemas de detecção a obter soluções mais robustas e confiáveis. Em ambas as áres, detecção de ransomwares e bioinformática, serão aplicadas técnicas de extração de features, redução de dimensionalidade e aprendizado de máquina, usando técnicas tradicionais na literatura assim como técnicas concebidas pelo grupo de pesquisas como o Mutual Equidistant-scattering Criterion (MEC), o Polygonal Coordinate System (PCS), o Pyramidal Embedding System (PES), o Genetic Algorithm for Decision Boundary Analysis (GADBA) e o Rotationally Invariant Semi-Autonomous PSO (RI-SAPSO). RI-SAPSO e GADBA podem ser usados junto com o MEC para selecionar features avaliando a consistência do processo de clusterização realizado pelo RISAPSO ou GADBA após a inserção e retirada de features, avaliando-se o comportamento o MEC. Outro método que pode ser usado para seleção de features é o Variance Threshold (VT) que remove todas features cuja variância um certo nível. Além disso, PCS e PES podem ser usados para redução de dimensionalidade, assim como técnicas como o Supervised Laplacian Eingemaps (sLE) e Uniform Manifold Approximation and Projection (UMAP) em conjunto com uma Recurrent deep neural network (RNN), reduzindo a complexidade das bases de dados e a efiência dos algoritmos de classificação. Para fase de classificação serão usadas a já mensionada RNN, assim como técnicas tradicionais como Support Vector Machine (SVM), Linear Support Vector Classification (LSVC), Random Forest (RF), Naive Bayes (NB) e Adaptive Boosting (AdaBoost). O resultado esperado para este projeto é o desenvolvimento de ferramentas computacionais open source para realizar a predição de peptídeos permeáveis à barreira hematoencefálica, na predição da absorção intestinal de moléculas pequenas e na detecção de ransomwares, que podem ser uma ferramentas importantes para auxiliar a indústria nas áreas de bioinformática e de segurança cibernética.