Please use this identifier to cite or link to this item:
https://ric.cps.sp.gov.br/handle/123456789/40655| Title: | Classificação de executáveis maliciosos com aprendizado de máquina: uma abordagem usando o dataset EMBER em amostras de ransomware |
| Other Titles: | Classification of malicious executables using machine learning: an approach using the EMBER dataset on ransomware samples |
| Authors: | BELOTI, Guilherme Henrique Crivelari AYRES, Lucas Amazonas Oliveira ROSA, Matheus da Costa |
| Advisor: | MARTINATI, Rafael Rodrigo |
| Other contributor: | BATTILANA, Rodrigo Brito FREITAS, Rogério Nunes de |
| type of document: | Monografia |
| Keywords: | Análise de dados;Inteligência artificial;Python;Ransomware |
| Issue Date: | 8-Nov-2025 |
| Publisher: | 004 |
| Citation: | BELOTI, Guilherme Henrique Crivelari; AYRES, Lucas Amazonas Oliveira; ROSA, Matheus da Costa. Classificação de executáveis maliciosos com aprendizado de máquina: uma abordagem usando o dataset EMBER em amostras de ransomware, 2025. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Segurança da Informação) - Faculdade de Tecnologia de Americana “Ministro Ralph Biasi”, Americana, 2025. |
| Abstract: | O presente trabalho tem como objetivo usar técnicas de aprendizado de máquina para classificar executáveis maliciosos usando o Dataset EMBER. Com o aumento e evolução constante das ameaças digitais, destacando-se o ransomware, a necessidade da aplicação de sistemas e técnicas de segurança adaptáveis torna-se imprescindível na proteção de sistemas e informações relevantes. Esse estudo,
fazendo uso do Dataset Elastic Malware Benchmark for Empowering Researchers (EMBER), busca a aplicar o machine learning para testar um modelo capaz de distinguir entre arquivos benignos e maliciosos. A metodologia utilizada consistiu na preparação e configuração do ambiente de teste e do Dataset EMBER, que permitiu se organizar e preparar os dados extraídos dos executáveis, etapa importante para a
realização dos testes posteriores. Para a classificação dos executáveis, foi utilizado o algoritmo Light Gradient Boosting Machine (LightGBM), conhecido por ser eficiente e adequado no treinamento com um volume grande de dados, que permitiu o treinamento de um modelo seguindo as recomendações e dados fornecidos pelo próprio benchmark EMBER, incluindo amostras de ransomware para avaliar seu comportamento frente a tipos diversificados de malwares. Feito os testes com executáveis de ransomware e arquivos inofensivos, o modelo mostrou-se adequado para a função, confirmando sua capacidade de identificar realmente maliciosos e o validando como uma ferramenta promissora para a detecção proativa de ameaças, porém ele exibiu certas limitações na classificação de ransomwares mais recentes e
modernos, algo que deve ser levado em consideração. A pesquisa contribui para o campo da segurança da informação ao validar uma metodologia moderna para a detecção de malware, oferecendo insights sobre a utilização de datasets como o EMBER para o desenvolvimento de sistemas de segurança mais resilientes. Logo, conclui-se que a aplicação do aprendizado de máquina na análise de executáveis pode alterar a forma como as ameaças são detectadas, trazendo implicações significativas para a proteção de sistemas e o combate a danos causados por códigos maliciosos. This work aims to use machine learning techniques to classify malicious executables using the EMBER dataset. With the increasing and constant evolution of digital threats, particularly ransomware, the need for the application of adaptive security systems and techniques becomes essential in protecting systems and relevant information. This study, using the Elastic Malware Benchmark for Empowering Researchers (EMBER) dataset, seeks to apply machine learning to test a model capable of distinguishing between benign and malicious files. The methodology used consisted of preparing and configuring the test environment and the EMBER dataset, which allowed for the organization and preparation of the data extracted from the executables, an important step for conducting subsequent tests. For the classification of executables, the Light Gradient Boosting Machine (LightGBM) algorithm was used, known for being efficient and suitable for training with a large volume of data, which allowed the training of a model following the recommendations and data provided by the EMBER benchmark itself, including ransomware samples to evaluate its behavior against diverse types of malware. After testing with ransomware executables and harmless files, the model proved suitable for the function, confirming its ability to identify truly malicious files and validating it as a promising tool for proactive threat detection; however, it exhibited certain limitations in classifying more recent and modern ransomware, something that should be taken into consideration. The research contributes to the field of information security by validating a modern methodology for malware detection, offering insights into the use of datasets such as EMBER for the development of more resilient security systems. Therefore, it is concluded that the application of machine learning in the analysis of executables can change the way threats are detected, bringing significant implications for the protection of systems and the fight against damage caused by malicious code. |
| URI: | https://ric.cps.sp.gov.br/handle/123456789/40655 |
| Appears in Collections: | Trabalhos de Conclusão de Curso |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| 20252S_Guilherme Henrique Crivelari Beloti_OD2856.pdf | 2.61 MB | Adobe PDF | View/Open | |
| TA - Guilherme Henrique Criverlari Beloti.pdf Restricted Access | 272.43 kB | Adobe PDF | View/Open Request a copy | |
| TA - Lucas Amazonas Oliveira Ayres.pdf Restricted Access | 272.07 kB | Adobe PDF | View/Open Request a copy | |
| TA - Matheus da Costa Rosa.pdf Restricted Access | 258.4 kB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.