Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/40655
Title: Classificação de executáveis maliciosos com aprendizado de máquina: uma abordagem usando o dataset EMBER em amostras de ransomware
Other Titles: Classification of malicious executables using machine learning: an approach using the EMBER dataset on ransomware samples
Authors: BELOTI, Guilherme Henrique Crivelari
AYRES, Lucas Amazonas Oliveira
ROSA, Matheus da Costa
Advisor: MARTINATI, Rafael Rodrigo
Other contributor: BATTILANA, Rodrigo Brito
FREITAS, Rogério Nunes de
type of document: Monografia
Keywords: Análise de dados;Inteligência artificial;Python;Ransomware
Issue Date: 8-Nov-2025
Publisher: 004
Citation: BELOTI, Guilherme Henrique Crivelari; AYRES, Lucas Amazonas Oliveira; ROSA, Matheus da Costa. Classificação de executáveis maliciosos com aprendizado de máquina: uma abordagem usando o dataset EMBER em amostras de ransomware, 2025. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Segurança da Informação) - Faculdade de Tecnologia de Americana “Ministro Ralph Biasi”, Americana, 2025.
Abstract: O presente trabalho tem como objetivo usar técnicas de aprendizado de máquina para classificar executáveis maliciosos usando o Dataset EMBER. Com o aumento e evolução constante das ameaças digitais, destacando-se o ransomware, a necessidade da aplicação de sistemas e técnicas de segurança adaptáveis torna-se imprescindível na proteção de sistemas e informações relevantes. Esse estudo, fazendo uso do Dataset Elastic Malware Benchmark for Empowering Researchers (EMBER), busca a aplicar o machine learning para testar um modelo capaz de distinguir entre arquivos benignos e maliciosos. A metodologia utilizada consistiu na preparação e configuração do ambiente de teste e do Dataset EMBER, que permitiu se organizar e preparar os dados extraídos dos executáveis, etapa importante para a realização dos testes posteriores. Para a classificação dos executáveis, foi utilizado o algoritmo Light Gradient Boosting Machine (LightGBM), conhecido por ser eficiente e adequado no treinamento com um volume grande de dados, que permitiu o treinamento de um modelo seguindo as recomendações e dados fornecidos pelo próprio benchmark EMBER, incluindo amostras de ransomware para avaliar seu comportamento frente a tipos diversificados de malwares. Feito os testes com executáveis de ransomware e arquivos inofensivos, o modelo mostrou-se adequado para a função, confirmando sua capacidade de identificar realmente maliciosos e o validando como uma ferramenta promissora para a detecção proativa de ameaças, porém ele exibiu certas limitações na classificação de ransomwares mais recentes e modernos, algo que deve ser levado em consideração. A pesquisa contribui para o campo da segurança da informação ao validar uma metodologia moderna para a detecção de malware, oferecendo insights sobre a utilização de datasets como o EMBER para o desenvolvimento de sistemas de segurança mais resilientes. Logo, conclui-se que a aplicação do aprendizado de máquina na análise de executáveis pode alterar a forma como as ameaças são detectadas, trazendo implicações significativas para a proteção de sistemas e o combate a danos causados por códigos maliciosos.
This work aims to use machine learning techniques to classify malicious executables using the EMBER dataset. With the increasing and constant evolution of digital threats, particularly ransomware, the need for the application of adaptive security systems and techniques becomes essential in protecting systems and relevant information. This study, using the Elastic Malware Benchmark for Empowering Researchers (EMBER) dataset, seeks to apply machine learning to test a model capable of distinguishing between benign and malicious files. The methodology used consisted of preparing and configuring the test environment and the EMBER dataset, which allowed for the organization and preparation of the data extracted from the executables, an important step for conducting subsequent tests. For the classification of executables, the Light Gradient Boosting Machine (LightGBM) algorithm was used, known for being efficient and suitable for training with a large volume of data, which allowed the training of a model following the recommendations and data provided by the EMBER benchmark itself, including ransomware samples to evaluate its behavior against diverse types of malware. After testing with ransomware executables and harmless files, the model proved suitable for the function, confirming its ability to identify truly malicious files and validating it as a promising tool for proactive threat detection; however, it exhibited certain limitations in classifying more recent and modern ransomware, something that should be taken into consideration. The research contributes to the field of information security by validating a modern methodology for malware detection, offering insights into the use of datasets such as EMBER for the development of more resilient security systems. Therefore, it is concluded that the application of machine learning in the analysis of executables can change the way threats are detected, bringing significant implications for the protection of systems and the fight against damage caused by malicious code.
URI: https://ric.cps.sp.gov.br/handle/123456789/40655
Appears in Collections:Trabalhos de Conclusão de Curso

Files in This Item:
File Description SizeFormat 
20252S_Guilherme Henrique Crivelari Beloti_OD2856.pdf2.61 MBAdobe PDFView/Open
TA - Guilherme Henrique Criverlari Beloti.pdf
  Restricted Access
272.43 kBAdobe PDFView/Open Request a copy
TA - Lucas Amazonas Oliveira Ayres.pdf
  Restricted Access
272.07 kBAdobe PDFView/Open Request a copy
TA - Matheus da Costa Rosa.pdf
  Restricted Access
258.4 kBAdobe PDFView/Open Request a copy


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.