Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/23368
Title: Estudo de machine learning para análise de dados usando PySpark
Other Titles: Machine learning study for data analysis using PySpark
Authors: MORAES, Gustavo Perez de
Advisor: DEZANI, Henrique
DEZANI, Adriana Alvarenga
Other contributor: SIMONATO, Adriano Luís
FONSECA, Everthon Silva
type of document: Artigo científico
Keywords: Machine learning;Análise de dados;Ambientes de programação;Estatística para inteligência artificial
Issue Date: 21-Jun-2024
Publisher: 121
Citation: MORAES, Gustavo Perez de. Estudo de machine learning para análise de dados usando PySpark. 2024. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2024.
Abstract: Este artigo apresenta a utilização da API PySpark da linguagem de programação Python, aplicadas à análise de dados e Machine Learning. Para entender suas funcionalidades, também é feita uma breve apresentação de conceitos teóricos de estatística, além de breve introdução de sintaxe e exemplos de utilização da linguagem de programação Python e também da API PySpark. Tais análises serão aplicadas através de algoritmos de Árvores de Decisão à base de dados Covertype, obtida no repositório online UC Irvine Machine Learning Repository, e tratadas de acordo com a técnica de Binarização. Os resultados das análises, bem como índices de precisão e Matriz de Confusão foram apresentados para serem analisados, a fim de esclarecer os pontos positivos de se utilizar as técnicas aplicadas e comprovar sua eficiência.
This article presents the use of the PySpark API of the Python programming language, applied to data analysis and Machine Learning. To understand its functionalities, a brief presentation of theoretical and statistical concepts is made, as well as a brief introduction of syntax and examples of using the Python programming language and also the PySpark API. Such analyzes will be applied using Decision Tree algorithms to the CoverType database, obtained from the online repository UC Irvine Machine Learning Repository, and treated according to the Binarization technique. The results of the analyzes, as well as precision indices and Confusion Matrix were presented for analysis, in order to clarify the positive points of using the applied techniques and prove their efficiency.
URI: https://ric.cps.sp.gov.br/handle/123456789/23368
Appears in Collections:Trabalhos de Conclusão de Curso

Files in This Item:
File Description SizeFormat 
informaticanegocios_2024_1_gustavoperezdemoraes_estudodemachinelearningparaanalisededadosusando.pdf
  Restricted Access
607.79 kBAdobe PDFView/Open Request a copy


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.