Please use this identifier to cite or link to this item:
https://ric.cps.sp.gov.br/handle/123456789/23368
Title: | Estudo de machine learning para análise de dados usando PySpark |
Other Titles: | Machine learning study for data analysis using PySpark |
Authors: | MORAES, Gustavo Perez de |
Advisor: | DEZANI, Henrique DEZANI, Adriana Alvarenga |
Other contributor: | SIMONATO, Adriano Luís FONSECA, Everthon Silva |
type of document: | Artigo científico |
Keywords: | Machine learning;Análise de dados;Ambientes de programação;Estatística para inteligência artificial |
Issue Date: | 21-Jun-2024 |
Publisher: | 121 |
Citation: | MORAES, Gustavo Perez de. Estudo de machine learning para análise de dados usando PySpark. 2024. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2024. |
Abstract: | Este artigo apresenta a utilização da API PySpark da linguagem de programação Python, aplicadas à análise de dados e Machine Learning. Para entender suas funcionalidades, também é feita uma breve apresentação de conceitos teóricos de estatística, além de breve introdução de sintaxe e exemplos de utilização da linguagem de programação Python e também da API PySpark. Tais análises serão aplicadas através de algoritmos de Árvores de Decisão à base de dados Covertype, obtida no repositório online UC Irvine Machine Learning Repository, e tratadas de acordo com a técnica de Binarização. Os resultados das análises, bem como índices de precisão e Matriz de Confusão foram apresentados para serem analisados, a fim de esclarecer os pontos positivos de se utilizar as técnicas aplicadas e comprovar sua eficiência. This article presents the use of the PySpark API of the Python programming language, applied to data analysis and Machine Learning. To understand its functionalities, a brief presentation of theoretical and statistical concepts is made, as well as a brief introduction of syntax and examples of using the Python programming language and also the PySpark API. Such analyzes will be applied using Decision Tree algorithms to the CoverType database, obtained from the online repository UC Irvine Machine Learning Repository, and treated according to the Binarization technique. The results of the analyzes, as well as precision indices and Confusion Matrix were presented for analysis, in order to clarify the positive points of using the applied techniques and prove their efficiency. |
URI: | https://ric.cps.sp.gov.br/handle/123456789/23368 |
Appears in Collections: | Trabalhos de Conclusão de Curso |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
informaticanegocios_2024_1_gustavoperezdemoraes_estudodemachinelearningparaanalisededadosusando.pdf Restricted Access | 607.79 kB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.