Use este identificador para citar ou linkar para este item: https://ric.cps.sp.gov.br/handle/123456789/23368
Título: Estudo de machine learning para análise de dados usando PySpark
Título(s) alternativo(s): Machine learning study for data analysis using PySpark
Autor(es): MORAES, Gustavo Perez de
Orientador(es): DEZANI, Henrique
DEZANI, Adriana Alvarenga
Outro(s) contribuidor(es): SIMONATO, Adriano Luís
FONSECA, Everthon Silva
Tipo documental: Artigo científico
Palavras-chave: Machine learning;Análise de dados;Ambientes de programação;Estatística para inteligência artificial
Data do documento: 21-Jun-2024
Editor: 121
Referência Bibliográfica: MORAES, Gustavo Perez de. Estudo de machine learning para análise de dados usando PySpark. 2024. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2024.
Resumo: Este artigo apresenta a utilização da API PySpark da linguagem de programação Python, aplicadas à análise de dados e Machine Learning. Para entender suas funcionalidades, também é feita uma breve apresentação de conceitos teóricos de estatística, além de breve introdução de sintaxe e exemplos de utilização da linguagem de programação Python e também da API PySpark. Tais análises serão aplicadas através de algoritmos de Árvores de Decisão à base de dados Covertype, obtida no repositório online UC Irvine Machine Learning Repository, e tratadas de acordo com a técnica de Binarização. Os resultados das análises, bem como índices de precisão e Matriz de Confusão foram apresentados para serem analisados, a fim de esclarecer os pontos positivos de se utilizar as técnicas aplicadas e comprovar sua eficiência.
This article presents the use of the PySpark API of the Python programming language, applied to data analysis and Machine Learning. To understand its functionalities, a brief presentation of theoretical and statistical concepts is made, as well as a brief introduction of syntax and examples of using the Python programming language and also the PySpark API. Such analyzes will be applied using Decision Tree algorithms to the CoverType database, obtained from the online repository UC Irvine Machine Learning Repository, and treated according to the Binarization technique. The results of the analyzes, as well as precision indices and Confusion Matrix were presented for analysis, in order to clarify the positive points of using the applied techniques and prove their efficiency.
URI: https://ric.cps.sp.gov.br/handle/123456789/23368
Aparece nas coleções:Trabalhos de Conclusão de Curso

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
informaticanegocios_2024_1_gustavoperezdemoraes_estudodemachinelearningparaanalisededadosusando.pdf
  Restricted Access
607.79 kBAdobe PDFVisualizar/Abrir    Solictar uma cópia


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.