Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural

MARQUES, Francis Henrique Pereira; LEITE, Luís Fernando

Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/19594

Title:	Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural
Other Titles:	Summarization of technical notes from tax documents using PySpark and natural language processing techniques
Authors:	MARQUES, Francis Henrique Pereira LEITE, Luís Fernando
Advisor:	DEZANI, Henrique
Other contributor:	VIEIRA, Lucimar Sasso TAINO, Daniela Fernanda
type of document:	Artigo científico
Keywords:	Documento fiscal;Processamento de dados;Análise de dados;Python
Issue Date:	27-Nov-2023
Publisher:	121
Citation:	MARQUES, Francis Henrique Pereira; LEITE, Luís Fernando. Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023.
Abstract:	Neste artigo, aprofundamos a exploração das capacidades do Python e PySpark, com foco particular na biblioteca SparkNLP, para sumarizar eficientemente notas técnicas associadas a documentos fiscais (DF-e) divulgadas pelo governo. A escolha do PySpark foi devido a sua capacidade de integração nativa com o ambiente Spark o tornando ideal para o tratamento de vastos volumes de dados textuais, pensando em futura escalabilidade devido ao aumento desses documentos publicados. Utilizando a já segmentada técnica de Análise de Alocação Latente de Dirichlet (LDA), conseguimos desenvolver um modelo baseado em tópicos, que extraí e captura as principais temáticas e tendências presentes nos documentos. Esta abordagem escolhida nos permitiu condensar informações essenciais, simplificando significativamente a compreensão e análise desses documentos, focando no benefício para partes interessadas e profissionais da área fiscal. Em um cenário onde a clareza e a agilidade são essenciais, esta metodologia surge para criar um modelo facilitador, potencializando a extração de insights relevantes de extensos conjuntos de documentos fiscais. In this article, we delve deeper into the capabilities of Python and PySpark, with a specific focus on the SparkNLP library, to efficiently summarize technical notes associated with fiscal documents (DF-e) released by the government. The choice of PySpark was due to its innate ability to integrate with the Spark environment, making it ideal for processing vast volumes of textual data, especially considering future scalability due to the increasing number of such published documents. By employing the distinct technique of Latent Dirichlet Allocation (LDA), we were able to develop a topic-based model that extract and captures the main themes and trends present in the documents. The chosen approach allowed us to significantly condense essential information, simplifying the understanding and analysis of these documents, with a focus on benefiting stakeholders and professionals in the fiscal field. In a scenario where clarity and agility are paramount, this methodology emerges to create a facilitating model, enhancing the extraction of relevant insights from extensive sets of fiscal documents.
URI:	https://ric.cps.sp.gov.br/handle/123456789/19594
Appears in Collections:	Trabalhos de Conclusão de Curso

Files in This Item:

File	Description	Size	Format
informaticanegocios_2023_2_francishenriquepereiramarques_sumarizacaodenotastecnicasdedocumentos.pdf		598.51 kB	Adobe PDF	View/Open

Show full item record Recommend this item