Use este identificador para citar ou linkar para este item: https://ric.cps.sp.gov.br/handle/123456789/19594
Título: Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural
Título(s) alternativo(s): Summarization of technical notes from tax documents using PySpark and natural language processing techniques
Autor(es): MARQUES, Francis Henrique Pereira
LEITE, Luís Fernando
Orientador(es): DEZANI, Henrique
Outro(s) contribuidor(es): VIEIRA, Lucimar Sasso
TAINO, Daniela Fernanda
Tipo documental: Artigo científico
Palavras-chave: Documento fiscal;Processamento de dados;Análise de dados;Python
Data do documento: 27-Nov-2023
Editor: 121
Referência Bibliográfica: MARQUES, Francis Henrique Pereira; LEITE, Luís Fernando. Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023.
Resumo: Neste artigo, aprofundamos a exploração das capacidades do Python e PySpark, com foco particular na biblioteca SparkNLP, para sumarizar eficientemente notas técnicas associadas a documentos fiscais (DF-e) divulgadas pelo governo. A escolha do PySpark foi devido a sua capacidade de integração nativa com o ambiente Spark o tornando ideal para o tratamento de vastos volumes de dados textuais, pensando em futura escalabilidade devido ao aumento desses documentos publicados. Utilizando a já segmentada técnica de Análise de Alocação Latente de Dirichlet (LDA), conseguimos desenvolver um modelo baseado em tópicos, que extraí e captura as principais temáticas e tendências presentes nos documentos. Esta abordagem escolhida nos permitiu condensar informações essenciais, simplificando significativamente a compreensão e análise desses documentos, focando no benefício para partes interessadas e profissionais da área fiscal. Em um cenário onde a clareza e a agilidade são essenciais, esta metodologia surge para criar um modelo facilitador, potencializando a extração de insights relevantes de extensos conjuntos de documentos fiscais.
In this article, we delve deeper into the capabilities of Python and PySpark, with a specific focus on the SparkNLP library, to efficiently summarize technical notes associated with fiscal documents (DF-e) released by the government. The choice of PySpark was due to its innate ability to integrate with the Spark environment, making it ideal for processing vast volumes of textual data, especially considering future scalability due to the increasing number of such published documents. By employing the distinct technique of Latent Dirichlet Allocation (LDA), we were able to develop a topic-based model that extract and captures the main themes and trends present in the documents. The chosen approach allowed us to significantly condense essential information, simplifying the understanding and analysis of these documents, with a focus on benefiting stakeholders and professionals in the fiscal field. In a scenario where clarity and agility are paramount, this methodology emerges to create a facilitating model, enhancing the extraction of relevant insights from extensive sets of fiscal documents.
URI: https://ric.cps.sp.gov.br/handle/123456789/19594
Aparece nas coleções:Trabalhos de Conclusão de Curso

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
informaticanegocios_2023_2_francishenriquepereiramarques_sumarizacaodenotastecnicasdedocumentos.pdf598.51 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.