Use este identificador para citar ou linkar para este item:
https://ric.cps.sp.gov.br/handle/123456789/19594
Título: | Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural |
Título(s) alternativo(s): | Summarization of technical notes from tax documents using PySpark and natural language processing techniques |
Autor(es): | MARQUES, Francis Henrique Pereira LEITE, Luís Fernando |
Orientador(es): | DEZANI, Henrique |
Outro(s) contribuidor(es): | VIEIRA, Lucimar Sasso TAINO, Daniela Fernanda |
Tipo documental: | Artigo científico |
Palavras-chave: | Documento fiscal;Processamento de dados;Análise de dados;Python |
Data do documento: | 27-Nov-2023 |
Editor: | 121 |
Referência Bibliográfica: | MARQUES, Francis Henrique Pereira; LEITE, Luís Fernando. Sumarização de notas técnicas de documentos fiscais utilizando PySpark e técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023. |
Resumo: | Neste artigo, aprofundamos a exploração das capacidades do Python e PySpark, com foco particular na
biblioteca SparkNLP, para sumarizar eficientemente notas técnicas associadas a documentos fiscais (DF-e)
divulgadas pelo governo. A escolha do PySpark foi devido a sua capacidade de integração nativa com o ambiente Spark o tornando ideal para o tratamento de vastos volumes de dados textuais, pensando em futura escalabilidade devido ao aumento desses documentos publicados. Utilizando a já segmentada técnica de Análise de Alocação Latente de Dirichlet (LDA), conseguimos desenvolver um modelo baseado em tópicos, que extraí e captura as principais temáticas e tendências presentes nos documentos. Esta abordagem escolhida nos permitiu condensar informações essenciais, simplificando significativamente a compreensão e análise desses documentos, focando no benefício para partes interessadas e profissionais da área fiscal. Em um cenário onde a clareza e a agilidade são essenciais, esta metodologia surge para criar um modelo facilitador, potencializando a extração de insights relevantes de extensos conjuntos de documentos fiscais. In this article, we delve deeper into the capabilities of Python and PySpark, with a specific focus on the SparkNLP library, to efficiently summarize technical notes associated with fiscal documents (DF-e) released by the government. The choice of PySpark was due to its innate ability to integrate with the Spark environment, making it ideal for processing vast volumes of textual data, especially considering future scalability due to the increasing number of such published documents. By employing the distinct technique of Latent Dirichlet Allocation (LDA), we were able to develop a topic-based model that extract and captures the main themes and trends present in the documents. The chosen approach allowed us to significantly condense essential information, simplifying the understanding and analysis of these documents, with a focus on benefiting stakeholders and professionals in the fiscal field. In a scenario where clarity and agility are paramount, this methodology emerges to create a facilitating model, enhancing the extraction of relevant insights from extensive sets of fiscal documents. |
URI: | https://ric.cps.sp.gov.br/handle/123456789/19594 |
Aparece nas coleções: | Trabalhos de Conclusão de Curso |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
informaticanegocios_2023_2_francishenriquepereiramarques_sumarizacaodenotastecnicasdedocumentos.pdf | 598.51 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.