Please use this identifier to cite or link to this item:
https://ric.cps.sp.gov.br/handle/123456789/19745
Title: | Identificação de autoria de contos usando técnicas de processamento de linguagem natural |
Other Titles: | Short story authorship identification using natural language processing techniques |
Authors: | GARCIA, Igor Brito dos Santos RAMOS, Pâmela Coca dos Santos |
Advisor: | DEZANI, Henrique |
Other contributor: | SIMONATO, Adriano Luís RIBEIRO, Matheus Gonçalves |
type of document: | Artigo científico |
Keywords: | Processamento de dados;Processamento de texto;Autor |
Issue Date: | 28-Nov-2023 |
Publisher: | 121 |
Citation: | GARCIA, Igor Brito dos Santos; RAMOS, Pâmela Coca dos Santos. Identificação de autoria de contos usando técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023. |
Abstract: | Este artigo apresenta o estudo do processamento de linguagem natural para a identificação de autoria em
contos de Márcia Denser e Sônia Coutinho. O trabalho de diferenciação de autoria por meio da NLP se faz
relevante por fazer parte da área de Digital Humanities e por se tratar do estudo da NLP aplicada em textos
literários e em português. Para a sua realização, foram digitalizados os contos das autoras e construído um dataset com os contos divididos em parágrafos. Após isso, os dados foram pré-processados e usados para a treino de um modelo rede neural convolucional – nesta etapa o treino foi realizado com 80% dos parágrafos. Após o treino, analisou-se a acurácia da identificação de autoria com o modelo apresentado e comparou-se estes resultados com a acurácia da identificação realizada por meio do ChatGPT, que também foi treinado com os parágrafos presentes no dataset na mesma proporção em que a rede foi treinada. Com base nessa comparação, pode-se concluir que, para a identificação de autoria com o dataset escolhido, a rede convolucional tem um melhor desempenho do que o ChatGPT. This paper aims the study of natural language processing for authorship identification in short stories of the Brazilian authors Márcia Denser and Sônia Coutinho. The authorship identification done through NLP techniques is relevant because is part of the Digital Humanities field and, in this paper, because it studies NLP applied to literary texts in Brazilian Portuguese. To use NLP in such texts, the published short stories of the authors were digitalized and divided into paragraphs, and a dataset was built with the result of this process. After this step, the data was preprocessed and used to train a convolutional neural network – using 80% of the paragraphs. Then, after the training, the accuracy of the identification was analyzed and its results were compared to the accuracy obtained through the identification done using ChatGPT, also trained using the same proportions used in the CNN training. Based on this comparison, this paper arrives at the conclusion that the CNN presents a better performs better than ChatGPT in the authorship identification of the dataset used for the tests. |
URI: | https://ric.cps.sp.gov.br/handle/123456789/19745 |
Appears in Collections: | Trabalhos de Conclusão de Curso |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
informaticanegocios_2023_2_igorbritodossantosgarcia_identificacaodeautoriadecontosusandotecnica.pdf | 1.71 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.