Identificação de autoria de contos usando técnicas de processamento de linguagem natural

GARCIA, Igor Brito dos Santos; RAMOS, Pâmela Coca dos Santos

Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/19745

Title:	Identificação de autoria de contos usando técnicas de processamento de linguagem natural
Other Titles:	Short story authorship identification using natural language processing techniques
Authors:	GARCIA, Igor Brito dos Santos RAMOS, Pâmela Coca dos Santos
Advisor:	DEZANI, Henrique
Other contributor:	SIMONATO, Adriano Luís RIBEIRO, Matheus Gonçalves
type of document:	Artigo científico
Keywords:	Processamento de dados;Processamento de texto;Autor
Issue Date:	28-Nov-2023
Publisher:	121
Citation:	GARCIA, Igor Brito dos Santos; RAMOS, Pâmela Coca dos Santos. Identificação de autoria de contos usando técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023.
Abstract:	Este artigo apresenta o estudo do processamento de linguagem natural para a identificação de autoria em contos de Márcia Denser e Sônia Coutinho. O trabalho de diferenciação de autoria por meio da NLP se faz relevante por fazer parte da área de Digital Humanities e por se tratar do estudo da NLP aplicada em textos literários e em português. Para a sua realização, foram digitalizados os contos das autoras e construído um dataset com os contos divididos em parágrafos. Após isso, os dados foram pré-processados e usados para a treino de um modelo rede neural convolucional – nesta etapa o treino foi realizado com 80% dos parágrafos. Após o treino, analisou-se a acurácia da identificação de autoria com o modelo apresentado e comparou-se estes resultados com a acurácia da identificação realizada por meio do ChatGPT, que também foi treinado com os parágrafos presentes no dataset na mesma proporção em que a rede foi treinada. Com base nessa comparação, pode-se concluir que, para a identificação de autoria com o dataset escolhido, a rede convolucional tem um melhor desempenho do que o ChatGPT. This paper aims the study of natural language processing for authorship identification in short stories of the Brazilian authors Márcia Denser and Sônia Coutinho. The authorship identification done through NLP techniques is relevant because is part of the Digital Humanities field and, in this paper, because it studies NLP applied to literary texts in Brazilian Portuguese. To use NLP in such texts, the published short stories of the authors were digitalized and divided into paragraphs, and a dataset was built with the result of this process. After this step, the data was preprocessed and used to train a convolutional neural network – using 80% of the paragraphs. Then, after the training, the accuracy of the identification was analyzed and its results were compared to the accuracy obtained through the identification done using ChatGPT, also trained using the same proportions used in the CNN training. Based on this comparison, this paper arrives at the conclusion that the CNN presents a better performs better than ChatGPT in the authorship identification of the dataset used for the tests.
URI:	https://ric.cps.sp.gov.br/handle/123456789/19745
Appears in Collections:	Trabalhos de Conclusão de Curso

Files in This Item:

File	Description	Size	Format
informaticanegocios_2023_2_igorbritodossantosgarcia_identificacaodeautoriadecontosusandotecnica.pdf		1.71 MB	Adobe PDF	View/Open

Show full item record Recommend this item