Identificação de autoria de contos usando técnicas de processamento de linguagem natural

GARCIA, Igor Brito dos Santos; RAMOS, Pâmela Coca dos Santos

Use este identificador para citar ou linkar para este item: https://ric.cps.sp.gov.br/handle/123456789/19745

Título:	Identificação de autoria de contos usando técnicas de processamento de linguagem natural
Título(s) alternativo(s):	Short story authorship identification using natural language processing techniques
Autor(es):	GARCIA, Igor Brito dos Santos RAMOS, Pâmela Coca dos Santos
Orientador(es):	DEZANI, Henrique
Outro(s) contribuidor(es):	SIMONATO, Adriano Luís RIBEIRO, Matheus Gonçalves
Tipo documental:	Artigo científico
Palavras-chave:	Processamento de dados;Processamento de texto;Autor
Data do documento:	28-Nov-2023
Editor:	121
Referência Bibliográfica:	GARCIA, Igor Brito dos Santos; RAMOS, Pâmela Coca dos Santos. Identificação de autoria de contos usando técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023.
Resumo:	Este artigo apresenta o estudo do processamento de linguagem natural para a identificação de autoria em contos de Márcia Denser e Sônia Coutinho. O trabalho de diferenciação de autoria por meio da NLP se faz relevante por fazer parte da área de Digital Humanities e por se tratar do estudo da NLP aplicada em textos literários e em português. Para a sua realização, foram digitalizados os contos das autoras e construído um dataset com os contos divididos em parágrafos. Após isso, os dados foram pré-processados e usados para a treino de um modelo rede neural convolucional – nesta etapa o treino foi realizado com 80% dos parágrafos. Após o treino, analisou-se a acurácia da identificação de autoria com o modelo apresentado e comparou-se estes resultados com a acurácia da identificação realizada por meio do ChatGPT, que também foi treinado com os parágrafos presentes no dataset na mesma proporção em que a rede foi treinada. Com base nessa comparação, pode-se concluir que, para a identificação de autoria com o dataset escolhido, a rede convolucional tem um melhor desempenho do que o ChatGPT. This paper aims the study of natural language processing for authorship identification in short stories of the Brazilian authors Márcia Denser and Sônia Coutinho. The authorship identification done through NLP techniques is relevant because is part of the Digital Humanities field and, in this paper, because it studies NLP applied to literary texts in Brazilian Portuguese. To use NLP in such texts, the published short stories of the authors were digitalized and divided into paragraphs, and a dataset was built with the result of this process. After this step, the data was preprocessed and used to train a convolutional neural network – using 80% of the paragraphs. Then, after the training, the accuracy of the identification was analyzed and its results were compared to the accuracy obtained through the identification done using ChatGPT, also trained using the same proportions used in the CNN training. Based on this comparison, this paper arrives at the conclusion that the CNN presents a better performs better than ChatGPT in the authorship identification of the dataset used for the tests.
URI:	https://ric.cps.sp.gov.br/handle/123456789/19745
Aparece nas coleções:	Trabalhos de Conclusão de Curso

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
informaticanegocios_2023_2_igorbritodossantosgarcia_identificacaodeautoriadecontosusandotecnica.pdf		1.71 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas