Use este identificador para citar ou linkar para este item:
https://ric.cps.sp.gov.br/handle/123456789/19745
Título: | Identificação de autoria de contos usando técnicas de processamento de linguagem natural |
Título(s) alternativo(s): | Short story authorship identification using natural language processing techniques |
Autor(es): | GARCIA, Igor Brito dos Santos RAMOS, Pâmela Coca dos Santos |
Orientador(es): | DEZANI, Henrique |
Outro(s) contribuidor(es): | SIMONATO, Adriano Luís RIBEIRO, Matheus Gonçalves |
Tipo documental: | Artigo científico |
Palavras-chave: | Processamento de dados;Processamento de texto;Autor |
Data do documento: | 28-Nov-2023 |
Editor: | 121 |
Referência Bibliográfica: | GARCIA, Igor Brito dos Santos; RAMOS, Pâmela Coca dos Santos. Identificação de autoria de contos usando técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023. |
Resumo: | Este artigo apresenta o estudo do processamento de linguagem natural para a identificação de autoria em
contos de Márcia Denser e Sônia Coutinho. O trabalho de diferenciação de autoria por meio da NLP se faz
relevante por fazer parte da área de Digital Humanities e por se tratar do estudo da NLP aplicada em textos
literários e em português. Para a sua realização, foram digitalizados os contos das autoras e construído um dataset com os contos divididos em parágrafos. Após isso, os dados foram pré-processados e usados para a treino de um modelo rede neural convolucional – nesta etapa o treino foi realizado com 80% dos parágrafos. Após o treino, analisou-se a acurácia da identificação de autoria com o modelo apresentado e comparou-se estes resultados com a acurácia da identificação realizada por meio do ChatGPT, que também foi treinado com os parágrafos presentes no dataset na mesma proporção em que a rede foi treinada. Com base nessa comparação, pode-se concluir que, para a identificação de autoria com o dataset escolhido, a rede convolucional tem um melhor desempenho do que o ChatGPT. This paper aims the study of natural language processing for authorship identification in short stories of the Brazilian authors Márcia Denser and Sônia Coutinho. The authorship identification done through NLP techniques is relevant because is part of the Digital Humanities field and, in this paper, because it studies NLP applied to literary texts in Brazilian Portuguese. To use NLP in such texts, the published short stories of the authors were digitalized and divided into paragraphs, and a dataset was built with the result of this process. After this step, the data was preprocessed and used to train a convolutional neural network – using 80% of the paragraphs. Then, after the training, the accuracy of the identification was analyzed and its results were compared to the accuracy obtained through the identification done using ChatGPT, also trained using the same proportions used in the CNN training. Based on this comparison, this paper arrives at the conclusion that the CNN presents a better performs better than ChatGPT in the authorship identification of the dataset used for the tests. |
URI: | https://ric.cps.sp.gov.br/handle/123456789/19745 |
Aparece nas coleções: | Trabalhos de Conclusão de Curso |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
informaticanegocios_2023_2_igorbritodossantosgarcia_identificacaodeautoriadecontosusandotecnica.pdf | 1.71 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.