Please use this identifier to cite or link to this item:
https://ric.cps.sp.gov.br/handle/123456789/12828
Title: | Extração de entidades nomeadas com maximização de entropia (Opennlp) |
Other Titles: | Extraction of named entities with entropy maximization (Opennlp) |
Authors: | MEDEIROS, Richerland Pinto |
Advisor: | RIBEIRO, Patrícia Bellin |
type of document: | Artigo científico |
Keywords: | Inclusão social;Tecnologia da informação;Redes sociais;Processamento de texto;Entidades estudantis |
Issue Date: | Dec-2014 |
Publisher: | 196 |
Citation: | MEDEIROS, Richerland Pinto. Extração de entidades nomeadas com maximização de entropia (Opennlp). Trabalho de conclusão de curso (Curso Superior de Tecnologia em Banco de Dados) - Faculdade de Tecnologia FATEC Bauru, Bauru, 2014. |
Abstract: | Com o advento do aumento da inclusão tecnológica, somado ao aparecimento das redes sociais, o volume de informação textual cresceu expressivamente nos últimos anos e, com isso, a possibilidade de uso de informações proveniente dessas massas de dados tem se mostrado uma interessante ferramenta estratégica. Tais dados se apresentam de forma desestruturada, ou seja, o uso dessas valiosas informações é dificultado pela complexidade de interpretação da real informação inserido nessas massas de dados. O presente artigo visa apresentar a técnica estatística de maximização de entropia, para a extração de entidades nomeadas, possibilitando a tabulação de características, referenciadas por entidades dentro de massas de dados. Foram utilizados nos testes como base para o treinamento do modelo de extração os corpora públicos Amazônia e FlorestaVirgem ambos no formato Árvores Deitadas. Conclui-se que a abordagem de aprendizado de máquina estatístico, maximização de entropia, para a extração de informações, é eficiente quando levado em consideração o treinamento de um corpus especifico para o domínio de pesquisa. Through the advent of the technological inclusion, added to the emergence of social networks, the volume of information in the form of text grew dramatically over the last few years and information from these data mass become an interesting strategy tool. This data presents itself on a non-organized form, meaning that the use of such valuable information is hampered by the difficulty to interpret the real information inserted into these masses. The present article aims to present the maximization entropy statistical method for the extraction of named entities enabling tabulation of characteristics referenced by entities in data mass. It has been used for the tests as training base an extraction model for public corpora Amazonia and FlorestaVirgem, both in the Árvores Deitadas format. Is concluded that the statistical machine learning approach for information extraction is efficient when is considered the corpus trained on specific domain text. |
URI: | https://ric.cps.sp.gov.br/handle/123456789/12828 |
Appears in Collections: | Trabalhos de Conclusão de Curso |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
bancodedados_2014_2_richerlandmedeiros_extracaodeentidadesnomeadas.pdf Restricted Access | 1.14 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.