Please use this identifier to cite or link to this item: https://ric.cps.sp.gov.br/handle/123456789/14622
Title: Análise comparativa de técnicas de mineração de dados para suporte à identificação de profissionais com câncer de estômago e esôfago
Authors: GOMES, Carla Monique de Andrade
Advisor: VENDRAMEL, Wilson
type of document: Monografia
Keywords: Mineração de dados;Classificação
Issue Date: 6-Dec-2014
Publisher: 111
Citation: GOMES, Carla Monique de Andrade. Análise comparativa de técnicas de mineração de dados para suporte à identificação de profissionais com câncer de estômago e esôfago, 2014. Trabalho de conclusão de curso (Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas) - Fatec Zona Leste, São Paulo, 2014.
Abstract: Mineração de dados, um poderoso processo de descoberta de conhecimento, utiliza diferentes técnicas para que se torne possível a análise de grande conjunto (ou partes de conjuntos) de dados, extraindo de si conhecimento relevante. Conforme a natureza desses dados, diferentes técnicas possuem diferentes níveis de desempenho ao analisá-los. Assim, devido às várias técnicas na MD disponíveis e à forma como seus métodos podem ser implementados, a atividade de escolher a que melhor se aplica – tendo como critério de escolha seu desempenho em cima da base em estudo – é carregada de grande importância, e sua complexidade muitas vezes implica grande dificuldade em selecionar a mais eficiente, levando-se em conta os dados analisados. Este trabalho tem como objetivo realizar uma pesquisa experimental de abordagem quantitativa a respeito do desempenho de técnicas e métodos de mineração de dados, com o intuito de definir quais apresentam melhores resultados para o domínio. Tal verificação foi realizada considerando as taxas do tipo “verdadeiro positivo”, “falso positivo”, “tempo de processamento”, “precisão” e “matriz de confusão”, obtidas por meio da tarefa de classificação. Para a obtenção das taxas que serviram como base às análises, foi aplicada a mineração utilizando a ferramenta WEKA a uma base real, composta por dados de óbitos em consequência de cânceres – com enfoque em casos de câncer de estômago e de esôfago – relacionados a profissões e à utilização de agentes químicos no dia-a-dia. Os resultados obtidos por meio desse estudo revelam semelhanças entre os conseguidos por diferentes técnicas, podendo gerar conclusões erradas sobre as informações resultantes, quando analisadas com base em apenas uma medida, fato esse que ressalta a importância da consideração de diversos fatores para definir qual técnica melhor se aplica aos objetivos estabelecidos.
Data mining, a powerful process of knowledge discovery, uses different techniques to make possible the analysis of large sets (or parts of sets) of data, extracting relevant knowledge of itself. As the nature of these data, different techniques have different performance levels to analyze them. Thus, due to the various techniques available in MD and how its methods can be implemented, the activity of choosing the one that best applies - on a criterion for choosing your performance on the basis of study - loads of great importance, and its complexity often entails great difficulty in selecting the most efficient, taking into account the analyzed data. This work aims to conduct an experimental research with a quantitative approach regarding the performance techniques and data mining methods, in order to define which show better results for the domain. Such verification was performed considering the rates of type "true positive" , "false positive", "processing time", “precision" and “confusion matrix” obtained by classification tasks. To obtain the rates, which served as basis for analyzes, mining was applied using the WEKA tool to a real base, consisting of mortality data as a result of cancer – focusing on cases of stomach and esophageal cancer – related professions and the use of chemical agents in the day-to-day. The results obtained from this study reveal similarities between achieved by different techniques, which can generate erroneous conclusions about the resulting information, when analyzed based on only one measure, a fact that underscores the importance of considering several factors to determine which best technique apply to established objectives.
URI: https://ric.cps.sp.gov.br/handle/123456789/14622
Appears in Collections:Trabalhos de Conclusão de Curso



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.