51º Congresso Brasileiro de Geologia

Dados da Submissão


Título

SELEÇÃO DE AMOSTRAS REPRESENTATIVAS EM DADOS MULTIVARIADOS COM MAPAS AUTO-ORGANIZÁVEIS E MODELOS DE MISTURA GAUSSIANA

Texto do resumo

Amostras mais representativas podem auxiliar em caracterizações importantes de muitas áreas das ciências, bem como na obtenção de informações que sintetizam um comportamento conjunto ou em grupo. O agrupamento por métodos não supervisionados, baseado apenas nas similaridades e dissimilaridades dos objetos, consiste em uma das principais abordagens em análise exploratória de dados. A técnica Mapas Auto-Organizáveis (SOM) é capaz de gerar agrupamento e visualização de dados multivariados, com aplicações úteis para análise da estrutura de dados e interrelação das variáveis, dentre inúmeras outras. A técnica utiliza a quantização vetorial para representar dados n-dimensionais por neurônios organizados regularmente em um espaço bidimensional. Este trabalho visa desenvolver uma rotina metodológica automatizada e não supervisionada capaz de selecionar amostras mais representativas com uso do agrupamento por Médias-K dos neurônios treinados por SOM em bases de dados multivariados. A abordagem proposta será comparada à rotina tradicionalmente aplicada, exclusivamente baseada em Médias-K. Após o agrupamento dos neurônios do SOM por Médias-K, a seleção da amostra mais representativa de cada grupo é desenvolvida a partir das distâncias dos centroides dos grupos de neurônios e amostras associadas. Para avaliar o método proposto, foram utilizadas duas bases de dados: (i) real, composta pelas medidas das flores Iris; e outra (ii) sintética, gerada por um Modelo de Mistura Gaussiana (GMM), com parâmetros conhecidos. Ambas as bases foram processadas considerando três grupos conhecidos a priori. A representatividade dos agrupamentos obtidos com as diferentes metodologias foi analisada a partir de métricas de justiça, tais como média, valor máximo e variância das distâncias entre amostras e seus representantes. Além disso, foi utilizado o índice Jain que varia de 0 a 1 e indica o grau de equidistância ou igualitarismo do agrupamento. O método baseado em SOM atingiu melhores resultados de justiça que aquele gerado por Médias-K, com o índice Jain superando em 0.005 e 0.225 para as bases de dados das flores Iris e do GMM, respectivamente. Portanto, os centroides dos grupos obtidos a partir dos neurônios treinados do SOM agrupados por Médias-K são mais representativos que aqueles exclusivamente obtidos por Médias-K, indicando um melhor desempenho na obtenção da amostra mais representativa. Esse método demonstra grande potencial para ser aplicado a dados multivariados em Geociências e Engenharias que lidam com georrecursos.

Palavras Chave

Mapas Auto-Organizáveis; dados multivariados; representatividade; Médias-K; Modelos de Mistura Gaussiana

Área

TEMA 16 - Geoquantificação e Geotecnologias

Autores/Proponentes

Gustavo Rodovalho Marques, Cleyton Carvalho Carneiro