RING-Id: Uma ferramenta robusta para a identificaç˜ao ... - UEFS

RING-Id: Uma ferramenta robusta para identificação automática de galáxias peculiares. Os catálogos de galáxias aneladas, de Fa'undez-Abans e Oliveira-Abans (1998) e Moiseev et al., foram utilizados como base de dados.

As gal´ axias aneladas

Anéis Hoag: galáxias aneladas deste tipo contêm um anel circular em torno de uma pequena protuberância; -tais como: Whitmore et al. 1990) sugerem que este tipo de objeto é um possível candidato a galáxias com anéis polares.

O reconhecimento de padr˜ oes em grandes vo- lumes de dados astronˆ omicoslumes de dados astronˆomicos

Projetos como os desenvolvidos pela equipe do Galaxy Zoo5 permitem que o público se envolva na classificação das galáxias. Shamir e Wallin (2014) apresentam uma ferramenta computacional chamada WndChrm que também pode ser usada para identificar galáxias em interação incomum.

Justificativa e motiva¸ c˜ ao

Objetivos

Aspectos de originalidade da Disserta¸ c˜ ao

Organiza¸ c˜ ao da Disserta¸ c˜ ao

Uma rede neural artificial é uma poderosa ferramenta de modelagem de dados capaz de capturar e representar relações complexas de entrada e saída. Ainda segundo os autores, o verdadeiro poder e vantagem das redes neurais reside na sua capacidade de representar relações não lineares e lineares, bem como na sua capacidade de aprender essas relações diretamente, com base nos dados que estão sendo modelados. As redes neurais são motivadas pela incrível capacidade de processamento paralelo dos cérebros biológicos, especialmente do cérebro humano.

Modelos baseados em redes neurais procuram enfatizar a capacidade do cérebro de se adaptar ao mundo em que se encontra e de modificar a relação entre os neurônios individuais.

T´ opicos b´ asicos para um projeto de uma RNA

O próximo fator importante na determinação da saída de um neurônio é o seu limite interno. O fator final, responsável pela saída do neurônio, é a função de transferência ou ativação. Uma das principais características da função de ativação de um neurônio é que ela deve ser não linear para aprender mapeamentos separáveis não lineares.

Limiar A função assume os valores 0 ou 1 para a resposta do neurônio dado um valor de entrada.

A topologia de redes neurais

Tipos de treinamento

Valida¸ c˜ ao cruzada

M´ etricas de avalia¸ c˜ ao

Matriz de confus˜ ao e medidas de avalia¸ c˜ ao

Medida-F (F-Score )

Medida-F (F-Score ) aplicada para mais de duas clas- ses

Os cat´ alogos FAOA e de Moiseev et al. (2011)

A seção 3.4 apresentará imagens com exemplos de algumas imagens de galáxias aneladas utilizadas na dissertação. Conforme catalogado por Moiseev et al. 2011) de galáxias polares, contém principalmente objetos do Hemisfério Norte e não há superposição de objetos com o catálogo da FAOA. A Tabela 3.1 mostra o número de galáxias em anel para cada categoria com base em ambos os catálogos.

Observe o grande número, 147 e 209, de galáxias classificadas nas categorias Polar (P) e Elíptica (E), respectivamente.

A obten¸ c˜ ao das imagens das gal´ axias aneladas

ASCII, com os valores de frequência em que cada ponto de interesse é detectado e descrito em relação à distância de alguns outros pontos gerados pelo algoritmo K-means. A figura mostra uma imagem de 2 minutos de arco da galáxia obtida por Aladin da galáxia AM 0126-680. Essa pequena diferença não interfere no nosso levantamento, nem nas estrelas do campo, já que fazemos um corte a partir do centro, para que a imagem final contenha apenas o objeto do levantamento com poucas exceções de alguns objetos muito próximos da galáxia.

Vale ressaltar que esse foi um dos critérios que consideramos ao descartar alguns dos itens utilizados em nossa amostra.

Sele¸ c˜ ao das imagens a serem usadas

O código lê automaticamente imagens de galáxias e extrai descritores utilizando o algoritmo SURF, descrito no Capítulo 4. Também foi realizada uma investigação sobre a possibilidade de processamento das imagens obtidas com Aladdin. Numa primeira fase, preferiu-se utilizar as imagens originais e verificar os resultados para implementar o processamento das imagens numa fase futura, se necessário.

Observou-se que a rede demorou para convergir durante a fase de treinamento utilizando as imagens originais.

Extra¸ c˜ ao de atributos em imagens

O capítulo descreve a metodologia utilizada na dissertação, que consiste em definir os tipos de galáxias em anel em estudo, obter imagens astronômicas dos anéis peculiares de galáxias, processar as imagens selecionadas, identificar e descrever as características dessas imagens, através do uso da biblioteca LIRe, a criação do software (RING-Id) RNA, realizando as etapas de treinamento, validação e testes da rede. Portanto, optou-se por realizar experimentos utilizando técnicas de extração de atributos locais em imagens, visando baixo custo computacional e bom desempenho. Ao contrário dos atributos globais, os atributos locais são descritos por um padrão que existe na imagem associada, como uma mudança de perspectiva que pode ser um ponto de interesse (Lisin et al., 2005).

No presente trabalho, tentamos identificar as características em imagens de diferentes tipos de galáxias com anéis especiais, utilizando alguns descritores locais utilizando o Speeded Up Robust Features Algorithm (SURF) e utilizando a técnica de descrição de imagem baseada em Bag with Functions (BoF). .

A LIRe

Speeded Up Robust Features (SURF)

Detec¸ c˜ ao de pontos de interesse

As matrizes de filtro mostradas na Figura 4.3 percorrem uma área da imagem pixel por pixel nas orientações x, y e z, usando os seguintes valores de kernel: esquerda, centro e direita, respectivamente. A pirâmide de escala é necessária quando há alteração no tamanho de uma imagem. A Figura 4.5 mostra diferentes escalas para uma determinada imagem quando houve alteração no tamanho da imagem original.

A supressão não máxima em 3D é o método de controle de pixels nas proximidades de uma imagem e escalas imediatamente inferiores e superiores, ou seja, filtros de tamanhos maiores e menores aplicados à imagem.

Descri¸ c˜ ao dos pontos de interesse

Para cada nova região, a resposta de convolução é calculada, novamente utilizando os dois núcleos já mencionados na etapa anterior, que fornecem informações nas orientações x e y. Para cada ponto de interesse é calculado um descritor de 64 posições, que é independente da rotação. Ao utilizar o SURF, alguns atributos são essenciais, como o parâmetro de limite hessianThreshold, que afeta o número de pontos de interesse retornados, ou seja, quanto menor esse atributo, mais pontos de interesse serão apresentados (Lagani `ere, 2014).

A Figura 4.10 mostra um exemplo de informação sobre pontos de interesse detectados, utilizando a ferramenta LIRE e o AlgorithmSURF para uma determinada imagem de galáxia.

Bag-of-Features (BoF)

No LIRe, os parâmetros agregadores do método ParallelIndexer permitem indexar e recuperar uma determinada imagem em formato de histograma. A etapa (c) da Figura 4.11 mostra um exemplo de criação de um histograma de palavras visuais. Dada uma imagem de uma galáxia (a), são capturados os pontos de interesse desta imagem (b), os quais são descritos em um vetor de atributos e na técnica BoF.

Vale ressaltar que o histograma de palavras visuais será transformado em um vetor de características, que será utilizado como entrada para o modelo derivado do algoritmo de aprendizagem automática conforme passo (d) da Figura 4.11.

Medidas de similaridade em imagens

Para isso, utiliza-se a classe ParallelKMeans para identificar a menor distância entre os centros gerada pelo algoritmo k-means. Na expressão acima, d(d1, d2) é a distância entre duas imagens d1, d2, onde é o tamanho do vetor que representa cada imagem e w1i e w2i são os valores das palavras visuais de duas imagens hipotéticas éticas, respectivamente na posição i.

A extra¸ c˜ ao de caracter´ısticas de gal´ axias ane- ladasladas

Conforme mencionado anteriormente, esta técnica cria diversos histogramas de palavras visuais com base nas descrições dos pontos de interesse detectados. Para detectar pontos de interesse em imagens de galáxias, alguns parâmetros do algoritmo SURF foram ajustados com o objetivo de encontrar um bom número de pontos de interesse. A Tabela 4.3 apresenta as diferentes simulações do algoritmo do banco de dados, contendo as imagens de galáxias do levantamento conforme Tabela 3.2, definida no Capítulo 3.

A Simulação 3.7 recebeu um maior número de pontos de interesse detectados, e terá seus valores de parâmetros, para construir histogramas de palavras visuais.

O uso da t´ ecnica BoF para mapear as imagens de gal´ axias aneladas peculiares em histogra-de gal´axias aneladas peculiares em histogra-

Sabendo que a galáxia de levantamento é do tipo carta polar Moiseev-27 e analisando os valores retornados próximos de zero, em uma escala de 0 a 10, o tamanho do ocluster de 32, eles representam eixo de 8 gal´ do tipo elíptico, e 12 pertencentes à mesma classe do tipo de pesquisa. O teste de similaridade apresentado na Tabela 4.8 apresenta melhores resultados em comparação aos resultados obtidos com aglomerados de tamanhos 32 e 64, obtendo 5 galáxias do tipo elíptico e 15 pertencentes à mesma classe do tipo de levantamento, neste caso do tipo polar. o tipo de galáxia representada pelo objeto do mapa Moiseev-27. Com um tamanho de aglomerado de 256, obtivemos 3 galáxias do tipo elíptico e 17 pertencentes à mesma classe do tipo de levantamento, ou seja, uma galáxia pertencente à categoria de galáxias polares da carta Moiseev-27.

Este capítulo apresenta as principais características da ferramenta RING−Id para a identificação automática de galáxias com anéis incomuns.

Caracter´ısticas principais

Requisitos funcionais da ferramenta
Requisitos n˜ ao funcionais
Uma vis˜ ao geral do m´ odulo de treinamento
Uma vis˜ ao geral do m´ odulo de teste
M´ odulo de visualiza¸ c˜ ao dos dados

A Tabela 5.1 mostra com mais detalhes os parâmetros do arquivo de configuração da rede. O parâmetro fixo NS definido como 0 ou 1 é a saída da rede neural e é representado na aplicação por dois neurônios. Leitura de dados de entrada, validação e testes a serem utilizados durante os processos de treinamento, validação e testes da rede;.

O tamanho do arquivo e a dimensão dos pesos da rede neste arquivo persistente dependem do número de neurônios nas camadas de entrada, oculta e de saída da RNA.

A escolha dos melhores parˆ ametros da ferra- mentamenta

Os resultados das simulações podem ser melhor visualizados na Figura 5.7, que apresenta o percentual de acertos para cada simulação. Esta simulação considerou um tamanho de array de 256, que foi o melhor valor encontrado nas simulações discutidas no capítulo 4. A Figura 5.8 mostra a evolução do erro usando a técnica de validação cruzada t´ ao longo das épocas de treinamento para a simulação 1.4 (s1. 4). .

Dada a matriz de confusão para a melhor simulação (s1.4), foram obtidos os valores de precisão e recall, e logo em seguida foi calculado o F-measure.

A classifica¸ c˜ ao da rede

A Figura 5.11 apresenta uma visualização dos percentuais dos objetos classificados como corretos conforme Tabela 5.5. A matriz desta simulação para a classe de galáxias em anéis polares classifica corretamente 27 objetos e classifica erroneamente 4, classificando-os erroneamente na categoria de anéis elípticos. A medida de precisão e a medida F fornecem valores percentuais aceitáveis para uma classificação conforme encontrada na literatura (Capítulo 2).

Para a fase de classificação da rede o software conseguiu acessar os valores de peso que representaram a melhor configuração na fase de treinamento e classificar padrões até então desconhecidos pela RNA obtendo valores de precisão e medida F de 81,0% e 73,0% ou