Modelo de aprendizagem 29 - Classificação de pedestres em imagens degradadas

Capítulo 3 – Classificação 28

3.1. Modelo de aprendizagem 29

Uma propriedade fundamental dos modelos de aprendizagem é a capacidade de aprender a partir de observações e melhorar seu desempenho por isso. O conjunto de regras que define como o modelo aprende é chamado de algoritmo de aprendizagem [29]. Podemos definir um modelo de aprendizagem genericamente como um modelo formal matemático que abrange toda a solução do problema: como os valores de entrada estão dispostos, como são obtidas as amostras de treinamento, como o mapeamento é aprendido, entre outros.

Na literatura, existem três principais paradigmas de aprendizagem: supervisionada, não-supervisionada e por reforço. Na primeira, um professor, com conhecimento do ambiente, provê a saída desejada para cada instância durante o treinamento do modelo. O modelo então incorpora esses dados no seu treinamento, buscando generalizá-los, de forma a “emular” as decisões do professor [29].

Nos outros dois paradigmas não há professor, portanto o modelo precisa de mecanismos de autocorreção. Na aprendizagem não-supervisionada, é necessário determinar uma medida de qualidade, que servirá de base para otimizar os parâmetros. Já na aprendizagem por reforço, há a presença de um crítico, que emite estímulos positivos ou negativos ao modelo, dependendo da saída resultante [29].

Nessa dissertação, como trabalharemos com imagens de treinamento previamente classificadas, nos focaremos apenas em modelos com aprendizagem supervisionada.

3.1.1. SVM linear

A SVM, sigla de Support Vector Machine, teve seu desenvolvimento liderado por Vapnik nos anos 90 e baseia-se no princípio da minimização do risco estrutural. Este

princípio requer que otimizemos dois fatores contraditórios: minimizar o erro de treinamento (evitando o underfitting – quando o modelo é simples demais para o problema) e maximizar a generalização do conhecimento (evitando o overfitting – quando o modelo ajusta-se precisamente às amostras de teste, desviando-se da realidade). Portanto, temos que escolher entre uma aproximação mais precisa do conjunto de treinamento e funções de decisão com maior capacidade de representação [30].

Resolver este compromisso é mais simples quando consideramos amostras de treinamento linearmente separáveis. Ou seja, quando dispomo-las no ℝn_{(sendo n a}

dimensionalidade de cada amostra), é possível traçar uma fronteira linear que divide o espaço em dois, os quais individualmente contém exatamente todas as instâncias de uma das duas classes. Esta fronteira é um subconjunto plano do ℝn_{de dimensões}_ℝn-‐1_{. Tal estrutura é}

conhecida por hiperplano. Sendo x uma amostra qualquer, w o vetor de pesos e b o viés (bias), podemos representar o hiperplano ótimo de decisão da SVM pela equação (7).

𝑤!_{𝑥 + 𝑏 = 0} ₍₇₎

Figura 14 – Posicionamento do hiperplano ótimo em um conjunto de dados [29]

Resumindo, a SVM linear busca um hiperplano que separa classes de objetos além de apresentar a maior distância em relação aos objetos mais próximos à fronteira [31]. O hiperplano de decisão divide o conjunto de amostras em duas classes. A distância entre o hiperplano e a amostra mais próxima é a chamada margem de separação. Estas amostras próximas à fronteira entre classes são conhecidas como vetores de suporte, que dão nome ao método, e têm impacto direto na determinação do hiperplano [29]. Então, o treinamento do

modelo tem como objetivo determinar valores ótimos para w e b, a partir de amostras conhecidas. A Figura 14 exemplifica o resultado num conjunto arbitrário.

Quando as amostras possuem classes quase linearmente separáveis (mas não completamente), devido à instâncias ruidosas ou outliers (observações que fogem à regra), o objetivo passa a ser encontrar um hiperplano que gere o menor erro [31]. Portanto, a cada amostra de treinamento é atribuída uma “variável de folga” ξ não-negativa, cuja soma determina o erro do hiperplano de separação.

Cada um dos subespaços gerados pelo hiperplano representa a abrangência de uma classe no espaço do problema. Então, se uma amostra está localizada num subespaço diferente ao correspondente à sua classe, seu erro será diferente de zero. Para calcular o valor de ξ para certa amostra d, consideramos Hc como o hiperplano correspondente à classe correta desta

amostra (hiperplano que contém os vetores de suporte da classe) e H como o hiperplano de separação. Então, usamos a fórmula (8). Um exemplo do cálculo das variáveis ξ é apresentado na Figura 15.

ξ_! = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎(𝑑, 𝐻!)

𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎(𝐻, 𝐻_!) (8)

Figura 15 – Forma de calcular as variáveis de folga ξ numa SVM linear

Além disso, esse tipo de SVM permite definir um parâmetro C, que funciona como um mecanismo para acrescentar tolerância a erros. Quanto maior o valor do C, menos erros serão tolerados, podendo, inclusive, causar overfitting [30].

3.1.2. AdaBoost

No princípio de dividir para conquistar, uma tarefa computacional complexa é dividida em várias tarefas menores e, então, os resultados destas são combinados de forma a realizar a tarefa original. Na aprendizagem supervisionada, é possível aplicar este princípio distribuindo a tarefa de classificação entre vários “especialistas” (modelos de aprendizagem treinados de formas distintas), combinando-as numa resposta única, formando assim uma máquina de comitê [29].

O boosting é um tipo de máquina de comitê onde os “especialistas” são treinados em conjuntos de amostras com diferentes distribuições de probabilidade [29]. Para um problema de classificação qualquer, uma distribuição de probabilidade é uma função que, para cada amostra presente no conjunto universo (que abrange todas as amostras representáveis) deste problema, retorna a probabilidade desta amostra ocorrer no ambiente externo.

O AdaBoost, abreviação de boosting adaptativo, é uma técnica de boosting por reamostragem. Ele inicia o treinamento do primeiro modelo assumindo que todas as amostras de treinamento são igualmente importantes. Nas etapas seguintes, os modelos atuais priorizam as amostras incorretamente classificadas nos modelos de etapas anteriores em detrimento dos acertos destes [32].

Denomina-se de modelo de aprendizagem fraco uma máquina de aprendizagem binária que identifica uma hipótese que obtém uma taxa de falsos negativos de pouco menos que 50% num conjunto aleatório de amostras. Ou seja, este modelo precisa ser ao menos um pouco melhor que palpites aleatórios (que acertariam probabilisticamente metade dos casos). O AdaBoost adapta-se aos erros de um modelo fraco, por isso o seu nome [29]. Como consequência, cada modelo do comitê especializa-se em classificar uma parte do espaço de amostras onde os anteriores não foram bem sucedidos.

Para cada etapa, esta técnica prioriza as amostras erroneamente classificadas na etapa anterior, de forma que as amostras difíceis tenham maior prioridade (peso) que as fáceis [29]. Sejam as amostras de treinamento um conjunto na forma (xi, di), o processo inicia-se com

uma distribuição D1 uniforme, e para cada uma das n etapas:

1. Treina-se um modelo com uma amostra da distribuição Dn;

3. Calcula-se o erro do modelo Fn por 𝜖! = !:!!(!!)!!!𝐷!(𝑖);

4. Cria-se uma nova distribuição Dn+1, que consiste em multiplicar por βn os valores de

Dn classificados corretamente em Fn, onde 𝛽! = 𝜖! 1 − 𝜖! .

De forma a combinar os modelos gerados, a saída final Fn(x) de um vetor de

características x é calculada por (9):

𝐹_!(𝑥) = 𝑎𝑟𝑔 𝑚𝑎𝑥 !∈! 𝑙𝑜𝑔 1 𝛽_! !:!!(!)!! (9)

CAPÍTULO 4

–

DEGRADAÇÃO DE IMAGEM

Imagens reais de objetos que se movem podem ser consideradas como uma representação degradada de uma imagem ideal, capturada em um determinado instante por uma câmera ideal [33].

Neste capítulo, são apresentados alguns dos possíveis tipos de degradação de imagem: baixa resolução, ruído, desfoque de movimento, oclusão e desfoque gaussiano. Estes cinco tipos de degradação foram simulados nas bases de imagem durante os experimentos desta dissertação.

4.1. Baixa resolução

A resolução na qual um objeto tridimensional é observado numa imagem depende principalmente da sua distância em relação à câmera e da distância focal associada à lente da câmera. Por isso, há uma forte relação entre escala e resolução [34].

Quando um detector busca por pedestres em uma imagem, normalmente a mesma imagem é percorrida diversas vezes, com cada uma procurando pedestres em uma determinada faixa de tamanho. No entanto, quanto menor o pedestre estiver na imagem, menos detalhes ele apresentará, dificultando o reconhecimento.

No documento Classificação de pedestres em imagens degradadas (páginas 31-36)