3.3 – Soft independent modeling of class analogy SIMCA

Frequentemente, conjuntos de dados consistem de amostras que pertencem a várias diferentes classes. Classes podem diferir de diversos modos, incluindo diferenças nos tipos de compostos químicos (aromático, alifático, carbonílicos, etc.) entre outros.

O SIMCA30-32 é um método de classificação ou um método de reconhecimento de padrões supervisionado e paramétrico. Um método supervisionado necessita de um conjunto de dados consistindo de amostras com seus atributos (variáveis) e suas respectivas classes. Uma distinção pode ser feita entre técnicas de reconhecimento de padrões (supervisionado) que consideram a informação sobre a distribuição da população e aquelas que não consideram. As técnicas não paramétricas (ex.: KNN) não fazem suposição sobre a distribuição da população (ou seja, não levam em consideração informação sobre a distribuição da população) enquanto técnicas paramétricas (ex.: SIMCA) fazem. As técnicas paramétricas são baseadas em uma distribuição bem definida.

No modelo SIMCA uma classe consiste em um plano ou hiperplano linearmente definido e restrito no espaço. Os dados de cada objeto podem ser definidos como:

Capítulo 3 Métodos quimiométricos para regressão e classificação

em que _! é a parte que pode ser explicada pelo modelo para a classe " , ou seja, a parte determinística, e _! é a parte não explicada pelo modelo para a classe " , ou seja, a parte devida aos fatores que não são controlados pelo modelo. _! pode ser utilizado para medir a distância entre o objeto e a classe do modelo.

No algoritmo SIMCA uma fronteira de classe é construída ao redor de cada modelo de classe. Isso pode ser considerado como um tipo de intervalo de confiança, de forma que a dispersão da população no espaço é estimado. Esse intervalo de confiança pode ser calculado tanto baseado em uma suposição quanto a distribuição da população como baseado na distribuição das distâncias observadas entre os objetos de treinamento em relação ao modelo de classe (ou seja, baseado no _!). Os intervalos de confiança podem ser construídos com diferentes níveis de significância (#). No presente estudo considerou-se a utilização de 95 % de confiança.

No SIMCA uma classe é modelada através da análise PCA. Isso significa que a partir de $ variáveis $ componentes principais (PCs) são definidas. Se as variáveis são fortemente correlacionadas então quase toda variabilidade de uma classe pode ser representada no espaço definido pelas poucas componentes principais iniciais. O número de componentes significantes % pode ser definido através de um procedimento de validação cruzada. O modelo de classe & é então definido como:

= ' + ∑(₎ _(3.10)

enquanto os dados dos objetos pertencentes a classe são descritos pelas equações:

* = +' + ∑()) ) (3.11)

+ = * + , (3.12)

em que: +' é a média da variável - na classe; ₎ são os escores que descrevem a situação do objeto . com respeito a componente principal /; ₎ são os pesos, indicando a importância da variável - na direção da componente principal /; * é a parte da i-ésima medida do objeto . que pode ser explicada pelo modelo de classe; , são os resíduos que descrevem a parte não sistemática dos dados.

A combinação das componentes principais significantes definem um subespaço

seguida pelo intervalo dos valores de ₎ dos objetos de treinamento. Ao longo de cada componente principal os limites de classe superiores (_),1)2) e inferiores (_),13) são respectivamente definidos como:

),1)2 = max7) 8 + 0,5;<,) (3.13)

),13 = min7) 8 − 0,5;<,) (3.14)

em que ;_<,) é o desvio padrão dos escores dos objetos de treinamento na CP /. De acordo com o número de componentes utilizadas em cada modelo de classe, a forma do modelo de classe pode ser um ponto 7% = 08, um segmento de linha 7% = 18, um retângulo 7% = 28, e outras formas. A figura 3.2 mostra uma representação gráfica de um modelo SIMCA. Com base nos resíduos um intervalo de confiança é construído ao redor do modelo de classe da seguinte forma. O desvio padrão dos resíduos para uma classe é dada por:

;B = C∑3 ∑ , D /[7$ − %87G − % − 18] (3.15)

;B é uma medida da distância média entre os objetos que pertencem a classe e o

modelo de classe. O desvio padrão dos resíduos ; para o objeto . é definido como:

; = C∑ , D _{/7$ − %8}

(3.16)

; é uma medida do quão adequadamente o objeto . é explicado pelo modelo de classe. Geometricamente ele corresponde a distância ortogonal entre o objeto e o plano definido pelas CPs significantes. Para objetos situados fora de um ou mais intervalos que restringem o modelo de classe ao longo das componentes principais significantes (o que somente ocorre para objetos não pertencentes ao conjunto de treinamento), a distância em relação ao modelo de classe é definido como:

; = 7∑ ,D _{/7$ − %8 + ∑ 7} I − I,J18D;BD/;<,ID 8/D K I (3.17)

onde L diz respeito aquelas CPs para as quais . está situado fora do intervalo que restringe o modelo de classe ao longo de uma CP. O termo de correção _MMNO

P,Q O é

Capítulo 3

introduzido para alongar o modelo de classe proporcionalmente a dispersão da classe na direção de uma PC. Quanto maior a parte referente a variância dentro de uma classe explicada por essa determinada PC (ou seja, q

caixa) da classe será alongada nessa direção.

Figura 3.2 – Representação gráfica de um modelo SIMCA

Como os resíduos devem possuir uma distribuição normal, a razão:

R =

MSO

MNO

dos objetos pertencentes a classe, deverão ter uma distribuição

7$ − %87G − % − 18 graus de liberdade

classe). Isso nos permite identificar o valor máximo que um objeto seja classificado na classe. A partir do qual é a distância que define as fronteiras da classe.

;TU< VRTU< ;BD

O termo soft refere-se ao fato

amostras como pertencentes a uma, a várias ou

modelo pode ser observado através do número de casos em que amostras são classificadas dessas formas. Amostras anômalas, o

nenhuma classe, podem ocorrer devido a um erro nas medidas, a uma má rotulação, a um fenômeno químico e/ou físico anômalo ou desconhecido ou, ainda, essa amostra pode pertencer a uma classe que não foi inclusa no conjunto

construção dos modelos de cada classe.

Métodos quimiométricos para regress

Representação gráfica de um modelo SIMCA

Como os resíduos devem possuir uma distribuição normal, a razão:

dos objetos pertencentes a classe, deverão ter uma distribuição R

graus de liberdade (G é o número de objetos utilizados no modelo de . Isso nos permite identificar o valor máximo que R deve possuir

um objeto seja classificado na classe. A partir do R_TU< o valor ;_TU< pode ser obtido, o qual é a distância que define as fronteiras da classe.

se ao fato de que na previsão o classificador pode identificar amostras como pertencentes a uma, a várias ou a nenhuma classe e o bom ajuste do modelo pode ser observado através do número de casos em que amostras são Amostras anômalas, ou seja, as que não se encaixam em nenhuma classe, podem ocorrer devido a um erro nas medidas, a uma má rotulação, a um fenômeno químico e/ou físico anômalo ou desconhecido ou, ainda, essa amostra pode pertencer a uma classe que não foi inclusa no conjunto de calibração usado na construção dos modelos de cada classe. 33,34

Métodos quimiométricos para regressão e classificação

introduzido para alongar o modelo de classe proporcionalmente a dispersão da classe na direção de uma PC. Quanto maior a parte referente a variância dentro de uma classe ) mais a forma (da

Como os resíduos devem possuir uma distribuição normal, a razão:

(3.18)

com 7$ ? %8 e é o número de objetos utilizados no modelo de

7RTU<8 para que

pode ser obtido, o

(3.19) de que na previsão o classificador pode identificar

e o bom ajuste do modelo pode ser observado através do número de casos em que amostras são u seja, as que não se encaixam em nenhuma classe, podem ocorrer devido a um erro nas medidas, a uma má rotulação, a um fenômeno químico e/ou físico anômalo ou desconhecido ou, ainda, essa amostra de calibração usado na

No documento Máquina de vetores de suporte aplicada a dados de espectroscopia NIR de combustíveis e lubrificantes para o desenvolvimento de modelos de regressão e classificação (páginas 51-55)