• Nenhum resultado encontrado

Uso de imagens hiperespectrais na região do infravermelho próximo para identificar fraudes em documentos

N/A
N/A
Protected

Academic year: 2021

Share "Uso de imagens hiperespectrais na região do infravermelho próximo para identificar fraudes em documentos"

Copied!
82
0
0

Texto

(1)

Centro de Ciências Exatas e da Natureza – CCEN Departamento de Química Fundamental – DQF

CAROLINA SANTOS SILVA

USO DE IMAGENS HIPERESPECTRAIS NA

REGIÃO DO INFRAVERMELHO PRÓXIMO PARA

IDENTIFICAR FRAUDES EM DOCUMENTOS

Recife 2013

(2)

CAROLINA SANTOS SILVA

USO DE IMAGENS HIPERESPECTRAIS NA

REGIÃO DO INFRAVERMELHO PRÓXIMO PARA

IDENTIFICAR FRAUDES EM DOCUMENTOS

Dissertação de Mestrado submetida ao curso de Pós-graduação de Química da

Universidade Federal de Pernambuco, como parte dos requisitos para a obtenção do título de Mestre em Química

Orientadora: Maria Fernanda Pimentel Co-orientador: Ricardo Saldanha Honorato

Recife 2013

(3)

Catalogação na fonte

Bibliotecária Alice Maria dos Santos Costa, CRB 4-711

Silva, Carolina Santos.

Uso de imagens hiperespectrais na região do infra vermelho próximo para identificar fraudes de

documentos. / Carolina Santos Silva. – Recife: O Autor, 2013.

80 f.: fig., tab.

Orientadora: Maria Fernanda Pimentel.

Dissertação (Mestrado) - Universidade Federal de Pernambuco. CCEN. Química Fundamental, 2013.

Inclui referências.

1. Química analítica. 2. Espectroscopia de

infravermelho. 3. Análise multivariada. I. Pimentel, Maria Fernanda (orientadora). II. Título.

(4)

Pernambuco como parte dos requisitos necessários para a obtenção do Grau de Mestre em Química.

Aprovada:

____________________________________________________________

Profª Maria Fernanda Pimentel Avelar

(Orientadora)

Departamento de Engenharia Química Universidade Federal de Pernambuco

____________________________________________________________

Profª Simone da Silva Simões

Departamento de Química Universidade Estadual da Paraíba

____________________________________________________________

ProfJez Willian Batista Braga

Instituto de Química Universidade de Brasília

Uso de Imagens Hiperespectrais na Região do Infravermelho

Próximo para Identificar Fraudes em Documentos

Por

Carolina Santos Silva

Departamento de Química Fundamental Centro de Ciências Exatas e da Natureza

Universidade Federal de Pernambuco Recife – PE – Brazil

(5)

Por toda atenção, dedicação e paciência, Dedico este trabalho à minha família e à minha orientadora.

(6)

De todas as conquistas que se fazem na vida, a melhor delas é conhecer as pessoas que lhe ajudaram a alcançar seus objetivos. Existem aqueles que estavam lá, presentes nas discussões e participando diretamente para o desenvolvimento do trabalho e aqueles, que de uma forma indireta ajudaram, e muito, a construir esse trabalho.

Primeiramente, gostaria de agradecer à minha orientadora, Prof.ª Dr.ª Mª Fernanda Pimentel, que desde a iniciação científica teve grande paciência e foi, além de orientadora, professora, educadora foi também conselheira. Me ensinou a trilhar meus primeiros passos na pesquisa e me ensinou como criar um ambiente de grupo de pesquisa que é capaz de crescer junto, aprender, ensinar e apoiar uns aos outros quando necessário. Pelo incentivo, apoio, discussões e absolutamente todas as conquistas profissionais, agradeço.

Gostaria também de agradecer ao perito Dr. Ricardo Honorato pela orientação, entusiasmo e levantamento de questões que sempre foram muito construtivas no desenvolvimento do trabalho.

Aos Professores Doutores Alberto Ferrer e José Manuel Prats-Montalbán pelo acolhimento durante minha estadia na Universitat Politecnica de Valencia, por toda a disponibilidade de ensinar e discutir resultados e por me receber como parte do grupo.

Ao professor Dr. Célio Pasquini pelas contribuições significativas.

Às alunas de iniciação científica, Laís França e Ananda Sá, que estavam sempre dispostas a ajudar e trabalhando muito para entender e desenvolver o trabalho.

À FACEPE, pela bolsa concedida, ao INCTAA e ao NUQAAPE pelo incentivo ao projeto, à UFPE pelo suporte institucional e ao Laboratório de Combustíveis (LAC) por proporcionar a efetivação da pesquisa.

Aos amigos, companheiros, atuais e futuros colegas de trabalho e amigos para a vida toda, Alianda, Neirivaldo, Vitor, Leandro, Fernanda V. Cruz e Eduardo por todas as discussões feitas nos corredores, nos cafés, nos bares, pelos estudos em conjunto e pelos passeios e histórias incríveis que vivemos juntos. Por toda a ajuda na área pessoal e profissional. Agradeço profundamente.

(7)

fantástica e uma amiga incrível.

A toda a família que faz do LAC nossa segunda casa. A Carol, Cláudio, Giseli, Sylvio e Kaline por toda a ajuda na hora de resolver questões trabalho e viagens de congressos.

Aos amigos do DQF, Amanda, Elaine, Rodolfo, Suelle e Diego por toda caminhada que fizemos juntos até aqui. Pela força durante as disciplinas, os cafés e todo suporte que me deram quando mais precisei. Agradeço.

Aos amigos incríveis e inesperados Raffaele, Abel, José Maria e Elizabeth pelas incríveis aventuras, discussões, cervejas, sorvetes e, principalmente, por me acolherem como família quando estava longe de casa.

Aos amigos queridos Anaís, Rodrigo, Thalles e Juliana que estavam sempre presentes, mesmo de longe.

Aos amigos de uma vida inteira, Ana Beatriz, Catarina, Miriam, Gabriela B., Gabriela M., Rafaela e Heitor.

A Danilo pela amizade de todos os anos, companheirismo e muita, muita paciência.

A minha vó Jovem e Tia Goretti por absolutamente tudo.

Aos meus irmãos Júlia, Eduardo e Renato pelas fofocas, filmes e trelas, respectivamente. A Finha pela ajuda de mãe.

Aos meus pais, Ascendino e Fátima pelo apoio, conselhos, cervejas, brincadeiras, viagens e por tornarem possíveis cada uma das conquistas feitas.

A todos aqueles que participaram de alguma forma para minha formação acadêmica e pessoal, agradeço.

(8)

“Essentially, all models are wrong, but some are useful” George E. P. Box

(9)

A análise de documentos adulterados representa um problema comum nas unidades de Polícia Científica. Frequentemente, fraudes são realizadas por meio de adições de textos ou ocultação de partes dos textos originais. O desenvolvimento de métodos não destrutivos são de extrema importância para auxiliar a solução de casos litigiosos, garantindo a integridade das amostras. As imagens hiperespectrais na região do infravermelho próximo (HI-NIR) associadas a técnicas quimiométricas mantém a integridade das amostras fornecendo importantes informações não só sobre a composição química, mas também a respeito da distribuição dos componentes na amostra estudada. Neste trabalho foram propostas três diferentes abordagens para simular problemas e identificar adulterações típicas em documentos. A primeira delas, é a adulteração por adição de texto, em que diferentes canetas pretas com o mesmo diâmetro de ponta e tons de pretos semelhantes foram utilizadas para escrever um número em uma folha de cheque e uma outra caneta usada para modificar a quantidade inicial por adição de novos algarismos. A segunda abordagem consiste na adulteração por obliteração, em que 10 canetas pretas de diferentes tipos e marcas foram usadas para realizar diferentes combinações em que uma caneta foi usada para produzir um pequeno texto que foi, em seguida, oculto por uma sobrecarga de outra caneta. A terceira abordagem consiste no problema de cruzamento de traços, em que uma linha produzida por tinta de caneta foi interceptada por uma linha de toner, para identificar se a linha do toner foi adicionada após a linha da tinta ou o inverso. Foram adquiridas imagens hiperespectrais na faixa de 928-2524 nm, com resolução espectral e espacial de 6,3 nm e 10 µm, respectivamente por uma câmera de imagens hiperespectrais (SisuChema) de cada uma das amostras produzidas para as três abordagens. Após o pré-processamento dos dados, diferentes técnicas quimiométricas foram utilizadas para a avaliação de cada problema. Uma Análise de Componentes Principais (PCA) foi realizada para avaliar as duas primeiras abordagens (adulteração por adição de texto e adulteração por obliteração), enquanto a técnicas de MCR-ALS e PLS-DA, como ferramenta de seleção de variáveis, foram usadas para estudar a terceira abordagem (problema de cruzamento de traços). A adulteração da abordagem 1 foi identificada através das imagens dos escores da PCA, para todas as amostras. Para a abordagem 2, foi possível identificar o texto oculto a partir das imagens dos escores da PCA de 39 das 90 amostras produzidas (43,3% das amostras). Finalmente, para a abordagem 3, as amostras cuja linha da tinta se encontrava abaixo da linha do toner apresentaram uma descontinuidade no ponto de interseção que não pode ser visualizado nas amostras cuja linha da tinta estava por cima da linha do toner. Para este caso, apenas três dos vinte pares de amostras não apresentaram este comportamento. Os resultados das abordagens descritas mostraram o potencial da HI-NIR associada a técnicas quimiométricas para a solução de problemas de fraudes de documentos.

Palavras-chave: Imagem hiperespectral. Infravermelho próximo. Forense. Documentoscopia. PCA. MCR-ALS.

(10)

The analysis of forged documents represents a common problem at forensic science units. Often, frauds are carried out by means of text addition or concealment of parts from the original documents. The development of non-destructive methods is extremely important to assist in the solution of contentious cases, ensuring the integrity of samples. Hyperspectral images in the near infrared (HI-NIR) range associated with chemometric tools maintain the integrity of the samples, providing important information about the chemical composition, as well as the distribution of the sample components. In this work, three different approaches have been proposed to simulate typical problems and to identify document forgeries. The first one is forgery by adding text, for which different black pens with the same tip diameter and the similar shades of black were used to write a number on a checkbook sheet and another pen used to modify the initial register by adding new numbers. The second approach is alteration by obliteration. Using ten black pens of different types and brands in different combinations: one pen was used to produce a short text which was then overwritten by another pen. The third approach is the crossing lines problem, where a line produced by an ink pen is intercepted by a toner line in order to identify whether the toner line was added before or after the ink line. Samples used in each approach were submitted to HI-NIR in the range of 928-2524nm, with spectral and spatial resolution of 6.3nm and 10 µm, respectively, by a hyperspectral imaging camera (SisuChema). After pre-processing the data, different chemometeric techniques were used to evaluate each problem. A Principal Component Analysis (PCA) was performed to evaluate the first two approaches (adulteration by adding text and adulteration by obliteration), while the techniques MCR-ALS and PLS-DA, as a variable selection tool, were used to study the third approach (the problem of crossing lines). The approach 1 forgery of was successfully identified for all samples using the score images of the PCA. For the second approach, the hidden text was identified using the score images in 39 of the 90samples produced (43.3% of the samples). Finally, for the third approach, the samples where the ink line was below the toner line showed a discontinuity at the intersection point, that cannot be seen in samples where the ink line was above the toner line. In this case, just three out of twenty sample pairs did not show this behavior. The results of these approaches demonstrate the potential of HI-NIR associated with chemometric tools to solve document forgery issues.

Key-words: Hyperspectral images. Near infrared. Forensic. Document forgery. PCA. MCR-ALS.

(11)

Figura 1 Diferentes modos de vibração em uma molécula triatômica heteronuclear (Adaptado de SKOOG, 2006). ... 20 Figura 2 Gráfico da energia potencial da ligação em função da distância entre os átomos para o modelo do oscilador anarmônico (PASQUINI, 2003). ... 22 Figura 3 Ampliação da imagem digital do quadro Noite Estrelada – Vincent van Gogh, 1889. ... 22 Figura 4 Matriz de dados de imagens (a) em escalas de cinza, (b) em RGB e (c) hiperespectrais. ... 23 Figura 5 Desdobramento das matrizes 3D de imagens (a) em RGB e (b) hiperespectrais. ... 24 Figura 6 Desdobramento considerando a informação espacial (textura e distribuição) em imagens em (a) escala de cinza e (b) RGB. ... 24 Figura 7 Desdobramento da matriz tridimensional de dados em uma matriz bidimensional e sua decomposição em perfis de concentração relativa e espectros puros. ... 25 Figura 8 Construção do mapa de distribuição (a) a partir de um comprimento de onda específico e (b) a partir da soma das intensidades em todos os comprimentos de onda. 26 Figura 9 Esquema da construção de um modelo de PLS-DA. ... 33 Figura 10 Exemplo das amostras preparadas para abordar o problema da adulteração por adição de texto. Amostras (a) S1, (b) S2, (c) S3, (d) S4 e (e) S5. ... 41 Figura 11 Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1 realizadas com as técnicas de pré-processamento (a) SNV e (b) MSC; e para a amostra S3, também com as técnicas de (d) SNV e (e) MSC. ... 44 Figura 12 Imagens dos escores das 5 primeiras PCs realizadas para a amostra S1 realizadas com as técnicas de pré-processamento 1ª derivada de S.G. com polinômio de 3ª ordem e janelas de (a) 7 pontos; (b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com polinômios de 3ªordem e janelas de (d) 7 pontos; (e) 9 pontos; (f) 15 pontos. ... 45 Figura 13 Imagens dos escores das 5 primeiras PCs realizadas para a amostra S3 realizadas com as técnicas de pré-processamento 1ª derivada de S.G. com polinômio de 3ª ordem e janelas de (a) 7 pontos; (b) 9 pontos; (c) 15 pontos; 2ª derivada de S.G. com polinômios de 3ªordem e janelas de (d) 7 pontos; (e) 9 pontos; (f) 15 pontos. ... 46

(12)

das tintas das canetas 1(verde) e 2 (vermelho) para a amostra S1. ... 47 Figura 15 Gráficos dos pesos para a amostra S1 pré-processada com SNV. ... 48 Figura 16 (a) Espectros médios do papel (azul), das tintas das canetas 1(verde) e 2 (vermelho) para a amostra S3; (b) Espectros médios pré-processados do papel (azul), das tintas das canetas 1(verde) e 2 (vermelho) para a amostra S3. ... 49 Figura 17 Gráficos dos pesos para a amostra S3 pré-processada com SNV. ... 50 Figura 18 Imagens dos escores das PCs de três diferentes amostras; (a) PC1 e PC2 da amostra S1; (b) PC1 e PC3 da amostra S2; (c) PC1 e PC5 da amostra S3; (d) PC2 e PC8 da amostra S4 e (e) PC1 e PC4 da amostra S5. ... 51 Figura 19 Exemplos de amostras que abordam o problema de falsificação por obliteração; em (a) uma caneta (caneta 1, por exemplo) foi usada para escrever um texto que foi oculto pela caneta 2; em (b) a caneta 2 foi usada para escrever um pequeno texto que foi oculto pela caneta 1. ... 55 Figura 20 Imagens dos escores das 2 PCs mais informativas realizadas para a amostra E2_1 com as técnicas de pré-processamento (a) SNV; (b) MSC; (c) 1ª derivada de S.G. com janela de 7 pontos e polinômio de 3ª ordem; (d) 1ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª ordem; (e) 1ª derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem; (f) 2ª derivada de S.G. com janela de 7 pontos e polinômio de 3ª ordem; (g) 2ª derivada de S.G. com janela de 9 pontos e polinômio de 3ª ordem; (h) 2ª derivada de S.G. com janela de 15 pontos e polinômio de 3ª ordem. ... 57 Figura 21 (a) Espectros médios do papel (azul), e de uma região contendo carga e caneta (vermelho) para a amostra E2_1; (b) Espectros médios pré-processados com SNV do papel (azul), e de uma região contendo carga e caneta (vermelho) para a amostra E2_1; ... 58 Figura 22 Gráficos dos pesos para a amostra E2_1 pré-processada com SNV. ... 59 Figura 23 Imagem dos escores das duas primeiras PCs de três amostras diferentes; (a) na 1ª coluna E5 foi usada para esconder o texto feito com G2 (amostra G2_5); (b) na 2ª coluna, E2 é usada para escrever o texto ocultado por E3 (amostra E2_1); (c) na coluna 3, E1 é usada para escrever o texto oculto por G2 (E1_1). ... 60 Figura 24 Exemplo das amostras para o problema do cruzamento de traços. Duas linhas se cruzando, feitas com a mesma caneta e o mesmo toner, em (a) a linha da tinta (vertical) está por cima da linha do toner (horizontal); em (b) a linha de toner (vertical) está por cima da linha da caneta (horizontal). ... 63

(13)

Figura 26 Previsão para 4 amostras diferentes preparadas com diferentes canetas. As barras azuis mostram a previsão para os pixels que contém apenas papel, as barras em verde para a tinta e as barras em vermelho, para o toner... 66 Figura 27 Gráficos dos pesos das 4 LV do PLS-DA para a amostra 1.1. A 1ª LV está relacionada com o valor médio dos espectros, enquanto a 2ª e a 3ª LV fornecem informações relevantes e a 4ª LV é, basicamente, ruído. ... 67 Figura 28 Mapas de distribuição para dois pares de amostras. A colunas 1, 2 e 3 mostram os mapas de distribuição do papel, da tinta e do toner, respectivamente. A amostra 1.1 (1ª linha), 1.2 (2ª linha), 5.1 (3ª linha) e 5.2 (4ª linha). Nas amostras 1.1 e 5.1 a linha da tinta está por cima do toner e nas amostras 1.2 e 5.2, a linha da tinta está por baixo da linha do toner. ... 68 Figura 29 Mapas de distribuição para dois pares de amostras. Amostra 4.1 a tinta está sobre a linha do toner; a amostra 4.2 a tinta está por baixo da linha do toner; as amostras 8.1 e 8.2 foram preparadas com a mesma marca de caneta gel (G2), porém na amostra 8.1 a linha da tinta está por cima do toner e na amostra 8.2, está por baixo. ... 70

(14)

Tabela 1 Resumo das amostras do problema de adulteração por adição de texto. ... 42 Tabela 2 Resumo de resultados para o problema de obliteração. ... 61 Tabela 3 Resumo dos resultados para o problema de cruzamento de traços. Marcado com um X estão as amostras que a sequência das linhas não pôde ser identificada com sucesso e, em V, as que puderam ser identificadas. ... 70

(15)

ATR Refletância Total Atenuada (Attenuated Total Reflectance) CLS Mínimos Quadrados Clássicos (Classical Least Squares) FIR Infravermelho Distante (Far Infrared)

FT-IR Infravermelho com Transformada de Fourier (Fourier Transformed –

Infrared)

HI Imagem Hiperespectral (Hyperspectral Image)

HPLC Cromatografia Líquida de Alta Resolução (High Performance Liquid

Chromatography)

IR Infravermelho (Infrared)

LDA Análise Discriminante Linear (Linear Discriminant Analysis) lof Falta de Ajuste (Lack of Fit)

LV Variáveis Latentes (Latent Variables)

MCR-ALS Resolução Multivariada de Curvas (Multivariate Curve Resolution –

Alternating Least Squares)

MIA Análise Multivariada de Imagens (Multivariate Image Analysis) MIR Infravermelho Médio (Middle Infrared)

MSC Correção Multiplicativa de Espalhamento (Multiplicative Scattering

Correction)

NIR Infravermelho Próximo (Near Infrared) PC Componente Principal (Principal Component)

PCA Análise de Componentes Principais (Principal Component Analysis) PLS Mínimos Quadrados Parciais (Partial Least Squares)

PLS-DA Análise Discriminante por Mínimos Quadrados Parciais (Partial Least

Squares – Discriminant Analysis)

RGB Vermelho, Verde e Azul (Red, Green and Blue)

SG Derivada de Savitzky Golay (Savitzky Golay Derivative) SIMPLISMA Simple-to-use Interactive Self-modeling Mixture Analysis SNV Variação Normal Padrão (Standard Normal Variate) vis Região Espectral do Visível

(16)

CAPÍTULO 1 ... 16 1 INTRODUÇÃO ... 17 2 OBJETIVOS GERAIS ... 19 2.1 OBJETIVOS ESPECÍFICOS ... 19 3 FUNDAMENTAÇÃO TEÓRICA ... 19 3.1 INFRAVERMELHO... 19

3.2 IMAGEM HIPERESPECTRAL E ANÁLISE MULTIVARIADA DE IMAGEM ... 22

3.2.1 Análise de Componentes Principais de Imagens ... 29

3.2.2 MCR-ALS ... 30

3.2.3 PLS-DA ... 32

3.2.4 Pré-processamento de dados ... 34

4 MÉTODOS BASEADOS EM IMAGENS PARA FINS FORENSES ... 36

CAPÍTULO 2 ... 40

1 CONTEXTUALIZAÇÃO DO PROBLEMA ... 41

2 MATERIAIS E MÉTODOS ... 41

2.1 AMOSTRAS ... 41

2.2 AQUISIÇÃO DE IMAGENS ... 42

2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS ... 42

3 RESULTADOS E DISCUSSÃO... 43 4 CONCLUSÃO... 52 CAPÍTULO 3 ... 54 1 CONTEXTUALIZAÇÃO DO PROBLEMA ... 55 2 MATERIAIS E MÉTODOS ... 55 2.1 AMOSTRAS ... 55

2.2 AQUISIÇÃO DAS IMAGENS ... 55

2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS... 55

3 RESULTADOS E DISCUSSÃO... 56 4 CONCLUSÃO... 61 CAPÍTULO 4 ... 62 1 CONTEXTUALIZAÇÃO DO PROBLEMA ... 63 2 MATERIAIS E MÉTODOS ... 63 2.1 AMOSTRAS ... 63

2.2 AQUISIÇÃO DAS IMAGENS ... 64

2.3 ANÁLISE E PRÉ-PROCESSAMENTO DE DADOS ... 64

3 RESULTADOS E DISCUSSÃO... 64

(17)

2 PERSPECTIVAS FUTURAS ... 74 REFERÊNCIAS ... 76

(18)

CAPÍTULO 1

(19)

1 INTRODUÇÃO

Da certidão de nascimento à certidão de óbito, a vida de um indivíduo é sempre documentada de alguma maneira. Atestar a legitimidade de documentos de compras de imóveis, carros, hipotecas, passaportes, receitas médicas, impostos, etc., que estão sempre presentes na vida de um indivíduo é necessário.De fato, a legitimidade deles é de extrema importância, principalmente na solução de casos litigiosos. A área da ciência forense que trata dos estudos de manipulações de documentos é conhecida como documentoscopia (BRUNELLE; 2003).

As canetas são instrumentos de escrita largamente utilizados no cotidiano e na produção de manuscritos, e sua identificação em documentos representa uma importante ferramenta na elucidação dos mais diversos crimes. As tintas das canetas utilizadas na assinatura destes documentos são sistemas bastantes complexos constituídos por uma grande variedade de compostos químicos (EDELMAN et al., 2012).

As unidades de polícia científica costumam empregar para a identificação e/ou diferenciação de tintas, vídeo-comparadores espectrais, que se utilizam de câmera digital, lâmpadas, espelhos e filtros na região do visível e pequena região do infravermelho próximo para distinguir os registros produzidos por canetas distintas. Todavia, a inspeção por visualização direta das imagens, sem processamento matemático, limita os resultados positivos e deixa as análises mais subjetivas.

Devido a relevância de se preservar a integridade do documento questionado, a espectroscopia na região do Infravermelho (IR) associada a técnicas quimiométricas para tratamento dos dados se apresenta como uma boa alternativa aos procedimentos usuais, pois fornece informações sobre a composição orgânica das tintas, é rápida e não destrutiva (SKOOG et al., 2006). Silvaet al desenvolveram um método não destrutivo utilizando a espectroscopia no infravermelho médio (MIR) e a análise discriminante linear (LDA: Linear Discrimant Analysis) para classificar tintas de canetas azuis segundo o tipo (gel, rollerball e esferográfica) e a marca (SILVA et al., 2013).

A partir da metade do século XX, o desenvolvimento de novos dispositivos elétricos e eletrônicos permitiu a obtenção de imagens digitais. Com os recentes avanços tecnológicos, foi possível adquirir não só imagens em escalas de cinza e RGB (RGB: Red, Green, Blue), mas também foi possível realizar a aquisição das chamadas Imagens Hiperespectrais. Estas imagens, além de possuírem informações espaciais, também contém informações a respeito da composição química, apresentando um

(20)

espectro ou canais espectrais para cada pixel da imagem. Desta forma, têm-se informações locais sobre a composição, bem como sobre a distribuição dos componentes na amostra. Quando desdobradas em uma matriz de dados, essas imagens podem ser submetidas a técnicas quimiométricas adequadas (GELADI et al. 2007).

O uso de imagens hiperespectrais possui uma vasta aplicação em diversas áreas de conhecimento. Na área de fármacos, pode ser utilizada para analisar a uniformidade da distribuição de diversos comprimidos comerciais (CRUZ et al; 2011;CRUZ et al., 2009). Na indústria alimentícia, pode ser utilizada para controle de qualidade, como a detecção de defeitos e contaminações na superfície da casca de diferentes tipos de maçãs (MEHL et al., 2004). Na área médica, podem ser utilizadas juntamente com técnicas específicas de análise para avaliar imagens, como imagens Raman para o estudo de cálculo renal (PIQUERAS et al., 2011).

Na área das ciências forenses, a imagem hiperespectral foi utilizada na identificação de impressões digitais (TAHTOUH et al. 2011), detecção de componentes de explosivos (RUXTON et al., 2012), identificação de manchas de sangue em locais de crime (EDELMAN et al. 2012;SCHULER et al., 2012), entre outras aplicações que podem ser vistas no artigo de Edelman et al(EDELMAN et al., 2012).

Poucos trabalhos forampublicados até o momento abordando problemas na área da documentoscopia. Chaikovsky et al.(CHAIKOVSKY et al., 2003) propuseram um método de análise de imagens RGB baseado em separações de cores usando programas comercias usuais de tratamento de imagens para separar tintas de carimbos de tintas de canetas. Com o objetivo identificar a sequência das linhas numa interseção de traços feitos com diferentes instrumentos gráficos (BOJKO et al., 2008), foram adquiridas imagens hiperespectrais na região do Infravermelho Médio de documentos, utilizando um microscópio com acessório de Refletância Total Atenuada (micro-ATR).

Quando estamos trabalhando com imagens no infravermelho, cujos espectros são similares (como duas canetas esferográficas, por exemplo), é necessário empregar técnicas quimiométricas com a finalidade de extrair informações relevantes que podem ser visualmente imperceptíveis. Assim, técnicas de redução de dimensionalidade, segmentação, análise exploratória, resolução, compressão, entre outras se fazem necessárias. A Análise de Componentes Principais (PCA: Principal Component

Analysis) se apresenta como uma ferramenta muito comum e eficaz na redução de

dimensionalidade, mantendo as informações mais relevantes do conjunto de dados(BEEBE et al., 1998). A aplicação da PCA em imagens hiperespectrais é de

(21)

grande utilidade para a extração de informações a respeito de características importantes da amostra, uma vez que é possível comprimir os dados, preservando informações fundamentais e interpretar a correlação entre as variáveis utilizadas e a estrutura da amostra. Assim, a PCA pode ser utilizada como um instrumento para seleção de características da imagem. Um método bem difundido para a análise quantitativa de dados espectrais, a regressão por Mínimos Quadrados Parciais (PLS: Partial Least

Squares) se apresenta como outra técnica de projeção eficaz para a Análise Multivariada

de Imagens (MIA: Multivariate Image Analysis). Técnicas para o aprimoramento da resolução como SIMPLISMA (SIMPLISMA: Simple-to-use Interactive Self-modeling

Mixture Analysis) e MCR-ALS (MCR-ALS: Multivariate Curve Resolution – Alternating Least Squares) também têm muitas aplicações (PRATS-MONTALBÁN et

al., 2011).

2 OBJETIVOS GERAIS

Este trabalho tem como objetivo geral, desenvolver métodos rápidos, confiáveis e não destrutivos utilizando imagens hiperespectrais no infravermelho próximo (HI-NIR)e ferramentas quimiométricas para auxiliar na solução de problemas de falsificação e adulteração de documentos.

2.1 Objetivos específicos

 Avaliar a utilização de HI-NIR e Análise Multivariada de Imagens para identificar adulteração por adição de texto com uma caneta diferente.

 Avaliar a utilização de HI-NIR e MIA para identificação do texto oculto em documentos após acréscimo de sobrecarga.

 Identificar a sequência de linhas em cruzamento de traços de canetas com toner utilizando HI-NIR e ferramentas quimiométricas de resolução de imagens.

3 FUNDAMENTAÇÃO TEÓRICA

3.1 Infravermelho

A espectrometria de absorção molecular na região infravermelho (IR: infrared) pode ser uma poderosa ferramenta na análise qualitativa e quantitativa de diversos tipos de amostras. Além de ser uma técnica com diversas formas de aquisição espectral(como transmitância direta, refletância difusa, refletância total atenuada, etc.), é simples, rápida

(22)

e quase não necessita de preparo de amostras.O infravermelho compreende a região espectral em que o número de onda está entre 12.800 cm-1 e 10 cm-1. Essa região espectral pode ser subdividida em três, que são denominadas de infravermelho próximo (NIR:Near Infrared), médio (MIR:Middle Infrared) e distante (FIR:Far Infrared) (SKOOG et al., 2005).

As frequências de radiação na região do infravermelho são baixas e, quando absorvidas por um sistema molecular são convertidas em energias rotacionais e vibracionais (SILVERSTEIN et al., 2005).Entretanto, a absorção na região do IR só ocorre quando há uma variação no momento de dipolo da molécula em decorrência dos diferentes estiramentos e deformações (Figura 1), permitindo a interação entre o campo eletromagnético da radiação IR e o sistema molecular, que sofre uma mudança na amplitude vibracional em decorrência dessa absorção. Assim, é possível perceber que sistemas moleculares diatômicos homonucleares (como O2, N2, H2, etc.) não são

capazes de absorver radiação IR, pois suas vibrações não ocasionam variação do momento de dipolo da molécula (SKOOG et al., 2006).

VIBRAÇÕES DE ESTIRAMENTO

Estiramento Simétrico Estiramento Assimétrico

DEFORMAÇÕES ANGULARES

Balanço no Plano Tesoura no Plano Torção fora do Plano

Sacudida fora do Plano

Figura 1Diferentes modos de vibração em uma molécula triatômica heteronuclear (Adaptado de

(23)

Para sistemas moleculares, as energias de ligação obedecem ao modelo do oscilador anarmônico, que considera comportamentos como repulsão entre as nuvens eletrônicas dos átomos em decorrência da aproximação de seus núcleos e a variação da energia potencial da ligação com o afastamento dos átomos, levando à dissociação da ligação. Para esse modelo, as transições ativas não só obedecem à regra de seleção ∆𝜐 = ±1 (relativa aos modos normais de vibração), mas também às regras de seleção ∆𝜐 = ±2 e ∆𝜐 = ±3, que explicam os sobretons e as bandas de combinação (Figura 2) (PASQUINI , 2003).

A região do NIR corresponde à faixa de número de onda que vai de 12.800cm-1 a 4000cm-1 (o equivalente a comprimentos de onda que vão de 750nm a 2500nm). Essa região corresponde, principalmente aos sobretons eàscombinações das vibrações fundamentais associadas às ligações O-H, C-H, N-H e S-H (PASQUINI, 2003), que podem fornecer informações importantes a respeito da composição orgânica das amostras.

Durante a década de 70, as técnicas de imagens hiperespectrais na região do NIR (HI-NIR: Near Infrared – Hyperspectral Images) eram aplicadas a análises de sensoriamento remoto, e, apenas a partir dos anos 90 essas técnicas começaram a ser utilizadas na área de alimentos (BELLON-MAUREL, 2009). Atualmente, uma grande variedade de trabalhos são apresentados na literatura com aplicações das técnicas de HI-NIR para a avaliação de produtos farmacêuticos (CRUZ et al., 2011;CRUZ et al,. 2009; ELLISON et al., 2008; AMIGO et al., 2009; PRATS-MONTALBÁN et al., 2012).

(24)

Figura 2Gráfico da energia potencial da ligação em função da distância entre os átomos para o modelo

do oscilador anarmônico(PASQUINI, 2003).

3.2 Imagem Hiperespectral e Análise Multivariada de Imagem

A análise de imagens está inserida numa área conhecida como processamento de imagens, que consiste na extração de informações relevantes ou na melhoria de qualidade da imagem estudada. Esta área pode utilizar diferentes propriedades das imagens, tais como textura, cor e forma, para extrair essas informações.

Para imagens digitais, o menor elemento formador de uma imagem é o pixel (para imagens de superfície, ou seja, em duas dimensões) ou o voxel (para imagens tridimensionais). Cada pequena porção da imagem está determinada por coordenadas espaciais – x e y, para os pixels e x, y e z, para os voxels. Na Figura 3, é possível observar que a ampliação sucessiva da imagem do quadro Noite Estrelada do autor Vincent van Gogh, datada de 1889, fornece a visualização dos pixels que compõem a imagem digital(PRATS-MONTALBÁN et al., 2011).

Figura 3Ampliação da imagem digital do quadro Noite Estrelada – Vincent van Gogh, 1889.

As imagens digitais são formadas pelas coordenadas espaciais e valores numéricos para cada pixel que representam a escala de cores utilizada. Quando a

(25)

imagem estudada está representada na escala de cinza, tem-se uma matriz de dados bidimensional e cada pixel está associado a um valor de intensidade na escala de cinza (Figura 4a). Já para imagens em RGB – formadas a partir dos três canais de cores, vermelho, verde e azul (RGB: Red, Green, Blue) –, tem-se uma matriz de dados tridimensional, formada a partir de três matrizes de dados concatenadas, em que cada pixel terá três valores de intensidade, um para cada canal de cor (Figura 4b), (PRATS-MONTALBÁN et al., 2011).

Existe um tipo particular de imagem que, além de fornecer as informações espaciais da amostra, também fornece informações a respeito da composição química da mesma. Estas imagens possuem um espectro de alta resolução ou alguns comprimentos de onda associados a cada pixel da imagem e são chamadas de imagens hiperespectrais (HI: Hyperspectral Images) ou multiespectrais, respectivamente (Figura 4c). Esses espectros podem ser obtidos por diversas técnicas analíticas, como Raman, Infravermelho, Fluorescência, UV-vis, etc., sendo as técnicas de Raman e de Infravermelho, geralmente, as mais informativas (DE JUAN, 2009).

Figura 4Matriz de dados de imagens (a) em escalas de cinza, (b) em RGB e (c) hiperespectrais.

Para realizar a análise de imagens, é preciso transformar a imagem estudada em uma matriz de dados que possa ser matematicamente manipulada. Desta forma, é preciso realizar um desdobramento da matriz 3D (para imagens em RGB, multiespectrais e hiperespectrais) em uma matriz bidimensional. Cada pixel será considerado como uma amostra e os valores de intensidade serão dispostos em colunas, respeitando a ordem sugerida na Figura 5a. O desdobramento para imagens em RGB e multi/hiperespectrais está esquematizado nas Figuras 5a e 5b, respectivamente.

(26)

(a) (b)

Figura 5Desdobramento das matrizes 3D de imagens (a) em RGB e (b) hiperespectrais.

Esse desdobramento da matriz de dados causa a perda da informação espacial (textura e distribuição), pois não considera a relação de intensidade entre os pixels vizinhos. Por isso, quando existe a necessidade de realizar uma análise espacial, o desdobramento pode ser realizado considerando os pixels vizinhos de uma janela com tamanho previamente determinado, geralmente de 9 pixels, como na Figura 6 (PRATS-MONTALBÁN et al., 2011).

(a)

(b)

Figura 6Desdobramento considerando a informação espacial (textura e distribuição) em imagens

em (a) escala de cinza e (b) RGB.

As imagens hiperespectrais possuem uma grande vantagem com relação obtenção dos espectros clássicos de uma determinada amostra, pois variações espectrais de pixel

(27)

a pixel fornecem informações a respeito da distribuição de componentes na superfície da amostra analisada. Entretanto, como nos conjuntos de dados espectroscópicos clássicos, os espectros das imagens hiperespectrais também obedecem à linearidade da lei de Beer-Lambert, e portanto podem ser representados pela Equação 1:

𝑿 = 𝑪𝑺𝒕+ 𝑬 (1)

Em que X é a matriz dos dados, C é a matriz de intensidade relativade cada componente presente, S é a matriz que contém os espectros dos constituintes puros e E é a matriz de erros (associada àquelas informações que o modelo não consegue modelar), (Figura 7). Com a reconstituição da imagem, é possível observar o mapa de distribuição dos compostos com suas respectivas concentrações relativas (PRATS-MONTALBÁN et al., 2011).

Figura 7Desdobramento da matriz tridimensional de dados em uma matriz bidimensional e sua

decomposição em perfis de concentração relativa e espectros puros.

Para a análise de imagens hiperespectrais, é fundamental submeter os espectros a determinadas técnicas de processamento. Desta forma, as técnicas clássicas de pré-tratamentos espectrais podem ser aplicadas, como será discutido mais adiante. Porém, um problema que está relacionado ao tratamento das imagens hiperespectrais é o tamanho do conjunto de dados dessas imagens. Para redução do conjunto de dados sem perda significativa da informação, é indicado utilizarferramentas de compressão como PCA, seleção de características baseada em wavelets, etc,(PRATS-MONTALBÁN et al., 2011). Existem ainda duas formas básicas de se realizar a análise de uma imagem hiperespectral a partir de uma redução significativa de dados, sem submetê-la a técnicas de compressão. A primeira é construir uma imagem contendo apenas as informações de absorbância/transmitância de um único comprimento de onda que deve estar

(28)

diretamente associado ao composto que se deseja analisar (Figura 8a). A segunda maneira consiste na construção de um mapa de distribuição global da imagem, assim para cada pixel teremos um valor numérico que corresponde à soma de todos os valores de absorbância/transmitância em todos os comprimentos de onda (Figura 8b). Porém, é importante perceber que a obtenção do mapa de distribuição de qualquer uma das duas formas descritas implica na perda da riqueza de informação fornecida pela imagem hiperespectral (DE JUAN, 2009).

(a)

(b)

Figura 8Construção do mapa de distribuição (a) a partir de um comprimento de onda específico e (b) a

partir da soma das intensidades em todos os comprimentos de onda.

Para realizar o tratamento de imagens multiespectrais, hiperespectrais, em RGB ou em outros canais de cores, foram desenvolvidas as técnicas de Análise Multivariada de Imagens (ESBENSEN, 1989). Estas técnicas começaram a surgir no final dos anos 80 (GELADI, 1989). Até então, as técnicas de análise desenvolvidas estudavam as imagens como um todo, porém a adesão das ferramentas estatísticas permitiu o desenvolvimento de estudos mais completos, olhando para as imagens como um conjunto de pequenas unidades (os pixels). A essa nova forma de análise, deu-se então o nome de Análise Multivariada de Imagem. Atualmente, pode ser utilizada como ferramenta de classificação, segmentação, previsão, etc (PRATS-MONTALBÁN et al., 2011).

(29)

A Análise de Componentes Principais pode ser aplicada na análise de imagens com o objetivo de reduzir a dimensionalidade da matriz de dados, conservando as informações relevantes e descartando as redundantes. Além disso, uma grande vantagem da aplicação da PCA em dados de imagem é que ela é capaz de resolver o problema da alta correlação entre as intensidades de pixels vizinhos. Este método é bem estabelecido na literatura para aplicações de conjuntos espectrais clássicos e já possui grande aceitação na área de análise de imagens pela comunidade científica.

Desta forma, é possível reconstruir uma imagem de scores para cada componente principal obtida a partir da análise. Assim, as novas imagens irão reter as informações mais relevantes da amostra e a dimensionalidade do conjunto de dados será significativamente menor, uma vez que apenas algumas poucas componentes trazem informações realmente relacionadas com a composição química da amostra (DE JUAN, 2009). Apesar das novas componentes não apresentarem um significado químico, as imagens geradas são capazes de representar eficientemente a distribuição de diferentes componentes na amostra.

Os métodos de segmentação são bastante úteis na análise de imagens, pois têm como objetivo realizar uma seleção de pixels similares. Essas similaridades devem estar associadas às características que se deseja estudar, sejam elas de natureza química, biológica, espacial, relativa à textura, etc. Existem diversas ferramentas para realizar a segmentação de uma imagem que podem variar de acordo com a forma de realizar a classificação dos pixels e/ou com os conhecimentos utilizados na implementação do processo (DE JUAN, 2009).

Duas variações de uma técnica bastante utilizada em conjuntos clássicos de espectros e que vêm sendo empregadas na análise de imagens são a Regressão por Mínimos Quadrados Parciais (PLS: Partial Least Squares), para calibrações, e, para fins classificatórios, Análise Discriminante por Regressão dos Mínimos Quadrados Parciais (PLS-DA: Partial Least Squares – Discriminant Analysis).

A técnica PLS cria um modelo de projeção utilizando variáveis latentes, porém, diferentemente da PCA, que procura as variáveis que explicam a maior variância dos dados, PLS fornece as variáveis que apresentam a maior correlação entre a matriz X (matriz dos dados de medições) e Y (matriz das propriedades que se deseja avaliar) (PRATS-MONTALBÁN et al., 2011).

(30)

As técnicas de tratamento de imagens descritas anteriormente podem ser utilizadas para estudar imagens em escalas de cinza, RGB, multiespectrais ou hiperespectrais. Porém existem técnicas que foram desenvolvidas especificamente para tratar de imagens multi e hiperespectrais.

Ao lidar com imagens hiperespectrais, conforme já citado, é de extrema importância realizar determinadas correções nos dados para aumentar a qualidade dos resultados ao final da análise. Portanto, técnicas de pré-processamento são bastante utilizadas para contornar alguns problemas típicos não só relacionados com as variações de medidas de imagens, mas também com as variações comuns observadas em um conjunto clássico de espectros. Assim, ferramentas usuais como normalização, suavização, derivadas, correções de linha de base, entre outras, podem ser empregadas com seus objetivos originais. Existem, entretanto, outras ferramentas mais específicas para corrigir pixels anômalos, outliers – como substituir o valor do pixel pela média dos pixels vizinhos –, realizar compressões de imagens, etc., que, quando utilizadas adequadamente, aumentam significativamente a qualidade dos resultados analisados (DE JUAN, 2009).

Após submeter os dados às técnicas adequadas de pré-processamento, é possível melhorar a análise utilizando ferramentas para aperfeiçoar a resolução da imagem. No caso de imagens hiperespectrais, a resolução está associada à capacidade de identificar a informação química para cada pixel. Ou seja, os métodos de resolução procuram as contribuições individuais de cada componente de um sistema de forma que a combinação delas representem a resposta instrumental do sistema (DE JUAN, 2003).Uma das técnicas que pode ser utilizada com essa finalidade é o SIMPLISMA (PRATS-MONTALBÁN et al., 2011). SIMPLISMA (SIMPLISMA: Simple-to-use

Interactive Self-modeling Mixture Analysis) é uma ferramenta de análiseexploratória

que procura os pixels mais puros da imagem e/ou os canais espectrais mais puros através de um índice de pureza. Uma vez que os pixels mais puros são obtidos, é possível gerar um mapa de distribuição para cada um dos componentes selecionados, gerando uma nova imagem que seja compatível com os valores reais de cada componente (DE JUAN, 2009).

Caso o pesquisador já tenha conhecimento a respeito dos espectros puros (ou os mais próximos dos puros) dos componentes da amostra ou já tenha realizado algum

(31)

procedimento para encontrá-los (como SIMPLISMA), é possível usar tais informações como entradas para aprimorar a resolução da imagem. Um algoritmo de resolução, muito utilizado no tratamento de imagens multi e hiperespectrais, é o MCR-ALS.

O MCR-ALS é um algoritmo iterativo que utiliza os espectros de entrada para encontrar soluções otimizadas para os espectros puros. Na verdade, essa ferramenta pode ser utilizada para qualquer conjunto de dados que obedeça a modelos bilineares, independente da natureza da medida desses dados. Assim, o MCR-ALS busca soluções para a Equação 1 de forma iterativa. Porém, visto que existem muitas variações no comportamento dos espectros para medidas de imagem, é preciso impor algumas restrições para que as soluções da equação sejam aceitáveis (JAUMOT et al., 2005).

3.2.1 Análise de Componentes Principaisde Imagens

A Análise de Componentes Principais é uma ferramenta de análise exploratória capaz de identificar similaridades e diferenças entre amostras do conjunto de dados. É,provavelmente, a técnica de reconhecimento de padrões não supervisionada que possui uma maior aceitação pela comunidade científica e é largamente utilizada em diversas aplicações (BRERETON, 2003), inclusive na avaliação de tintas de canetas para conjuntos clássicos de dados, como Cromatografia líquida de alto desempenho (HPLC:High-Performance Liquid Chromatography) (KHER et al., 2006), UV-vis (ADAM et al, 2008) e visível (THANASOULIAS et al., 2003).

A PCA de imagens transforma a matriz de dados em um modelo bilinear que obedece a Equação 2.

𝑿 = 𝑻𝑳𝒕+ 𝑬 (2)

Em que T é a matriz dos scores (que são as coordenadas das amostras no novo sistema de eixos), LT é a matriz dos pesos (ou loadings, que são os cossenos dos ângulos entre os eixos originais e as componentes principais) e E é a matriz dos erros associados ao modelo construído. Esse novo modelo é formado a partir de uma combinação linear das variáveis originais de forma que as novas variáveis, componentes principais (PC: Principal Component), serão ortogonais entre si e representarão, de forma decrescente, a maior variância dos dados (BEEBE et al., 1998). Quando aplicado a imagens hiperespectrais, são os vetores da matriz T que, quando reorganizados, fornecem as imagens dos escores (GELADI et al., 1989; DUCHESNE et al., 2012).

(32)

Apesar de não possuir sentido químico claro e ser de difícil interpretação (KEENAN; 2007), as imagens dos escores podem fornecer importantes informações sobre o conjunto de dados, especialmente quando combinadas com os gráficos dos pesos. Muitas vezes a primeira componente principal pode conter informações a respeito da intensidade de iluminação e a capacidade da superfície da amostra de refletir radiação (GELADI et al., 1989).

A PCA aplicada a imagens também possui uma outra aplicação de extrema importância. É possível se obter um gráfico de dispersão com a matriz desdobrada de uma imagem de escores de uma componente versus outra. Este tipo de gráfico pode fornecer informações sobre outliers e diferentes classes no conjunto de dados analisados (GELADI et al., 1989).

3.2.2 MCR-ALS

Um método de resolução de sinais que pode ser aplicado a imagens é o MCR-ALS (MCR-ALS: Multivariate Curve Resolution Alternating Least Squares)(TAULER, 1993). Essa ferramenta é capaz de analisar qualquer conjunto de

dados que possa ser descrito por um modelo bilinear, como dados eletroquímicos e espectroscópicos.

Utilizando, como dados de entrada, estimativas dos espectros puros dos componentes presentes na amostra, o algoritmo tem como objetivo encontrar as contribuições de cada componente da amostra a partir da decomposição bilinear da matriz X (Equação 1). Portanto, como já comentado, o MCR-ALS busca soluções para a Equação 1 de forma iterativa, otimizando a matriz de intensidade relativaC e de espectros puros S de forma a ajustar-se ao conjunto de dados experimentais X (JAUMOT et al., 2005).

A busca de soluções realizada pelo algoritmo é feita obedecendo a determinadas restrições impostas pelo operador, dependendo do tipo de dados que estão sendo analisados. Condições de normalização, seletividade, valores conhecidos, unimodalidade e não negatividade podem ser impostas de forma a encontrar os resultados ótimos e aceitáveis para o problema. A restrição de não negatividade é, provavelmente, a mais utilizada, pois impede que o algoritmo encontre soluções com valores negativos para a matriz C e para os valores da matriz ST(TAULER, 2001). É importante ressaltar que a restrição de não negatividade não pode ser usada na direção

(33)

espectral quando os dados forem pré-processados com derivadas e SNV, pois os perfis espectrais podem possuir valores negativos.

Para avaliar o modelo construído pelo algoritmo, existem alguns parâmetros que podem ser considerados, como a percentagem de falta de ajuste (lof), a variância explicada (R2) e o desvio padrão (σ), representados nas Equações 3, 4 e 5, respectivamente. 𝑙𝑜𝑓(%) = 100 × √∑ 𝑒𝑖𝑗 2 𝑖,𝑗 ∑ 𝑥𝑖𝑗2 𝑖,𝑗 (3) 𝑅2 =∑ 𝑥𝑖𝑗 2 𝑖,𝑗 − ∑ 𝑒𝑖,𝑗 𝑖𝑗2 ∑ 𝑥𝑖𝑗2 𝑖,𝑗 (4) 𝜎 = √ ∑ 𝑒𝑖𝑗 2 𝑖,𝑗 𝑛𝑙𝑖𝑛ℎ𝑎𝑠∙ 𝑛𝑐𝑜𝑙𝑢𝑛𝑎𝑠 (5)

Em que nlinhas e ncolunas são o número de linhas e de colunas da matriz X,

respectivamente, eij2 é a diferença entre o elemento de entrada e o calculado pelo

MCR-ALS, xij2 é o elemento de entrada(JAUMOT et al., 2005).

O MCR-ALS também pode tratar mais de uma matriz de dados ao mesmo tempo, quando se tem vários experimentos realizados com a mesma técnica espectroscópica (Equação 6), quando se tem o mesmo sistema químico avaliado por mais de uma técnica espectroscópica (Equação 7) ou, até mesmo quando se tem vários experimentos realizados com mais de uma técnica espectroscópica(Equação 8)(TAULER, 1995). [𝑋1 𝑋2] = [𝐶 1 𝐶2] 𝑆𝑇+ [𝐸 1 𝐸2] (6) [𝑋1 𝑋2] = 𝐶[𝑆 𝐴𝑡 𝑆𝐵𝑡] + [𝐸𝐴 𝐸𝐵] (7) [ 𝑋𝐴1 𝑋𝐵1 ⋮ ⋮ 𝑋𝐴𝑛 𝑋𝐵𝑛 ] = [𝐶1 𝐶2] [𝑆𝐴𝑡 𝑆𝐵𝑡] + [ 𝐸𝐴1 𝐸𝐵1 ⋮ ⋮ 𝐸𝐴2 𝐸𝐵2 ] (8)

Em que a matriz 𝑋𝑗𝑖 corresponde à matriz do sistema i monitorado pela técnica j; 𝐶𝑖é a

(34)

componentes obtidos pela técnica j e 𝐸𝑗𝑖 corresponde à matriz residual do sistema i monitorado pela técnica j(JAUMOT et al., 2005).

O MCR-ALS fornece as matrizes C e S otimizadas partindo de estimativas iniciais de uma das duas através das Equações 9 e 10.

𝑪+𝑿= 𝑪+𝑪𝑺𝑻= 𝑺𝑻 (9)

𝑿∗(𝑺𝑻)+ = 𝑪(𝑺𝑻)(𝑺𝑻)+ = 𝑪 (10)

Em que C+ é a pseudoinversa de C, (ST)+é a pseudoinversa da matriz ST e X* é a matriz dos valores singulares de X contendo apenas as PCs escolhidas [TAULER, 1995].

3.2.3 PLS-DA

Muitas vezes o analista possui duas matrizes de dados com diferentes variáveis (X e Y), aparentemente independentes. Para analisar se existem tendências de variações que sejam comuns aos dois conjuntos de dados desprezando os erros aleatórios experimentais, Wold (WOLD, 1976; WOLD, 2001) propôs a técnica dos Mínimos Quadrados Parciais (PLS: Partial Least Squares).

Uma forma simples de entender a construção de um modelo PLS é realizar uma regressão entre os escores das matrizes X e Y. Assim, PLS é uma técnica que consiste na construção de um modelo que considera as relações internas dos dados de cada matriz (matriz X e matriz Y separadamente) estabelecendo um vínculo entre elas (GELADI;1986).

Enquanto a PCA calcula componentes com a mínima correlação entre as variáveis originais (componentes principais que sejam ortogonais entre si) e que maximizam a variância em X, o PLS procura variáveis latentes (análogas às componentes principais) que expliquem a máxima correlação entre as matrizes X e Y, como já ressaltado anteriormente. Desta forma, as variáveis latentes (LV: Latent Variables) podem ser interpretadas geometricamente como uma leve rotação das PCs de forma a aumentar a correlação entre os dois conjuntos de dados (WOLD, 2001;BRUNS, 1985).

Matematicamente, o PLS consiste na decomposição das matrizes X e Y como mostrado nas equações 11 e 12, respectivamente:

𝑿 = 𝑻𝑷𝒕+ 𝑬 (11)

(35)

Em que T e U são análogas às matrizes dos escores em uma PCA e P e Q, análogas às matrizes dos pesos (ver equação 2). Assim, o PLS ajusta as equações 9 e 10 de forma que E e F sejam aproximadamente zero e constrói uma relação entre U e T (equação 13) (KALIVAS, 2006):

𝑼 = 𝑻𝑾 (13)

Assim, caso haja uma amostra onde suas variáveis x (𝑥 ∈ 𝑿) são conhecidas, é possível prever suas variáveis y (𝑦 ∈ 𝒀) a partir das relações anteriores.

Com objetivos de classificação, o método da Análise Discriminante por Mínimos Quadrados Parciais pode ser usado, como ilustrado na Figura 9, em que a matriz Y em geral é uma matriz que contém apenas 0 e 1 em seus elementos. Suponha um sistema que contém 3 classes. A matriz X será composta por 3 matrizes concatenadas contendo os espectros referentes às amostras das classes 1 (X1), 2 (X2) e 3 (X3). A matriz Y será uma matriz de 0 e 1 em que cada coluna estará relacionada com a classe do componente (1, 2 ou 3). Assim, quando uma amostra desconhecida com um determinado perfil espectral for projetada no modelo construído, é possível prever o valor de Y dessa amostra no modelo e determinar em que classe ela será classificada. O valor para Y da amostra será 1, quando ela pertencer à determinada classe e 0 quando não pertencer. A forma mais simples é utilizar um limiar para a classificação da amostra de 0,5, ou seja, quando uma amostra apresentar um valor igual ou maior que 0,5, significa que ela pertence à classe e questão.

(36)

3.2.4 Pré-processamento de dados

Os dados espectrais de infravermelho, geralmente necessitam de correções antes de serem submetidos a técnicas de modelagem quimiométricas (MILLER, 2005). Para minimizar as fontes irrelevantes de informações tais como variações aleatórias ou sistemáticas, que não estão relacionadas com a propriedade de interesse, nesse sentido, algumas técnicas de pré-processamento podem ser utilizadas. É sempre bom ter em mente que, uma vez aplicadas as técnicas de pré-processamento, os resultados do conjunto de dados podem mudar significativamente, tanto para melhor como para pior, e é a escolha apropriada da técnica que vai fornecer o melhor resultado. As técnicas de pré-processamento podem operar nas amostras (normalização, suavização, MSC, derivadas, SNV, etc.) ou nas variáveis (centrar na média, autoescalonamento, etc.) (BEEBE et al., 1998). Cada pré-processamento possui um objetivo diferente, e a escolha da técnica deve ser tomada de acordo com o tipo de correção que se deseja fazer nos dados, com o objetivo da análise e, por vezes, com o resultado da modelagem.

Das diversas variações presentes em um conjunto de dados, as mais comuns para dados de refletância são as flutuações sistemáticas geradas devido ao espalhamento de luz. Para corrigir problemas como esse, técnicas de correção como Variação Normal padrão (SNV: Standard Normal Variate) e Correção Multiplicativa de Espalhamento (MSC: Multiplicative Scattering Correction) são bastante utilizadas. As duas são similares e fornecem resultados muito parecidos, uma vez que o formato das equações que descrevem cada uma são semelhantes (FEARN et al., 2009).

MSC foi primeiramente proposto por Martens et. al. (MARTENS et al., 1983) e, em seguida adaptado por Geladi et. al. (GELADI et al., 1985). Esta técnica corrige os efeitos indesejados de espalhamento em, basicamente duas etapas: (1) estimando os coeficientes de correção e, em seguida (2) corrigindo o espectro original (RINNAN et al., 2009). As equações 14 e 15 mostram como são realizadas as etapas (1) e (2), respectivamente. 𝒙𝑜𝑟𝑔= 𝑏0+ 𝑏𝑟𝑒𝑓,1∙ 𝒙𝑟𝑒𝑓+ 𝒆 (14) 𝒙𝒄𝒐𝒓𝒓= 𝒙𝒐𝒓𝒈− 𝑏0 𝑏𝑟𝑒𝑓,1 = 𝒙𝒓𝒆𝒇+ 𝒆 𝑏𝑟𝑒𝑓,1 (15)

Em que xorg é a matriz dos espectros medidos, xref é o espectro de referência usado para

(37)

espectros corrigidos, b0e bref,1 são parâmetros escalares que variam de acordo com a

amostra (RINNAN et al., 2009). Os parâmetros b0 e bref,1 estimam os efeitos aditivos e

multiplicativos, respectivamente, enquanto o erro (ou matriz de resíduos) e pode ser relacionado com as informações químicas. Caso haja a detecção e remoção de outliers no conjunto de dados, o espectro médio (xref) mudará, e, consequentemente xcorr

também mudará, fazendo com que o MSC seja uma técnica que dependente do conjunto de dados (DHANOA et al. 1994;FERNÁNDEZ-CABANÁS et al., 2007).

Diferentemente do MSC, SNV não necessita de um espectro de referência para a obtenção dos espectros corrigidos. Essa transformação ocorre individualmente para cada espectro do conjunto de dados de acordo com a equação 16:

𝒙𝒄𝒐𝒓𝒓=

𝒙𝒐𝒓𝒈− 𝑎0 𝑎1

(16)

Em que a0 é o valor médio do espectro a ser corrigido e a1 é o desvio-padrão do

espectro de cada amostra.

A relação entre as os espectros corrigidos com MSC e SNV podem ser resumidas na equação 15:

𝒙𝑴𝑺𝑪 ≈ 𝒙𝑺𝑵𝑽∙ 𝑠̅𝑿+ 𝑿̿ (15)

Em que xMSCé a matriz dos espectros corrigidos com MSC, xSNV é a matriz dos espectros

corrigidos com SNV, 𝑠̅𝑿 é a média do desvio padrão de todos os espectros brutos (obtidos de xorg) e 𝑿̿ é a média geral de todos os espectros brutos.

Existem diversas outras técnicas de correção de dados. As derivadas também são ferramentas matemáticas que podem ser utilizadas para corrigir efeitos de linha de base além de evidenciar sinais que não estão muito visíveis. A derivada de Savitzky-Golay (SG) (SAVITZKY, 1964) foi proposta em 1964 e é uma técnica bastante utilizada em dados espectroscópicos, que, além de resolver os problemas de linha de base já mencionados, também suaviza os espectros.

A normalização é outra técnica de pré-processamento muito utilizada. Ela segue a Equação 16, porém, para a normalização, a0 é igual a 0 e a1 pode ser diferentes fatores,

(38)

total dos valores absolutos dos elementos do vetor ou a raiz quadrada da soma dos elementos (RINNAN et al., 2009).

Para centralizar os dados na média, é necessário subtrair o espectro médio das amostras do espectro de cada uma das amostras. Essa técnica é capaz de facilitar a visualização das diferenças relativas nas intensidades dos valores de absorbância/refletância/transmitância de cada comprimento de onda (BEEBE et al., 1998). Além dessas, outras ferramentas de pré-processamento estão dispostas na literatura e podem ser utilizadas de acordo com o tipo de correção que se deseja fazer na matriz de dados.

4 MÉTODOS BASEADOS EM IMAGENS PARA FINS FORENSES

O uso de imagens hiperespectrais tem ganhado muitas aplicações na área forense. Alguns trabalhos tem sido publicados utilizando análise dessas imagens para resolver diferentes problemas de interesse polícial. Em 2007, Tahtouh et al (TAHTOUH et al., 2007) publicaram um trabalho em que utilizaram imagens hiperespectrais na região do infravermelho médio (HI-MIR) para melhorar a localização e obtenção de impressões digitais. Os autores avaliaram diversos parâmetros para otimizar a aquisição das imagens de impressões digitais que foram aplicadas sobre diferentes superfícies (vidros, notas de $5 australianos, papel sulfite, fitas adesivas, latas de alumínio, etc.). Para cada uma das superfícies selecionadas, os autores determinaram os melhores parâmetros instrumentais de aquisição das imagens (como resolução espacial, resolução espectral, número de varreduras, etc.) para a detecção das impressões e tiveram sucesso na identificação das impressões em todas as superfícies usadas.

Edelman et al. (EDELMAN et al., 2012)utilizaram HI-NIR/vis para datação de manchas de sangue em locais de crime. Nesse trabalho, os autores utilizaram uma amostra de sangue colocada em uma superfície de algodão para criar um conjunto de dados de referência. Essa amostra foi armazenada no laboratório à temperatura ambiente e, a partir dela, foram obtidas imagens durante os 200 dias de armazenamento (uma vez por mês após o primeiro mês de armazenamento e diariamente no primeiro mês). Os dados foram pré-processados com SNV e um modelo não-linear de decomposição espectral (non-linear spectral unmixing model) foi usado para estimar a idade absoluta de manchas de sangue a partir das concentrações relativas de oxihemoglobina, metahemoglobina e hemicromo. A idade relativa de manchas de sangue numa mesma

(39)

cena de crime também foi estimada usando análise de agrupamento por k-médias

(k-meansCluster Analysis). Ambas as abordagens foram bem sucedidas, e o erro relativo

na estimativa da idade absoluta das amostras de testes a partir da referência foi igual a 13,4%.

Schuler et al. (SCHULER et al., 2012)publicaram um trabalho avaliando o potencial de HI-NIR na identificação de padrões de manchas de sangue em tecidos pretos. As imagens obtidas foram normalizadas e, após a remoção do fundo (tecido), uma PCA foi realizada para observar as diferenças relativas entre as manchas em cada amostra e as imagens em cada comprimento de onda. A identificação das manchas de sangue foram realizadas com sucesso, sendo diferenciadas das manchas de outras substâncias.

Edelman et al. (EDELMAN et al., 2012)discutem, em um trabalho de revisão, o potencial das imagens hiperespectrais para resolução de diferentes problemas no âmbito forense. Entretanto, poucas aplicações na área de documentoscopia podem ser encontrados quando se trata de imagens hiperespectrais. Geralmente os trabalhos que envolvem análise de imagens para identificar fraudes em documentos avaliam imagens em RGB ou outras escalas de cores (CMYK, HSB, HSL, L*a*b, etc).

Em 1982, Igoe e Reynolds (IGOE, 1982)propuseram uma metodologia para a identificação da sequência de linhas em um cruzamento de traços. A primeira etapa é baseada na aplicação de um papel fotográfico (KromeKote), que possui alta afinidade com tintas, em cima do texto que se deseja analisar. Em seguida esse papel é cuidadosamente removido e o registro do cruzamento inspecionado visualmente. Os autores atestaram que a análise das margens dos traços pode fornecer informações importantes sobre a sequência de duas linhas que se interceptam, de forma que, quando a tinta é removida pelo papel, a continuidade das margens dos traços sugerem quais os traços de tintas que estão por cima ou por baixo.

No mesmo ano, Godown (GODOWN, 1982) publicou um trabalho propondo duas modificações para a técnica proposta de Igoe-Reynolds. A primeira consistindo no uso de um papel adesivo para remover as tintas no documento analisado e a segunda consistindo no uso de timol para melhorar a remoção dessas tintas, principalmente para documentos mais antigos.

Os trabalhos de Igoe-Reynolds e Godown, entretanto, propõem técnicas destrutivas de análise para abordar esse problema,o que é muito comum nos departamentos de polícia.

(40)

Atualmente, os peritos podem utilizar novas tecnologias para tentar buscar soluções mais eficientes para problemas antigos. O trabalho de Chaikovsky et al. (CHAIKOVSKY et al., 2003)emprega programas de computador usuais de tratamento de imagens para separar tintas de carimbos de tintas de canetas pela análise das imagens obtidas, com câmeras fotográficas, das amostras de casos reais bastante específicos. Utilizando determinadas funções automáticas do programa Adobe Photoshop®, os autores do trabalho tentaram evidenciar assinaturas e textos que se encontravam parcialmente ocultos pela presença de tintas de carimbos.Embora tenham sido bem sucedidos na tentativa de separar diferentes tintas nas amostras analisadas utilizando esta metodologia, a combinação dessas tarefas automáticas depende muito do caso analisado. Ou seja, a combinação de tintas presentes na amostra analisada é que define qual função do programa deve ser utilizada para tentar evidenciar a assinatura. Portanto, apesar de ser uma metodologia simples e não destrutiva, o autor deixa claro que a proposta do trabalho é servir como um guia, pois as amostras usadas possuem combinações de cores específicas e a sequência de tratamentos das imagens não pode ser generalizada para todas as amostras. Além disso, a amostragem dos autores não foi representativa, e como a qualidade dos resultados depende muito da amostra analisada, é preciso encontrar um método mais robusto para a solução deste tipo de problema.

Com o objetivo identificar a sequência das linhas numa interseção de traços feitos com diferentes instrumentos gráficos, Bojkoet al. (BOJKO et al., 2008)adquiriram imagens hiperespectrais na região do Infravermelho Médio (MIR) de documentos,utilizando um microscópio com acessório de Refletância Total Atenuada (micro-ATR). Diversas amostras foram produzidas com diferentes tipos e marcas de canetas, além de impressoras a laser e a jato de tinta. As amostras produzidas pelos autores do trabalho também foram preparadas sob diferentes condições (tempo de armazenamento da amostra, pressão usada na elaboração do traço, etc.). Os autores só conseguiram identificar a sequência de traços daquelas amostras produzidas a partir da combinação de tintas de canetas esferográficas com tintas de impressora a laser (toner). Todas as outras combinações de instrumentos gráficos utilizados para reproduzir as amostras forneceram resultados insatisfatórios. As imagens obtidas do cruzamento de traços de tintas de canetas esferográficas pretas e tintas de toner foram avaliadas apenas em dois comprimentos de onda separadamente, um para cada instrumento gráfico, ou seja, não houve tratamento dos espectros e nenhuma técnica quimiométrica foi aplicada neste trabalho.

Referências

Documentos relacionados

Figura 6: Variação da condutividade elétrica com a fração cristalizada, a temperatura ambiente, para todas as amostras (a) e para as amostras com baixas frações cristalizadas

No contexto em que a Arte é trabalhada como recurso didático-pedagógico na Educação Matemática (ZALESKI FILHO, 2013), pode-se conceber Performance matemática (PM) como

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,

For additional support to design options the structural analysis of the Vila Fria bridge was carried out using a 3D structural numerical model using the finite element method by

Os supercondutores magnéticos, volantes de inércia e os condensadores são apropriados para aplicações que necessitam de grande potência de saída em pouca

Em relação aos conhecimentos de saúde oral constatou-se que pais/encarregados de educação e crianças estão informados sobre a presença, ou não, de dentes cariados, bem como,

Dessa maneira, os resultados desta tese são uma síntese que propõe o uso de índices não convencionais de conforto térmico, utilizando o Índice de Temperatura de Globo Negro e

São considerados custos e despesas ambientais, o valor dos insumos, mão- de-obra, amortização de equipamentos e instalações necessários ao processo de preservação, proteção