• Nenhum resultado encontrado

PARTE I – FUNDAMENTAÇÃO TEÓRICA

5. Tratamento de Dados

A variedade de parâmetros considerados importantes na determinação da qualidade dos legumes MP e PC é grande. São comummente realizadas análises químicas (determinação de bioativos e atividade antioxidante, pH e acidez, teor de humidade, cinzas e minerais); físicas (cor e textura) e ainda sensoriais. Todos estes parâmetros foram anteriormente descritos como relevantes e, de alguma forma, justificada a sua importância no controlo da qualidade. No entanto, a análise destes parâmetros não fica completa, sem que se proceda a uma tentativa de correlação entre eles, ou mesmo tentar compreender como interagem na evolução e com a senescência do produto. Só assim se obtém informação que permita prever o comportamento ao longo do seu tempo de vida útil. Neste contexto, é importante referir as ferramentas quimiométricas que permitem explorar os dados, de forma a compreender e explicar tais inter-relações, correlações, etc.

A química é uma ciência que se dedica ao estudo de sistemas complexos, que acabam por não ser explicados totalmente pela teoria. Apenas recorrendo ao estudo experimental é possível compreendê-los. Mais difícil se torna quando em presença de sistemas com interfaces entre a química e biologia/bioquímica, estas com a tecnologia e ainda mais com interações do mundo real do mercado e dos consumidores. Assim a teoria fornece informação acerca de: o que e como medir/quantificar, orienta na implementação das técnicas que, conjuntamente com a informação extraída dos dados experimentais, podem ajudar a compreender os fenómenos num espaço multidimensional (167).

No entanto, haverá sempre algumas dimensões deste espaço que serão parcialmente desconhecidas. São exemplo, a avaliação rotineira de propriedades como a atividade

enzimática, o sabor, ou a atividade bacteriostática ainda que bem correlacionadas com, por exemplo, a configuração molecular de um composto antioxidante, …..

Segundo alguns investigadores, a estatística pode ser vista como a arte de tirar conclusões a partir de dados e tomar decisões na presença de variabilidade. A investigação nesta área tem sido muito produtiva nas questões que lidam com essa variabilidade, mas não há ainda muitos livros de texto com abordagens simples sobre erros e a sua modelação, bem como os próprios programas estatísticos existentes apresentam muitas limitações relativamente a este aspeto (167).

Na revisão bibliográfica realizada para apoiar o desenvolvimento do trabalho experimental e a discussão dos resultados obtidos, verificou-se que, apesar de alguns autores estarem de acordo, observa-se uma grande discrepância de resultados entre autores. Muito deste desacordo deve-se, possivelmente, ao facto de: (i) diferentes autores estudam isoladamente cada um destes parâmetros; (ii) estudam conjuntos de parâmetros diferentes; ou ainda (iii) analisam os seus dados recorrendo a ferramentas de estatística também distintas na conceção do modelo, distribuição e/ou tolerância de erro. É assim importante conseguir realizar estudos completos, que envolvam o maior número possível de parâmetros, verificar a sua correlação e com ajuda da análise multivariada, perceber qual a informação realmente importante e assim prever com segurança o comportamento dos produtos em estudo.

Pelo exposto noutras secções deste capítulo, parece evidente a necessidade de um estudo abrangente no âmbito das propriedades físico-químicas, organoléticas e microbiológicas para perceber o comportamento dos legumes MP e PC em AM. Para atender a esta necessidade, surge uma outra que é, como lidar com tão grande volume de dados. A resposta pode ser dada pelas ferramentas disponíveis para exploração de dados e numa palavra pela quimiometria.

A quimiometria recorre a ferramentas de estatística e a modelos matemáticos (álgebra) para, genericamente, resolver questões/problemas de química, tendo aqui a origem da sua designação, cuja definição remonta a 1971 por Svante Wold (168, 169). Atualmente, o nome mantém-se mas a sua definição é mais abrangente bem como o campo de aplicação. Inclui-se a componente de informática e destina-se agora não só ao tratamento de dados químicos, mas também ao desenho experimental e extração da maior quantidade de informação útil, integrando diversas áreas da ciência e do mundo real (169, 170). Para tal é necessário usar técnicas quimiométricas sofisticadas, baseadas na estatística multivariada (171), que lidem com grandes volumes de dados e, que cada vez mais frequentemente resultam de poucas observações para um grande número de

variáveis. Nesta tese, esta necessidade foi sentida devido ao grande número de parâmetros (variáveis - referidas em secções anteriores) avaliados num número reduzido de observações (as amostras - produtos em MP ou PC ao longo to tempo de armazenamento), o que despoletou o interesse pelo recurso a estas técnicas de estatísticas e outras mencionadas nos capítulos subsequentes.

A análise de componentes principais (ACP) é a ferramenta mais popular entre os investigadores que recorrem à análise multivariada. Numa ACP, são definidos uma série de vetores ao longo dos quais a variância dos dados é maximizada. A ACP é um método estatístico que tem por objetivo determinar as principais estruturas existentes nos dados. Entende-se por estrutura, um conjunto de variáveis correlacionadas entre si, isto é, um conjunto de variáveis com um padrão de variação interligado. Para tal, a ACP determina um número de componentes que é, em geral, igual ao número de variáveis iniciais (desde que o número de unidades analisadas seja superior ao número de variáveis). As componentes, correspondendo a grupos de variáveis correlacionadas entre si, organizam- se por ordem decrescente de importância. Uma vez que a informação importante se concentra nas primeiras componentes, as últimas componentes concentram a informação irrelevante, erros das análises, etc. Deste modo, desprezando as últimas componentes, reduz-se a dimensão dos dados, mas não se perde informação relevante (172).

Na maior parte das referências consultadas, assiste-se a um descuido na utilização dos outputs gráficos da ACP, geradas pelos programas habitualmente usados no tratamento estatístico de dados, como por exemplo: (i) apresentação gráfica com escalas diferentes em cada componente (como no caso de trabalhos apresentados por Koley et al. (117) e por Santos et al. (173)) ou (ii) sem a preocupação de colocar a informação acerca das variáveis realmente importantes e que sobre as quais deve recair (só e apenas) a discussão. Em relação ao primeiro problema (i) note-se que cada vetor próprio é semelhante a um vetor unitário que define uma reta de regressão ortogonal; cada componente principal é semelhante às coordenadas (projeções) das unidades sobre uma reta de regressão ortogonal; para que esta projeção seja feita corretamente aquando da análise das estruturas formadas no gráfico que opõe as componentes principais (CP) um e dois, este gráfico deve ser perfeitamente quadrado com escalas iguais tanto na CP1 como na CP2. Em relação ao segundo caso (ii), a questão prende-se com o facto de, muitas vezes, os investigadores não conseguirem decidir o que realmente é importante. Na ACP, as componentes representam conjuntos de variáveis bem correlacionadas. Esta informação é fornecida pela matriz de vetores próprios, que para cada componente expressa a intensidade da relação de cada variável com cada componente principal. É ainda importante o conhecimento da informação fornecida pela matriz de valores próprios,

também habitualmente, designados por eigen values, que classifica as componentes por ordem de importância e, consequentemente, os grupos de variáveis correlacionadas entre si. Descartando as componentes de menor importância, consegue-se reduzir o volume de dados construindo os gráficos das componentes principais, é possível visualizar em apenas um ou dois gráficos a informação relevante num dado estudo (172). Ainda segundo Alves (172), não é suficiente interpretar os gráficos apenas olhando para as posições das estruturas que surgem posicionadas em determinado ponto do gráfico, sugerindo que “são mais qualquer coisa” numa variável e que outras unidades que surgem em posição opostas, “terão menos” dessa variável. Nem sempre esta situação reflete a realidade (na verdade, na matriz de dados originais, podem não ser assim tão diferentes). Para garantir que as conclusões extraídas dos gráficos correspondem à realidade é preciso, durante a sua análise, ter em consideração não só a matriz de vetores próprios, mas também a matriz de correlações.

Muitas vezes, a utilização da quimiometria introduz, ainda, uma maior confusão, devido ao facto de que estas análises são complicadas e, ao mesmo tempo, não são isentas de erro, na medida em que cabe ao investigador escolher os parâmetros que explicam as variações observadas. Mais, na maior parte das vezes os investigadores não possuem os conhecimentos de matemática e estatística, a que isso obriga. Estes limitam-se a utilizar programas incluídos em software que operam num “ambiente quimiométrico”, isto é, os investigadores terão apenas que inserir uma matriz de dados, seguida da seleção da ferramenta estatística a utilizar. O restante trabalho fica a cargo do software que produz um output de resultados em gráfico ou tabela, a partir dos quais o operador terá apenas que fazer a sua interpretação, que é na maior parte dos casos de acordo com as suas expectativas e nem sempre atentando aos erros de previsão do modelo de análise. Estas dificuldades foram reconhecidas por Gabriel (174) que associou pela primeira vez às técnicas quimiométricas, até então trabalhadas, o termo “biplot”.

Os “biplots” efetuam uma projeção das variáveis iniciais nos planos das componentes principais, equipadas com escalas de valores iguais aos valores iniciais das variáveis, para que se possa, a partir do gráfico, verificar quais eram os valores iniciais de cada uma das unidades que foram analisadas (biplots preditivos), ou colocar no gráfico novas unidades analisadas (biplots interpolativos) (172, 175). O objetivo da utilização desta ferramenta é precisamente ajudar os investigadores na interpretação dos seus dados, recorrendo apenas à análise dos outputs gráficos (174).

No entanto, estas representações gráficas com biplots muitas vezes tornam-se confusas, sobretudo no caso onde o tipo de dados/resultados a tratar é complexo e volumoso (175). Na tentativa de melhorar a aparência gráfica e ao mesmo tempo

contribuir para o rigor da sua interpretação, muitas vezes questionável, Alves (175), em 2012, desenvolveu o conceito de erro preditivo padrão médio (mspe – do inglês mean standard predictive error). O mspe é uma nova medida de ajustamento dos dados que permite o desenho de biplots cujo mspe está abaixo do definido pelo investigador, evitando assim sobrecarregar o gráfico com eixos de varáveis de baixa correlação e evitando a más interpretações e, consequentemente, conclusões erradas.

Tal como Wold (167) comentou, a estatística é a arte de desenhar conclusões a partir de dados experimentais, e tomar decisões atendendo à variabilidade destes. No entanto, não acontece bem assim, pois nem sempre estão corretas, pois não reconhece a importância dos erros dos modelos aplicados. Apesar do estudo da estatística estar continuamente a procurar responder a este problema, pouca informação tem sido veiculada quer ao nível da literatura, quer ao nível da implementação nos habituais programas de estatística. No entanto em 2012 Alves (175) criou uma função para o R (AutoBiplot.PCA ( )), que tem por base algumas das funções já existentes no referido programa (funções para o R). Esta função automatiza o processo, permitindo que o utilizador decida o grau de precisão da análise real. O método baseia-se na definição do mspe de uma variável, como grau de precisão no processo de projeção dos valores originais nos biplots, que é comparado com um valor de tolerância pré-definido (Taxis) e

assim decidir se o eixo correspondente é desenhado no biplot. O erro preditivo padrão (spe – do inglês standard predictive error) é calculado para cada unidade, em relação a cada eixo projetado no biplot do gráfico que opõe cada duas componentes e comparado com um valor de tolerância pré-definida (Tunits) para decidir quais unidades cuja projeção

ortogonal ao eixo deve ser encarada como valor discrepante (outliers) (175).

A análise estatística realizada recorrendo à função AutoBiplot.PCA ( ), permite uma abordagem mais precisa à avaliação dos dados. As unidades em estudo (amostras/produto) são projetadas no eixo da variável correspondente, permitindo determinar o valor inicial da variável e, assim, ajudar interpretar os dados em função dos valores iniciais, e não apenas em função das componentes principais, como acontece numa ACP tradicional.

Os dados gerados no trabalho desta tese foram analisados recorrendo a diferentes programas estatísticos e diferentes modelos, que facilitaram a discussão e clarificação de dúvidas não só em relação ao comportamento dos legumes ao longo do tempo de armazenamento, mas também em relação a alguns parâmetros (importância na descriminação de amostras e correlações entre eles) usados no controlo da qualidade.

Documentos relacionados