• Nenhum resultado encontrado

Análise multivariada aplicada na classificação de fornecedores de uma indústria de laticínios

N/A
N/A
Protected

Academic year: 2021

Share "Análise multivariada aplicada na classificação de fornecedores de uma indústria de laticínios"

Copied!
10
0
0

Texto

(1)

Análise multivariada aplicada na classificação de fornecedores de uma indústria de laticínios

Enio Júnior Seidel

Universidade Federal de Santa Maria Avenida Roraima, 1000. Santa Maria / RS

ejrseidel@hotmail.com Luis Felipe Dias Lopes Universidade Federal de Santa Maria Avenida Roraima, 1000. Santa Maria / RS

lflopes@smail.ufsm.br Angela Pellegrin Ansuj Universidade Federal de Santa Maria Avenida Roraima, 1000. Santa Maria / RS

angelaansuj@yahoo.com.br Andreia Zanella

Universidade Federal de Santa Maria Avenida Roraima, 1000. Santa Maria / RS

andreia_zanella@yahoo.com.br

Resumo: O objetivo do presente trabalho foi classificar os fornecedores de uma indústria de laticínios. Foram consideradas 862 amostras coletadas no período de janeiro a março de 2008, nas quais foram observadas as variáveis água excedente (%); gordura (%); lactose (%) e proteínas (%). Na construção do índice de classificação dos fornecedores, optou-se por um índice bidimensional, onde o primeiro índice manteve 45,79% da variabilidade dos dados e o segundo índice manteve 26,74%. Considerando os dois índices conjuntamente, percebeu-se que 19,18% dos fornecedores tiveram boa classificação, tendo amostras, em média, com altos teores de gordura, lactose e proteínas e menores percentuais de água excedente. Além disso, confrontando os resultados da aglomeração utilizando o algoritmo k-médias, foi possível verificar a boa classificação exercida pelo índice bidimensional.

Palavras-chave: Indústria de laticínios; Índice de classificação; Análise multivariada. AG – Aplicações à Indústria

Abstract: The objective of this study was to rank the suppliers of the dairy industry. Were considered 862 samples in the period of january to march of 2008, in which the variables were observed over water (%), fat (%), lactose (%) and protein (%). In the construction of the index for classification of suppliers, a two-dimensional index was used, where the first index remained 45.79% of the variability of the data and the second index remained 26.74%. Considering the two indices together, realized that 19.18% of suppliers had good classification, taking samples, on average, with high levels of fat, lactose and protein and lower percentage of water surplus Also, confronting the results of clustering using the k-means algorithm, it was possible to verify that the index had a good two-dimensional classification of suppliers .

Key words: Dairy industry; Classification index; Multivariate analysis. AG – Aplicações à Indústria

(2)

1 Introdução

A avaliação de desempenho pode ser entendida como uma maneira de classificar ou ordenar elementos com base em indicadores ou índices que tentam medir o desempenho desses elementos.

Na cadeia produtiva do leite, a avaliação de desempenho dos fornecedores é muito importante para a indústria, tanto para monitorar o desempenho em relação a qualidade da matéria-prima fornecida quanto para possibilitar um rank para pagamento do leite por qualidade. Porém, a maior dificuldade é a determinação de um procedimento de classificação que reflita os aspectos de qualidade do leite e que seja de fácil interpretação.

Uma abordagem recente que vem ganhando força pela sua confiabilidade é a utilização de índices de base multivariada. Estes índices são baseados nas técnicas estatísticas de análise fatorial (TOLEDO; NICOLELLA, 2002; HAASE et al, 2003) e de componentes principais (MINGOTI; SILVA, 1997; KUBRUSLY, 2001; SABOIA; KUBRUSLY, 2008). Aparentemente a vantagem da utilização deste tipo de índice linear de base multivariada é que todas as variáveis em estudo são consideradas e seu peso na formação do índice é ponderado.

Assim, o objetivo da presente pesquisa é classificar os fornecedores de uma indústria de laticínios através da utilização da análise fatorial. Além disso, toma-se uso da análise de agrupamento para verificar a validade da classificação desenvolvida.

2 Metodologia da pesquisa

Os dados utilizados foram oriundos da Usina Escola de Laticínios da Universidade Federal de Santa Maria (UFSM).

Foram consideradas 862 amostras coletadas no período de janeiro a março de 2008. Foi considerado este período devido a melhor qualidade das informações contidas nas planilhas.

As variáveis consideradas na análise foram as seguintes: Água Excedente (%); Gordura (%); Lactose (%) e Proteínas (%).

Após tabulação dos dados, foi calculada a média de cada variável para cada fornecedor possibilitando obter uma única medida por fornecedor em cada variável considerada.

De posse das médias, foi construído um índice através de análise fatorial para a classificação dos fornecedores com base na qualidade do leite fornecido.

Após, foi utilizada a análise de agrupamento para verificar se existiria semelhança entre a classificação encontrada na analise fatorial e a aglomeração pelo método K-médias.

Na aplicação da técnica e desenvolvimento do estudo, utilizaram-se os softwares SAS 8.2 e Statistica 7.1 como ferramentas auxiliares.

3 Análise fatorial

A análise fatorial é uma técnica de interdependência na qual todas as variáveis são simultaneamente consideradas, e cada uma é explicada levando em consideração todas as outras, empregando o conceito de variável estatística ou variável latente (HAIR JR et al., 2005).

O objetivo geral da análise fatorial é encontrar uma maneira de resumir a informação contida em diversas variáveis em um conjunto menor de novas variáveis estatísticas (fatores) com uma perda mínima de informação.

Para a extração dos fatores deve-se optar por um método em específico e por um número de fatores a serem selecionados para representar a estrutura latente dos dados (HAIR JR et al.,

(3)

Um dos métodos para extrair os fatores em análise fatorial é o método de análise de componentes principais.

3.1 Método das componentes principais

Segundo Santos et al. (2004), a técnica de componentes principais consiste na transformação de um conjunto de

p

variáveis originais,

X

i1

,

X

i2

,...,

X

ip em um novo conjunto

ip i

i

Y

Y

Y

1

,

2

,...,

, em que

Y

i são funções lineares de

X

i e independentes entre si.

Segundo Johnson e Wichern (1992), algebricamente, componentes principais são combinações lineares das

p

variáveis aleatórias

X

1

,

X

2

,...,

X

p. E, geometricamente, representam um novo sistema de coordenadas obtidas pela rotação do sistema original.

Considerando o vetor aleatório

X

'

=

[

X

1

,

X

2

,...,

X

p

]

com matriz de covariância

, com autovalores

λ

1

λ

2

...

λ

p

0

, têm-se as combinações lineares como (JOHNSON; WICHERN, 1992, p. 357): p pp p p p p p p p

X

e

X

e

X

e

Y

X

e

X

e

X

e

Y

X

e

X

e

X

e

Y

+

+

+

=

+

+

+

=

+

+

+

=

...

...

...

2 2 1 1 2 2 22 1 12 2 1 2 21 1 11 1

(3.1)

com

e

i sendo os autovetores gerados pelos autovalores

λ

i.

3.2 Índice baseado em análise fatorial

As técnicas de análise fatorial (TOLEDO; NICOLELLA, 2002; HAASE et al, 2003) e de componentes principais (MINGOTI; SILVA, 1997; KUBRUSLY, 2001; SABOIA; KUBRUSLY, 2008) são ferramentas importantes para a construção de índices.

Na construção do índice como uma combinação linear de variáveis, deseja-se que ele tenha a maior variância possível, contendo o máximo de informação fornecida pelas variáveis originais (KUBRUSLY, 2001). Assim, é possível estabelecer uma ligação entre importância e variância (SABOIA; KUBRUSLY, 2008).

O índice é definido da seguinte forma:

=

=

p i ij i j

a

X

I

1 (3.2) em que

X

ij é o valor da

i

-ésima variável observada no

j

-ésimo indivíduo e

a

i é o peso da

i

-ésima variável.

Se for construído mais de um índice, constituindo índices bidimensionais ou multidimensionais, espera-se que

Cov

(

I

j

,

I

l

)

=

0

e

R

(

I

j

,

I

l

)

=

0

para qualquer

j

l

em que

Cov denota a covariância e

R

denota a correlação.

Utilizando esse procedimento para construir o índice, tem-se que pesos maiores estarão associados às variáveis que contribuem mais para a variância do conjunto de dados.

(4)

Além disso, os escores resultantes do índice serão padronizados (média zero e variância unitária). Isso colabora para a interpretação do índice, em que se têm elementos acima da média e elementos abaixo da média.

Para efetuar a interpretação do índice, é preciso levar em conta as correlações entre as variáveis originais (consideradas para construção do índice) e o índice obtido. Se as correlações observadas forem positivas e fortes, então quanto mais altos os escores no índice melhor é o desempenho dos elementos. Porém, se as correlações forem negativas e fortes, então quanto menor o escore no índice melhor será o desempenho de cada elemento.

4 Análise de agrupamentos

Segundo Malhotra (2006), a análise de agrupamento, ou análise de clusters, é uma técnica usada para classificar objetos ou casos em grupos relativamente homogêneos chamados de clusters ou conglomerados. Assim, os objetos em cada cluster tendem a ser semelhante entre si, mas diferentes de objetos em outros clusters.

Conforme Hair Jr et al. (2005), as características de cada objeto são combinadas em uma medida de similaridade calculada para todos os pares de objetos, possibilitando a comparação de qualquer objeto com outro pela medida de similaridade e a associação dos objetos semelhantes por meio da análise de agrupamento. As medidas de distância representam a similaridade, que é representada pela proximidade entre as observações ao longo das variáveis. Os agrupamentos baseados em distância possuem valores mais similares no conjunto de variáveis, no entanto, os padrões podem ser bem diferentes.

A distância euclidiana é a medida de distância mais freqüentemente empregada. É utilizada para calcular medidas específicas, assim como a distância euclidiana simples e a distância euclidiana quadrada ou absoluta, que consiste na soma dos quadrados das diferenças, sem calcular a raiz quadrada.

A distância euclidiana quadrada é definida por:

=

=

n i i i

y

x

DE

1 2

)

(

(3.3)

Bueno e Aguiar (2004), mencionam que quanto mais próximo de zero for a distância euclidiana, mais similares são os objetos comparados.

Na aglomeração não-hierárquica, assume-se um centro de cluster e em seguida agrupam-se todos os objetos que estão a menos de um valor pré-estabelecido do centro.

4.1 Método K-médias

É um método de partição que fornece indicações mais precisas sobre o número de conglomerados a ser formado. Este método talvez seja um dos mais utilizados quando se têm muitos objetos para agrupar, com pequenas variações. O critério de homogeneidade dentro do grupo e heterogeneidade entre os grupos mais utilizado é o da soma dos quadrados residual baseado na Análise de Variância. Assim, quanto menor for este valor, mais homogêneos são os elementos dentro de cada grupo e melhor será a partição (BUSSAB et al., 1990).

5 Resultados e discussões

Aplicou-se a metodologia baseada nas técnicas de análise fatorial e de componentes principais para a construção de um índice capaz de classificar os fornecedores. A idéia é de que

(5)

as variáveis água excedente, teor de gordura, lactose e proteína sejam ponderadas no índice, de forma que as variáveis mais importantes recebam maiores pesos.

As variáveis água excedente, teor de gordura, lactose e proteínas foram escolhidas nesse procedimento por refletirem a qualidade da matéria-prima, e poderem ser usadas para o sistema de pagamento do leite. A água, quando encontrada em excesso no leite, pode ser fator para desconto no pagamento, já que a indústria não deve pagar por água, mas, sim, por leite. A gordura, a lactose e as proteínas são fatores que valorizam o leite na questão do pagamento por qualidade (MADALENA, 2000, p. 678; TRONCO, 2008, p. 116) e no valor nutritivo (TRONCO, 2008, p. 143).

Inicialmente foram calculadas as médias de cada variável para cada fornecedor, de modo que cada um tivesse somente um escore em cada variável. Além disso, foram considerados somente os fornecedores com pelo menos três amostras analisadas.

Na Tabela 1 estão as correlações entre as variáveis utilizadas para a construção do índice. Tabela 1 - Matriz de correlação das variáveis consideradas para a construção do índice de classificação

.

ÁGUA GORDURA LACTOSE PROTEÍNA

ÁGUA 1,00

GORDURA 0,00 (p=0,968) 1,00

LACTOSE -0,16 (p=0,174) -0,29 (p=0,012) 1,00

PROTEÍNA -0,32 (p=0,006) -0,01 (p=0,910) 0,63 (p=0,000) 1,00

Percebe-se pela Tabela 1 que ocorreram correlações significativas entre as variáveis água e proteína, gordura e lactose e entre lactose e proteína (p<0,05). Assim, opta-se por extrair os fatores latentes através da análise fatorial.

Na Tabela 2 estão os autovalores e percentual de variância explicada para os fatores extraídos. Percebe-se que os dois primeiros fatores apresentaram autovalores maiores que 1, sendo definidos para a construção do índice, que nesse caso também é bidimensional.

Tabela 2 - Autovalores e percentual de variância explicada para os fatores extraídos.

Fator Autovalor % Variância % Variância Acumulada

1 1,83 45,79 45,79

2 1,07 26,74 72,52

3 0,81 20,18 92,70

4 0,29 7,30 100,00

No primeiro índice, têm-se 45,79% da variância original, enquanto que no segundo índice a explicação é de 26,74%.

Para a interpretação dos índices, têm-se por base as correlações estabelecidas entre as variáveis originais e os dois índices. A Tabela 3 apresenta essas correlações.

(6)

Tabela 3 - Cargas fatoriais para os dois fatores considerados.

Variável Fator 1 Fator 2

AGUA 0,50 0,52

GORDURA 0,32 -0,84

LACTOSE -0,86 0,22

PROTEINA -0,86 -0,23

Observando a Tabela 3, é possível perceber fortes correlações negativas entre as variáveis lactose e proteína e o primeiro fator. Esse fator também apresenta correlação positiva moderada com a variável água excedente.

Em relação ao segundo fator, verifica-se uma forte correlação negativa com a variável teor de gordura, além de uma correlação positiva e moderada com a variável água excedente.

Para realizar a avaliação dos fornecedores, tomam-se por base os escores dos dois índices. A distribuição dos fornecedores conforme os escores está apresentada na Figura 1.

Primeiro índice 57,5% 42,5% z>0,00 z<0,00 Segundo índice 53,4% 46,6% z>0,00 z<0,00

Figura 1 - Distribuição dos fornecedores nos dois índices de classificação.

Pela Figura 1, verifica-se que 42,50% dos fornecedores tiveram escores negativos no primeiro índice, caracterizando amostras com altos percentuais de lactose e proteínas e baixos percentuais de água excedente.

No segundo índice, verifica-se que 46,60% dos fornecedores apresentaram escores negativos, indicando matéria-prima com altos teores de gordura e baixos percentuais de água excedente.

De modo a observar o comportamento dos fornecedores, utiliza-se um diagrama de dispersão, como sugerem Haase et al. (2003).

Na Figura 2, tem-se a dispersão dos fornecedores, considerando os dois índices construídos.

(7)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 26 27 28 29 30 31 32 33 35 36 37 40 41 42 43 44 45 46 48 49 51 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 74 75 76 77 78 80 81 82 -5 -4 -3 -2 -1 0 1 2 3 Primeiro índice: 45,79% -3 -2 -1 0 1 2 3 S eg un do ín di ce : 2 6, 74 %

Figura 2 - Diagrama de dispersão dos casos nos dois índices.

Observando a Figura 2, é possível verificar que 14 fornecedores (3º quadrante) apresentaram escores negativos no primeiro índice e escores negativos no segundo, caracterizando matéria-prima entregue, em média, com altos teores de gordura, lactose e proteínas e baixos percentuais de água excedente. Desses fornecedores, 10 são oriundos da rota 2 e 4 fornecedores vêm da rota 3.

Além disso, esses fornecedores poderiam ser privilegiados no sistema de pagamento, recebendo bônus por fornecerem matéria-prima de maior qualidade físico-química.

Nos 2º e 4º quadrantes estão os fornecedores com boa classificação em um dos índices e má classificação no outro. Assim, os fornecedores localizados no 2º quadrante têm boa classificação no primeiro índice mas má classificação no segundo índice. Em relação aos fornecedores localizados no 4º quadrante, percebe-se que possuem classificação ruim no primeiro índice e boa classificação no segundo índice.

Já no 1º quadrante estão os 22 fornecedores que apresentaram, em média, leite com baixos percentuais de gordura, lactose e proteínas e altos percentuais de água adicionada. Desses fornecedores, 6 vêm da rota 1, 3 são fornecedores da rota 2 e 13 são oriundos da rota 3.

Para verificar a validade da análise anterior e caracterizar as classificações dos fornecedores em cada quadrante, toma-se uso da análise de agrupamentos através do método K-médias de aglomeração não-hierárquico. Na criação dos clusters foi estipulado a quantidade de 4 grupos a serem formados, conforme mostra a Tabela 4.

(8)

Tabela 4 – Clusters formados pelos fornecedores utilizando o algoritmo K-médias.

Cluster 1 Cluster 2 Cluster 3 Cluster 4

2 55 6 24 42 66 1 8 70 3 61 7 26 43 75 4 21 72 5 65 9 27 45 76 10 22 77 16 68 11 28 46 78 15 23 80 18 69 12 30 56 81 49 37 82 29 71 13 31 57 51 48 33 74 14 32 59 54 41 17 35 60 58 44 19 36 62 64 53 20 40 63 67

Confrontando a Figura 2 com a Tabela 4 é possível observar que, dos fornecedores localizados no 3º quadrante (melhor classificação nos dois índices), a maioria está alocada nos clusters 1 e 3. Os clusters 1 e 3 se caracterizam por apresentarem as menores médias de água excedente e maiores médias de lactose e proteínas. Além disso, apresentam as segunda e terceira maiores médias de teor de gordura, respectivamente (Tabela 5).

Em relação aos fornecedores localizados no primeiro quadrante (pior classificação nos dois índices) na Figura 2, percebe-se que a maioria pertence aos clusters 2 e 4 (Tabela 4). Considerando as características dos clusters 2 e 4, verifica-se, pela Tabela 5, que apresentam as maiores médias de água excedente e as menores médias de lactose e proteína. Também, observa-se, pela Tabela 5, que o cluster 2 apresentou a menor média de gordura dentre todos os clusters. Tabela 5 – Médias das variáveis em estudo em cada um dos clusters.

Variável Cluster 1 Cluster 2 Cluster 3 Cluster 4

AGUA 6,11 7,23 4,30 8,23

GORDURA 3,77 3,46 3,72 3,84

LACTOSE 4,41 4,36 4,38 4,32

PROTEINA 3,34 3,26 3,37 3,24

Para auxiliar a interpretação das informações contidas na Tabela 5, tem-se a Figura 3 que mostra o gráfico das médias de cada variável em cada cluster.

(9)

Cluster 1 Cluster 2 Cluster 3 Cluster 4

AGUA GORDURA LACTOSE PROTEINA

Variáveis 1 2 3 4 5 6 7 8 9 10 M éd ia

Figura 3 – Médias das variáveis em estudo em cada um dos clusters.

Observando a Figura 3 é possível verificar claramente que os clusters 1 e 3 apresentaram menores médias de água excedente, com destaque para o cluster 3. Além disso, observa-se que o cluster 2, além de ter a segunda maior média de água excedente, obteve a menor média de gordura no leite.

6 Conclusões

No primeiro índice de classificação, onde as variáveis água excedente, lactose e proteína tiveram maior peso, verificou-se que 42,50% tiveram boa classificação, com amostras apresentando, em média, altos percentuais de lactose e proteínas e baixos percentuais de água excedente. Já, no segundo índice, no qual as variáveis água excedente e gordura tiveram maior peso, verificou-se que 46,60% dos fornecedores tiveram boa classificação, apresentando matéria-prima com altos teores de gordura e baixos percentuais de água excedente.

Considerando os dois índices conjuntamente, percebeu-se que o percentual de fornecedores com boa classificação foi de 19,18%. Estes fornecedores apresentaram amostras, em média, com altos teores de gordura, lactose e proteínas e menores percentuais de água excedente.

Além disso, foi possível verificar a boa classificação exercida pelo procedimento, pois a alocação dos fornecedores em cada quadrante foi semelhante a alocação em cada cluster da aglomeração utilizando o algoritmo K-médias.

A usina não possui sistema de pagamento por qualidade, assim, espera-se que os resultados desta aplicação possam ser usados para auxiliar a implantação de um sistema de pagamento por qualidade do leite, beneficiando os fornecedores classificados com melhor desempenho.

(10)

Referências

BUENO, Y.M. e AGUIAR, D.R.D. Determinantes do grau de envolvimento na atividade exportadora e suas implicações nas exportações brasileiras de carne de frango. Gestão & Produção, São Carlos, v. 11, n. 2, mai./ago. 2004.

BUSSAB, W.O.; MIAZAK, E.S.; ANDRADE, D.F. Introdução à Análise de Agrupamentos. 9º Simpósio Brasileiro de Probabilidade e Estatística. São Paulo: IME – USP, 1990.

HAASE, J. et al. Qualidade das águas superficiais do litoral norte e médio do Rio Grande do Sul. In: 22 Congresso Brasileiro de engenharia Sanitária e Ambiental. 2003, Joinville. Anais... Joinville: ABES, 2003. CD-ROM.

HAIR Jr., J. F. et al. Análise multivariada de dados. 5 ed. Porto Alegre: Bookman, 2005.

JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 3 ed. New Jersey: Prentice Hall, 1992.

KUBRUSLY, L. S. Um procedimento para calcular índices a partir de uma base de dados multivariados. Pesquisa Operacional, v. 21, n. 1, p. 107-117, 2001.

MADALENA, F. E. Valores econômicos para a seleção de gordura e proteína do leite. Rev. Bras. Zootec., v. 29, n. 3, p. 678-684, 2000.

MALHOTRA, N. Pesquisa de marketing: uma orientação aplicada. Trad. Laura Bocco. 4 ed. Porto Alegre: Bookman, 2006.

MINGOTI, S. A.; SILVA, A. F. Um exemplo de aplicação de técnicas de estatística multivariada na construção de índices de preços. Nova Economia, v. 7, n. 2, p. 203-212, 1997. SABOIA, J.; KUBRUSLY, L. Diferenciais regionais e setoriais na indústria brasileira. Econ. Aplic., v. 12, n. 1, p. 125-149, 2008.

SANTOS, J. H. S. et al. Distinção de grupos ecológicos de espécies florestais por meio de técnicas multivariadas. R. Árvore, v. 28, n. 3, p. 387-396, 2004.

TOLEDO, L. G.; NICOLELLA, G. Índice de qualidade de água em microbacia sob uso agrícola e urbano. Scientia Agricola, v. 59, n.1, p. 181-186, 2002.

TRONCO, V. M. Manual para inspeção da qualidade do leite. 3 ed. Santa Maria: Ed. da UFSM, 2008. 206 p.

Referências

Documentos relacionados

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

como Ester colocou o avental do despojamento para a penitência e depois vestiu as vestes reais para concretizar sua missão, também Maria, por estar sempre de avental em vista do

Este trabalho é resultado de uma pesquisa quantitativa sobre a audiência realizada em 1999 envolvendo professores e alunos do Núcleo de Pesquisa de Comunicação da Universidade

• Classificado para todas as operações de perfuração até 7500 PSI; • Dureza furo de 92-94 Rockwell; • Revestimento de superfície de: 4-8 RMS; • Classificações

Autoridade competente deverá criar um sistema de identificação das instalações mais sujeitas a riscos de acidentes. maiores/ampliados, baseado numa lista de substâncias perigosas

Dessa forma, o currículo proposto contempla em sua organização curricular conteúdos que revelam inter-relações com a realidade nacional e internacional, segundo uma

Diretor Geral: UBIRATAM MARTINS JUNIOR - CBAt 031 Nível I Coordenador de Competição: MARIA DA CONCEIÇÃO SILVA - CBAt 268 Nível I Coordenador Técnico: LINDOMAR TELES DE

● O sistema deverá apresentar os seguintes campos para impressão: número da licença, número do selo, data de emissão da licença, data de validade da licença, tipo da licença