ANALISE DE CLUSTER APLICADO EM SIMULAÇÕES UTILIZANDO MONTE CARLO PARA A ORIGEM DE CONFECÇÕES PRODUZIDAS NO AGRESTE PERNAMBUCANO

(1)

CARLO PARA A ORIGEM DE

CONFECÇÕES PRODUZIDAS NO

AGRESTE PERNAMBUCANO

Thayanne Freire Soares (ASCES-UNITA) thayanne-freire@hotmail.com Allana Nascimento Silva (ASCES-UNITA) allana-silva16@hotmail.com Mirthiele Karoline Cavalcante Lira (ASCES-UNITA) mirthy_lira@hotmail.com LUIZ JOSE RODRIGUES DOS SANTOS (ASCES-UNITA) luizsantos@asces.edu.br

Três cidades do agreste pernambucano são grandes produtores de confecções em geral e que produzem grandes quantidades calças Jeans. Nesse trabalho busca-se classificar as peças de calças Jeans de tamanho padrão 40 por suas localidades de produção através da análise multivariada - Análise de Cluster, simulando com o método Monte Carlo a quantidade de 300 peças com distribuições de probabilidades específicas para as variáveis quantitativas e qualitativas de cada cidade. Com o uso do Software R, foi possível aplicar a Análise de Cluster, com a distância Euclidiana e a distância de Mahalanobis.

(2)

2

Palavras-chave: Análise de Cluster, Monte Carlo, Produção, Jeans,

(3)

3

1. Introdução

É conhecido empiricamente e cientificamente que um determinado produto produzido em regiões diferentes pode apresentar variações na sua composição ou qualidade, possibilitando assim, distinguir a sua origem. Sendo assim, é proposto pesquisar se é possível distinguir peças de confecções semelhantes (mas propriamente do tipo calça jeans) produzidas nos três principais polos do agreste pernambucano (Caruaru, Santa Cruz do Capibaribe e Toritama), bem como indicar um perfil regional para as confecções. Neste trabalho inicial nesse tema serão realizadas simulações computacionais via Monte Carlo para representar algumas medidas específicas das peças, e também simular medidas de qualidade.

Em seguida aplicar-se-á a Análise de Cluster, uma análise multivariada, por ser um método estatístico robusto que fornece distinção de grupos de maneira simples com o auxílio do software estatístico R.

2. Revisão da literatura

Originalmente o jeans é uma combinação entre o tecido denim e corante índigo. O denim surgiu por volta de 1567 na França sendo que em 1853 foi unido com o algodão por Levi Strauss e tornando-se o blue jeans, um dos vestuários mais utilizados no mundo nos dias de hoje (DUARTE, 2014).

2.1. Confecções tipo calça jeans

Segundo o IBOPE cerca de 46% dos brasileiros usam a peça diariamente. No século XIX, o jeans tornou-se bastante utilizado como vestimento dos marinheiros genoveses e mineradores americanos, visto sua resistência comparada aos demais tecidos. Após anos de desenvolvimento e melhoramento, as calças jeans, duráveis e confortáveis, foram substituindo as calças de lona, sendo um traje obrigatório entre os mineradores norte-americanos, seguida também pelos cowboys e lenhadores (DUARTE, 2014). Só em 1970 foi que o jeans começou a ganhar espaço no Brasil, devido a grande utilização pela juventude (CATOIRA, 2006) (GIROLETTI, 1991).

(4)

4 O nosso país produziu, em 2010, mais de 320 milhões de peças em jeans wear, incluindo jaquetas, camisas, vestidos, calças, bermudas e macacões (DUARTE, 2014).

2.2 Análise multivariada

A análise multivariada é uma área de grande abrangência na estatística que visa estudar o comportamento de determinados fenômenos através de medições de múltiplas variáveis independentes que podem ser quantitativas ou qualitativas (EVERITT, 2005).

No estudo de p ≥ 1 variáveis, toma-se n observações de cada uma das variáveis para obtermos as informações sobre parâmetros, correlações entre variáveis, comparações, etc. Sendo assim,

as medidas anotadas são com (observações) e (variáveis)

que podem ser agrupadas numa matriz de dados , com n linhas e p colunas

(1)

A matriz de dados contém n observações do vetor aleatório p-dimensional .

Através da estatística descritiva podemos extrair informações na matriz de dados. Entre tais, temos o , valor esperado amostral (média), matriz de covariância amostral S e matriz de correlação amostral R.

Na estatística multivariada podemos definir duas distancias: - Distância Euclidiana

- Distância de Mahalanobis

A distância Euclidiana é a mais conhecida pois ela é definida como a raiz quadrada da soma

(5)

5 (2)

Contudo, a distância Euclidiana não satisfaz várias propostas estatísticas porque no cálculo da distância, cada coordenada contribui de forma igual, ou seja, tem o mesmo peso.

A distância de Mahalanobis é bastante utilizada na estatística multivariada (EVERITT; DUNN, 2001) (EVERITT, 2005), onde se leva em conta os padrões de covariância que pode

existir nos dados. A expressão para a distância de Mahalanobis entre os pontos e ,

considerando que S é a matriz de covariância correspondente a matriz de dados X ficando então,

(3)

2.3 Análise de cluster

O objetivo da análise de agrupamento ou análise de classes ou na língua inglesa Cluster

Analysis é procurar solucionar o seguinte problema: dada uma amostra de n objetos, cada um

dos quais caracterizados por p variáveis, devemos desenvolver um critério para se classificar os objetos que possuam características semelhantes na mesma classe. O método é para variáveis quantitativas e o número de classes é desconhecido (VALLI, 2002).

Outra forma de representar graficamente os resultados de uma análise de cluster é através da árvore hierárquica. A árvore hierárquica ou também chamado de dendograma é um diagrama bidimensional onde é possível visualizar as classes em que está cada amostra (EVERITT, 2005). Veja a figura 01 abaixo:

(6)

6

Como vimos na Figura 01, os dados estão visualmente agrupados em três classes, onde para determinar em que classe cada amostra deve estar, precisaremos medir a maior e menor distância entre o centro de cada grupo em relação à amostra. Se A e B São duas classes, então as distâncias são dadas por,

(4)

(5) Onde é a distância entre os dois clusters A e B, e é a distância individual i e j que pode ser dado tanto pela distância euclidiana como a de Mahalanobis (EVERITT; DUNN, 2001). Outra forma de se calcular a distância entre os clusters ou também chamada dissimilaridade.

(6)

Onde e são os números de indivíduos nos clusters A e B.

2.4. Método monte carlo

(7)

7 O primeiro trabalho na literatura usando Monte Carlo surgiu em 1940 por Jon Von Neuman e S. M Ulam onde foi utilizada para resolver certos problemas na difusão de nêutrons, no projeto da bomba de hidrogênio nos EUA (GOLDSMAN; NANCE; WILSON, 2009).

O chamado Método de Monte Carlo (MMC) consiste nas seguintes etapas:

- Determinar uma pseudo-população que busca simular a população de interesse; - Aplicar uma técnica de amostragem para obter os dados da pseudo-população; - Calcular o valor da estatística (média, desvio-padrão,...) e armazenar;

- Repetir as etapas duas etapas anteriores M vezes.

- Usar os M valores obtidos na etapa anterior para estudar o comportamento da distribuição da estatística.

Com o avanço computacional foi possível criar algoritmos que usem Monte Carlo por um tempo bem amplo resolvendo assim problemas complexos.

5. Metodologia

Este trabalho é de cunho experimental e quantitativo. Possui caráter descritivo-exploratório por buscar analisar o objeto de estudo com base em hipóteses levantadas a partir de métodos estatísticos, ou seja, verificar a possível classificação em grupos.

Foram simuladas as variáveis de 300 calças de tamanho padrão 40, sorteando pelo método Monte Carlo a localidade da confecção da peça e as medidas quantitativas (cintura, perna, cós e boca) e qualitativas (qualidade da costura, corte, alinhamento, acessórios e tecido).

As medidas qualitativas são definidas por notas variando de 1 à 5, onde 1 significa calça com qualidade baixa e 5 calça com qualidade excelente. As variáveis quantitativas ganharam distribuição normal característico para cada localidade, não muito diferente dos padrões para uma calça de tamanho 40 (cintura=40±2 cm, perna=112±2 cm, cós=23±0.5 cm e boca=23±0.5 cm). Os desvios padrões também foram diferentes por localidade para representar a qualidade da região, variando entre 0,1 e 1,0.

(8)

8 Através da Análise de Cluster, será verificada a existência de correlação entre a qualidade e localidade onde são confeccionadas as calças, utilizando o software estatístico R. Também foi comparado a forma da distribuição de frequência (histograma) de cada variável sem saber a procedência de cada peça. Por fim foi criado os Dendogramas Euclidiano e Mahalanobiano.

6. Resultados

Na tabela 01 é apresentado uma parte dos dados simulados no programa desenvolvido em linguagem de programação C para cada variável.

Calça Cidade N.

Cidade Cintura Perna Cós Boca

Qual. Costura Qual. Corte Qual. Alinhamento Qual. Acessórios Qual. Tecido 0 Caruaru 1 41,4557 112,5815 24,6111 22,867 2 2 2 4 4 1 StaCruz 3 39,1799 112,3801 22,6062 22,923 4 3 4 2 3 2 Toritama 2 39,8427 111,5028 23,1125 23,0381 4 4 4 4 2 3 Toritama 2 40,0668 112,3592 22,5811 23,2889 4 5 5 4 4 4 Toritama 2 40,1547 111,8055 22,75 23,0368 4 3 4 4 4 5 Caruaru 1 41,536 113,367 23,157 24,1497 2 4 4 1 5

Abaixo os histogramas das variáveis quantitativas:

Tabela 01: Tabela de dados simulados

Fonte: Autores

Figura 02: Histogramas das variáveis quantitativas

(9)

9 Fazendo os dendograma para as distâncias Euclidiana e Mahalanobis:

Fonte: Autores

Figura 03: Comparação das medidas Euclidiana e Mahalanobis

(10)

10

7. Considerações finais

É visto então que é possível classificar por agrupamento as confecções (jeans) em relação a suas qualidades, medidas quantitativas e suas localidades de produção (figs 04 e 05). Tendo em vista que os dados analisados são simulações, geradas em computador, dado uma

Figura 04: Dendograma com classificação em 3 grupos com a distância Euclidiana

Fonte: Autores

Figura 05: Dendograma com classificação em 3 grupos com a distância Mahalanobis

(11)

11 distribuição de medida conhecida, ainda não poderíamos afirmar que as medidas simuladas são categoricamente iguais as medidas reais.

A Análise de Cluster classificou as peças simuladas em 3 grupos onde vemos que a precisão inicial ficou em torno de 55,5%. Também que as distribuições geradas pela distância de Mahalanobis sofre influência das medidas e das quantidades de dados gerados.

Em geral será preciso fazer medidas com peças reais, analisar e comparar os resultados encontrados para refinar a simulação bem como as técnicas de análise para a natureza desse tipo de dado.

8. Agradecimentos

Agradecimentos a todos os professores do Curso de Engenharia de Produção do Centro Universitário Tabosa de Almeida – ASCES-UNITA, em especial ao professor Msc. Luiz José Rodrigues dos Santos, bem como essa IES que apoia toda a pesquisa em geral.

REFERÊNCIAS

CATOIRA, L. Jeans, a roupa que transcende a moda. Aparecida-SP: Idéias & Letras, 2006. p. 131.

DUARTE, L. D. S. Design de Jeans para Sustentabilidade: Aplicação de Ferramentas de Redução de Impacto Ambiental para Análise do Jeans Com Pet Reciclado. IARA - Revista De Moda, Cultura e Arte, 2014. 84-112. EVERITT, B. An R and S-PLUS companion to multivariate analysis. London: Springer, 2005.

EVERITT, B. S.; DUNN, G. Applied Multivariate Data Analysis (2nd ed.). London: Arnold, 2001. GIROLETTI, D. Fábrica convento disciplina. Belo Horizonte: Imprensa Oficial, 1991. 274 p.

GOLDSMAN, D.; NANCE, R. E.; WILSON, J. R. A brief history of simulation from 1777 to 1981. Proceedings of the 2009 Winter Simulation Conference. Austin: [s.n.]. 2009. p. 310-322.

MARDIA, K. V.; DRYDEN, I. L. The statistical analysis of shape data. Biometrika, p. 71-282, 1989. MARDIA, K. V.; KENT, J. T.; BIBBY, J. M. Multivariate Analysis. London: Academic Press, 1979. PEZOLLO, D. B. Tecidos: história, tramas, tipos e usos. Editora Senac São Paulo, São Paulo, 2007. p. 324, . VALLI, M. Análise de Cluster. Augusto Guzzo. Revista Acadêmica, São Paulo, 2002.