E.2 Árvore de decisão para classificação do atributo CV de Massa
5.3 Base de dados utilizada para os experimentos
5.3.3 Dados relativos aos testes de produto acabado
Buscando enriquecer a representação dos testes dos produtos, melhorando conseqüentemente a qua-lidade na mineração de dados, foram agregadas informações relativas à máquina onde o produto foi produzido, onde acredita-se que pode haver influência no resultado dos testes.
Foi definida uma estrutura de dados para representar os testes dos produtos composta de 6 entidades, descritas na Tabela 5.6:
Entidade Descrição
PRODUTOS Produto final da indústria de fiação, que é ven-dido aos clientes.
PARAMETROS Características dos produtos, que serão avali-adas nos testes.
TESTES_PRODUTOS Instâncias dos testes feitos nos produtos, ava-liando as características ou parâmetros.
MAQUINAS Máquinas que produzem os produtos.
GRUPOS_MAQUINAS Classificadores ou agrupadores de máquinas. TESTE_MAQ_PARAM Resultados dos testes feitos nos produtos.
Tabela 5.6: Entidades para modelagem dos Testes de Produtos
Serão descritas agora as 6 tabelas relativas aos dados dos testes de produtos:
Tabela PRODUTOS
A tabela 5.7 contem uma descrição da tabela PRODUTOS.
Atributo Descrição Tipo
ID_PRODUTO Identificação serial do produto INTEGER
DESCRICAO Descrição do produto VARCHAR(40)
PRODUTO_PROCESSO Diz se o produto segue o
processo CONVENCIONAL ou OPEN-END
VARCHAR(30)
PRODUTO_TIPO Diz se o produto é PENTADO
ou CARDADO, que são varia-ções fabris
VARCHAR(30)
PRODUTO_TITULO Especifica o título do produto DECIMAL(10,3)
Tabela 5.7: Tabela "PRODUTOS" e seus atributos Quantidade de registros: 397
Tabela PARAMETROS
A tabela 5.8 contem uma descrição da tabela PARAMETROS.
Atributo Descrição Tipo
ID_PARAMETRO Identificação serial do parâmetro INTEGER
DESCRICAO Descrição do parâmetro VARCHAR(30)
Tabela 5.8: Tabela "PARAMETROS" e seus atributos Quantidade de registros: 126
Tabela TESTES_PRODUTOS
A tabela 5.9 contem uma descrição da tabela TESTES_PRODUTOS, que possui o cabeçalho das instâncias de cada teste realizado.
Atributo Descrição Tipo
ID_TESTE Identificação serial da instância
do teste
INTEGER MISTURAS_ID_MISTURA Identificação serial da mistura
testada na instância do teste
INTEGER PRODUTOS_ID_PRODUTO Identificação serial do produto
testado na instância do teste
INTEGER
Tabela 5.9: Tabela "TESTES_PRODUTOS" e seus atributos Quantidade de registros: 34.109
Tabela MAQUINAS
A tabela 5.10 contém uma descrição da tabela MAQUINAS, que possui as máquinas onde foram produzidos os fios testados.
Atributo Descrição Tipo
ID_MAQUINA Identificação serial da
máquina que produziu o fio testado
INTEGER
GRUPOS_MAQUINAS_ID_GRUPO_MAQUINA Identificação serial do
grupo de máquinas a que pertence a máquina
INTEGER
PARTES Quantidade de partes
pro-dutivas da máquina
INTEGER
Tabela 5.10: Tabela "MAQUINAS" e seus atributos Quantidade de registros: 636
Tabela GRUPOS_MAQUINAS
A tabela 5.11 contém uma descrição da tabela GRUPOS_MAQUINAS, que possui uma classifica-ção, ou agrupamento, das máquinas onde foram produzidos os fios testados.
Atributo Descrição Tipo
ID_GRUPO_MAQUINA Identificação serial do grupo de máquinas a que pertence a má-quina
INTEGER
DESCRICAO Descrição do grupo de máquinas VARCHAR(40)
Quantidade de registros: 81
Tabela TESTE_MAQ_PARAM
A tabela 5.12 contém uma descrição da tabela TESTE_MAQ_PARAM, que possui os resultados dos testes realizados nos produtos acabados.
Atributo Descrição Tipo
MAQUINAS_ID_MAQUINA Identificação serial da máquina
que produziu o fio testado
INTEGER PARAMETROS_ID_PARAMETRO Identificação serial do parâmetro
testado
INTEGER TESTES_PRODUTOS_ID_TESTE Identificação serial da instância
do teste
INTEGER
VALOR Resultado do teste DECIMAL(10,3)
PARTE Número da parte produtiva da
máquina que produziu o fio tes-tado
INTEGER
Tabela 5.12: Tabela "TESTE_MAQ_PARAM" e seus atributos Quantidade de registros: 245.678
5.4 Conclusão
Na primeira seção, foi apresentada a seleção de dados, explicando melhor a divisão em dados em algodão, mistura de algodão e testes do produto acabado. Foram apresentados quais testes, ou atribu-tos do algodão, serão avaliados nos experimenatribu-tos e porque foram selecionados. Na segunda seção foi apresentada a montagem da base de dados, partindo com todas as sentenças em SQL disparadas contra o banco de dados corporativo da TBM, geração de arquivos texto separados por vírgula, que serão usados para importação dos dados no banco de dados do projeto, em MySQL. Segue-se com todas as sentenças de criação das tabelas no banco de dados do projeto, e sentenças de importação dos arquivos texto para o banco de dados MySQL. Ao final foi apresentado descritivo da base de dados final do projeto, todas as tabelas, atributos e relações.
6 MODELAGEM E AVALIAÇÃO
Este capítulo apresenta a modelagem dos fluxos de mineração de dados e os experimentos realizados. Inicia-se com uma argumentação sobre a seleção das técnicas de mineração de dados, seguindo com os experimentos com redes neurais e árvores de decisão. Ao final são apresentados os resultados obtidos e uma aplicação simples de exemplo de uso.
6.1 Seleção das Técnicas de Modelagem
Para o desenvolvimento do presente trabalho, foram selecionadas duas técnicas de mineração de dados: Redes Neurais e Árvores de Decisão.
Os motivos para a seleção da rede neural como ferramenta de trabalho, nesta classe de problema, estão de alguma forma dispersos por todos os artigos apresentados, porém se fazer necessário um resumo, uma condensação dos motivos, que são apresentados a seguir.
Como pode ser observado em vários artigos apresentados na seção dedicada a trabalhos relacio-nados, as redes neurais vem sendo utilizadas com sucesso crescente como ferramenta de predição da qualidade dos fios, baseando-se nas características do algodão como principal variável de entrada.
As principais razões para a utilização de redes neurais neste tipo de problema são:
• Sistemas de redes neurais são aproximadores universais (HORNIK; STINCHCOMBE; WHITE, 1989 apud BELTRAN; WANG; WANG, 2004).
• O processo têxtil de fiação é complexo e difícil de ser modelado matematicamente ou estatistica-mente. Sempre, neste caso, tendo-se de recorrer a simplificações que influenciam negativamente o modelo.
• Ainda conforme os trabalhos relacionados apresentados, no processo têxtil, a relação entre os atributos da matéria-prima e as características de qualidade dos fios apresentam elementos de não-linearidade, sendo a rede neural boa ferramenta nesta classe de problema.
• A popularização dos computadores pessoais, de relativamente alto poder computacional, propor-cionam facilidades na criação e treinamento das redes neurais.
• A disponibilidade de diversos aplicativos de redes neurais no mercado, que implementam os me-lhores algoritmos, com utilização simplificada.
• As empresas normalmente possuem uma massa de dados significativa, que bem trabalhada, pode ser utilizada em sistemas de redes neurais.
A técnica Árvores de Decisão foi selecionada para o presente trabalho, pelos seguintes motivos:
• As regras geradas são fáceis de entender e interpretar pelo usuário não especializado em Tecnologia da Informação.
• Árvores de Decisão trabalham com dados discretos e a discretização da qualidade do atributo do fio, através da Estatística Uster, é uma forma útil e corrente de classificação.
• Conforme Mitchell (MITCHELL, 1997), árvores de decisão são robustas mesmo com dados in-corretos, o que pode ocorrer nas mensurações sobre algodão pela própria característica diversa de uma fibra natural.