Desempenho e escolha dos melhores modelos

4.4 Avaliação dos modelos

4.4.2 Desempenho e escolha dos melhores modelos

A avaliação de desempenho e seleção dos melhores modelos ocorreu para cada um dos cenários mencionados na seção 4.3.1.1. Os modelos tiveram seus atributos selecionados e medidas de avaliação analisadas, e a escolha do(s) melhor(es) ocorreu, principalmente, pela curva ROC.

5_{Validação de modelos de alerta da ferrugem do cafeeiro}

Este capítulo visou validar os modelos de Meira (2008) para dados que não foram utilizados em sua construção, ou seja, de novembro de 2006 em diante. O processo de validação ocorreu como um ciclo do processo KDD (Figura 14), onde a fase de avaliação foi a responsável por averiguar se ocorreu a validação. Vale lembrar que, em seu trabalho, Meira (2008) gerou modelos com dois softwares, sendo um deles o WEKA. Os modelos gerados com este software são considerados neste capítulo.

Os dados provenientes da estação nova, para a cidade de Varginha, foram coletados e tratados, de forma a se gerar o conjunto utilizado na validação. Estes dados estavam com o padrão de umidade relativa da respectiva estação e foram corrigidos para o padrão da estação antiga, como explicado na seção 4.1.4. O conjunto de dados foi separado nos quatro cenários utilizados por Meira (2008): carga alta e atributo meta 10 p.p.; carga alta e atributo meta 5 p.p.; carga baixa e atributo meta 10 p.p.; carga baixa e atributo meta 5 p.p. (Tabela 11). Cada um destes conjuntos conteve 122 registros.

Os modelos de Meira (2008) foram carregados no software WEKA e os conjuntos de dados citados anteriormente foram utilizados como conjunto de teste, por meio da opção “supplied test set” no software. Cada conjunto foi avaliado ao seu respectivo modelo, sendo que este procedimento foi feito por 12 vezes, uma vez para cada uma das quatro opções carga e atributo meta, e para 3 opções de modelagem (M1, M2 e M3). Os resultados estão expressos a seguir (Tabela 12 a Tabela 15), e foram baseados na matriz de confusão e nas medidas de avaliação citadas na seção 3.1.5. A regra para determinar se um modelo foi aceito é que este obtivesse uma taxa de acerto igual ou superior à obtida na sua construção (seção 4.4.1).

Os modelos de Meira (2008) para o cenário de carga alta e atributo meta 5 p.p. não foram aceitos (Tabela 12), afinal a taxa de acerto foi menor na avaliação do que na construção em todos os conjuntos (M1, M2 e M3). De maneira geral, ela caiu da faixa de 80% para a faixa de 60%, já as outras medidas de avaliação como sensitividade e especificidade também foram inferiores no conjunto de teste, mostrando, ainda mais, um desempenho inferior na fase de avaliação.

Tabela 12: Resultado da validação para os modelos de carga alta e taxa 5 p.p. Medidas de avaliação

M1 M2 M3

Avaliação Meira Avaliação Meira Avaliação Meira Taxa de acerto 62,3 80,8 65,6 81,9 60,7 81,8

Erro 37,7 19,2 34,4 18,1 39,3 18,2

Sensitividade 58,6 78,5 67,2 78,5 51,7 75,3

Especificidade 65,6 82,6 64,1 84,7 68,7 87,8

Os modelos de Meira (2008) para o cenário de carga alta e atributo meta 10 p.p. também não foram aceitos (Tabela 13), uma vez que a taxa de acerto foi menor na avaliação do que na construção para todos os conjuntos de dados. A diferença na taxa de acerto entre a fase de construção e avaliação foi maior para os conjuntos M1 e M3 do que para o conjunto M2, chegando à casa dos 5 p.p.. Este fato indicou uma perda de desempenho menor do que os demais conjuntos, fazendo com que este fosse o modelo mais próximo a ser aceito.

Os valores de especificidade na avaliação foram levemente superiores aos valores da construção em dois casos, M1 e M2, e inferior para o caso de M3. Nos modelos de Meira (2008), verificou-se valores baixos de sensitividade quando comparados à especificidade, e tal diferença foi mais acentuada quando submetidos à avaliação. Todos os valores de sensitividade foram inferiores em sua avaliação.

Tabela 13: Resultado da validação para os modelos de carga alta e taxa 10 p.p. Medidas de avaliação

M1 M2 M3

Avaliação Meira Avaliação Meira Avaliação Meira Taxa de acerto 69,7 78,7 71,3 76,4 71,3 79,2

Erro 30,3 21,3 28,7 23,6 28,7 20,8

Sensitividade 32,4 64,7 37,8 57,3 37,8 57,3

Analisando o cenário de carga baixa e atributo meta 5 p.p., houve um modelo que foi validado e dois que não foram aceitos (Tabela 14). O modelo que foi validado foi o gerado pelo conjunto M1, onde a taxa de acerto foi superior na fase de avaliação do que na fase de construção, mostrando que esse modelo manteve sua taxa de acerto para dados externos ao conjunto de treinamento. Já as taxas de acerto de M2 e M3 foram levemente inferiores para o caso de avaliação e, portanto, os modelos não foram considerados aceitos.

A especificidade foi inferior na fase de avaliação para todos os modelos, mesmo para o gerado por M1, que foi um modelo validado. A sensitividade deste modelo também foi inferior na fase de avaliação, já para o modelo gerado por M3, esta medida foi superior na avaliação do que na construção, mas não foi suficiente para validá-lo.

O valor de 25% para sensitividade na fase de avaliação do modelo gerado por M1 mostra que este modelo está classificando corretamente apenas um quarto dos exemplos positivos. Apesar de validado, este modelo teria um desempenho melhor caso sua sensitividade obtivesse valores maiores. Mesmo considerando o valor de sensitividade de sua construção (34,7%), quando este modelo é comparado aos modelos do capítulo 6, ele tem um desempenho muito inferior e não seria recomendado predizer o aumento da taxa de progresso da ferrugem do cafeeiro.

Tabela 14: Resultado da validação para os modelos de carga baixa e taxa 5 p.p.

Medidas de avaliação

M1 M2 M3

Avaliação Meira Avaliação Meira Avaliação Meira Taxa de acerto 70,5 70,3 68,8 72,1 68,8 69,2

Erro 29,5 29,7 31,1 27,9 31,1 30,8

Sensitividade 25,0 34,7 28,6 38,0 35,7 26,3

Analisando o cenário de carga baixa e atributo meta 10 p.p., houve apenas um modelo que não foi aceito, que foi o modelo gerado por M2 (Tabela 15). Os modelos gerados por M1 e M3 foram considerados validados, pois suas taxas de acerto foram superiores na fase de avaliação do que na fase de construção.

O modelo gerado por M1 obteve valor zero de sensitividade, o que mostrou que o modelo não classificou corretamente nenhum caso positivo de aumento da taxa de progresso. Neste caso, o que ocorreu foi que o modelo gerado por M1 classificou todos os casos do conjunto de teste como “não aumento da taxa de progresso”, não detectando nenhum caso de aumento da taxa de progresso. Neste caso, mesmo validado, este modelo não é recomendado para determinar a taxa de progresso da ferrugem do cafeeiro. Já o modelo gerado por M3 apresentou o mesmo problema do modelo M1 do cenário anterior, que foi o baixo valor de sensitividade, apenas 13,8%. Este modelo está classificando uma baixa porcentagem de exemplos positivos corretamente e quando este modelo é comparado aos modelos do capítulo 6, e pelo seu desempenho ele também não seria recomendado predizer o aumento da taxa de progresso da ferrugem do cafeeiro.

Como comentado anteriormente, neste trabalho e em Meira (2008), os modelos de carga baixa e atributo meta 10 p.p. não obtiveram um desempenho interessante para ser utilizado na predição da taxa de progresso da ferrugem do cafeeiro, dado seus baixos valores de sensitividade, e assim, mesmo validados, não devem ser utilizados.

Tabela 15: Resultado da validação para os modelos de carga baixa e taxa 10 p.p. Medidas de avaliação

M1 M2 M3

Avaliação Meira Avaliação Meira Avaliação Meira Taxa de acerto 89,6 86,8 85,2 86,3 87,7 86,2

Erro 10,7 13,2 14,7 13,7 12,3 13,8

Sensitividade 0,0 10,0 15,4 18,3 15,4 23,3

Considerações finais:

Verificou-se que dos 12 modelos desenvolvidos por Meira (2008), apenas 3 foram aceitos, todavia, a sua utilização não é recomendada, dado aos baixos valores de sensitividade tanto na sua construção quanto em sua avaliação. Essa situação evidenciou, ainda mais, a necessidade de uma nova indução de modelos de alerta para determinar a taxa de progresso do cafeeiro para dados mais recentes.

6_{Desenvolvimento de modelos de alerta}

Este capítulo trata da construção dos novos modelos de alerta. Foram desenvolvidos um total de 640 modelos, seguindo o proposto na seção 4.3, e estes modelos foram selecionados de acordo com o estabelecido na seção 4.4.2. A seção 6.1 é utilizada, como exemplo, para exibir alguns dos modelos de alerta desenvolvidos. Já os demais modelos são apresentados no apêndice A.

No documento Desenvolvimento e avaliação de modelos de alerta para a ferrugem do cafeeiro (páginas 91-97)

Desempenho e escolha dos melhores modelos

4.4 Avaliação dos modelos

4.4.2 Desempenho e escolha dos melhores modelos

5 Validação de modelos de alerta da ferrugem do cafeeiro

6 Desenvolvimento de modelos de alerta

5_{Validação de modelos de alerta da ferrugem do cafeeiro}

6_{Desenvolvimento de modelos de alerta}