• Nenhum resultado encontrado

Predição de ranqueamento de lotes de sementes de milho por inteligência artificial

N/A
N/A
Protected

Academic year: 2021

Share "Predição de ranqueamento de lotes de sementes de milho por inteligência artificial"

Copied!
30
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DE PELOTAS Faculdade De Agronomia Eliseu Maciel

Programa de Pós-Graduação em Ciência e Tecnologia de Sementes

DISSERTAÇÃO

PREDIÇÃO DE RANQUEAMENTO DE LOTES DE SEMENTES DE MILHO POR INTELIGÊNCIA ARTIFICIAL

Nicacia Andrade Borges Moraes

(2)

Nicacia Andrade Borges Moraes

PREDIÇÃO DE RANQUEAMENTO DE LOTES DE SEMENTES DE MILHO POR INTELIGÊNCIA ARTIFICIAL

Dissertação apresentada ao Programa de Pós-Graduação em Ciência e Tecnologia de Sementes da Universidade Federal de Pelotas, como requisito parcial à obtenção do título de Mestre em Ciência e Tecnologia de Sementes.

Orientadora: Drª Gizele Ingrid Gadotti

(3)
(4)

Nicacia Andrade Borges Moraes

PREDIÇÃO DE RANQUEAMENTO DE LOTES DE SEMENTES DE MILHO POR INTELIGÊNCIA ARTIFICIAL

Dissertação aprovada, como requisito parcial, para obtenção do grau de Mestre em Ciência e Tecnologia de Sementes, Programa de Pós-Graduação em Ciência e Tecnologia de Sementes, Faculdade de Agronomia Eliseu Maciel, Universidade Federal de Pelotas.

Data da Defesa: 11/05/2020

Banca examinadora:

Profa. Dra. Gizele Ingrid Gadotti (Orientadora)

Doutora em Ciências pela Universidade Federal de Pelotas

Dr. Geri Eduardo Meneghello

Doutor em Ciências pela Universidade Federal de Pelotas

Dr. Francisco Amaral Villela

Doutor em Fitotecnia pela Universidade de São Paulo

Dr. Nevio Henrique Pasin

(5)

Dedico este trabalho, às minhas filhas Cecília e Olívia, minha inspiração.

(6)

Agradecimentos

À Deus por ter criado os caminhos, colocado pessoas muito especiais nele e ter me dado forças para superar todos os obstáculos e dificuldades.

A Universidade Federal de Pelotas e a Faculdade de Agronomia Eliseu Maciel, pela oportunidade da realização deste curso de Mestrado Profissional.

Ao meu pai e à minha mãe, por sempre acreditarem e se orgulharem de mim, por todo amor e por cuidarem tão bem da Cecília nos períodos que me ausentei, o que me deu tranquilidade para alcançar meus objetivos.

À minha filha Cecília por entender as minhas ausências, mesmo sendo uma criança, para que eu pudesse chegar onde cheguei e por sempre me esperar com o melhor abraço.

Aos meus irmãos, cunhadas e sobrinhos por acreditarem e torcerem por mim sempre.

Ao meu esposo Douglas, pelo suporte dado nos momentos que precisei.

A minha chefe, amiga e companheira Monica Garcia por ter sido parceira e incentivadora em todas as horas e ter tornado esses períodos de estudos bem mais leve.

A minha orientadora, Dra. Gizele Ingrid Gadotti, não tenho palavras para expressar minha gratidão, obrigada por todo ensinamento e suporte dado para que fosse possível concluir este trabalho.

A todos os professores por compartilharem seus conhecimentos.

(7)

Nenhum obstáculo será tão grande se tua vontade de vencer for maior.

(8)

Resumo

MORAES, Nicacia Andrade Borges. PREDIÇÃO DE RANQUEAMENTO DE LOTES DE SEMENTES DE MILHO POR INTELIGÊNCIA ARTIFICIAL. 2020, 29f. Dissertação de Mestrado em Ciências – Programa de Pós-Graduação em Ciência e Tecnologia de Sementes. Universidade Federal de Pelotas, Pelotas/RS.

No setor sementeiro há vários desafios na tomada de decisão rápida e precisa quando se trabalha com expressiva quantidade de lotes de sementes, sendo que a manipulação manual se torna quase impossível. A reinvenção da agricultura vem com inteligência artificial (IA), principalmente no setor de qualidade. O objetivo deste trabalho é utilizar o aprendizado de máquinas para a classificação de lotes de sementes de milho. Foram utilizados dados provenientes de uma empresa produtora de sementes de milho, sendo os atributos oito safras. Os classificadores utilizados foram J48, RandomForest, CVR, lBk, MLP e NäiveBayes. Foi utilizada a validação cruzada, no qual dividiu-se o conjunto de dados, treinamento e teste, em 10 subconjuntos. As etapas descritas foram realizadas no software Weka. A técnica de mineração de dados mais precisa foi predição e classificação (100%) e não a técnica de associação com somente 70,35% de acurácia. É possível classificar lotes de sementes de milho com grande acurácia e precisão através de inteligência artificial e sua técnica de aprendizado de máquina. A inteligência artificial permitirá automatizar processos na empresa e aumentar a velocidade de conclusão de tarefas.

(9)

Abstract

MORAES, Nicacia Andrade Borges. PREDICTION OF RANKING OF LOTS OF CORN SEEDS BY ARTIFICIAL INTELLIGENCE. 2020, 29f. Master's Dissertation in Science. Postgraduate Program in Seed Science and Technology. Federal University of Pelotas, Pelotas/RS.

In the seed sector there are several challenges in making quick and accurate decisions when working with huge quantities of seed lots, with manual handling becoming almost impossible. The reinvention of agriculture comes with artificial intelligence (AI), mainly in the quality sector. The objective of this work is to use machine learning to classify corn seed lots. Data from a corn seed company were used, with the attributes being eight harvests. The classifiers used were J48, RandomForest, CVR, lBk, MLP and NäiveBayes. Cross validation was used, in which the data set, training and testing, was divided into 10 subsets. The steps described were performed using the Weka software. The most accurate data mining technique was prediction and classification (100%) and not the association technique with only 70.35% accuracy. It is possible to classify lots of corn seeds with great accuracy and precision through artificial intelligence and its machine learning technique. Artificial intelligence will allow you to automate processes in the company and increase the speed of completing tasks.

(10)

Sumário

Introdução ... 11

Revisão de literatura ... 12

1. Escolha de lotes de sementes para comercialização ... 12

2.Exigências legais de lotes de sementes ... 13

3.Métodos de Análise de Sementes ... 13

4.Inteligência artificial aplicado à agricultura: visão computacional na área sementeira... 16

5.Técnicas de mineração de dados ... 17

5.1.Classificação ... 17 5.2. Agrupamento ... 18 5.3. Regras de associação ... 18 5.4. Trabalhos relacionados ... 19 Material e Métodos ... 19 Resultados e Discussão ... 21 Conclusão ... 26 Referências ... 26

(11)

11

Introdução

A modernidade no campo se faz necessária não só pelo uso da tecnologia, como também para se obter respostas rápidas e eficientes, no qual a demora na execução de trabalhos manuais, sendo os mesmos lentos e menos precisos. Além da aplicabilidade da inteligência artificial e do aprendizado de máquina se torna essencial para o desenvolvimento sustentável no setor agrícola. Com isso, vários estudos têm sido focados em bases de dados a fim de facilitar o melhor entendimento de modelos de inteligência artificial, em diferentes setores da agricultura para fins de facilitar e otimizar recursos.

Como por exemplo, o interesse no desenvolvimento de tecnologias apropriadas, capazes de melhorar as informações sobre a produção agrícola, como aquelas obtidas no teste de avaliação da qualidade de sementes pelo teste de germinação, tem sido um tópico central. De acordo com DellAquila (2009), a maioria das abordagens de manejo de sementes fornecem metodologias de diagnóstico altamente automatizadas e assistidas por computadores. Nessas são determinados marcadores de qualidade fisiológica das sementes, que incluem classificação do tamanho das sementes, avaliação do espaço de cores da superfície das sementes por análise de imagem, espectrometria assistidas por computador, inspeção não letal por raios X combinada com imagem quantitativa e a detecção do sinal de fluorescência da clorofila amplificado por tecnologia laser.

Para o setor sementeiro, ainda se encontram vários desafios na tomada de decisão rápida e precisa quando se trabalha com significativa quantidade de lotes de sementes, sendo que a manipulação manual se torna quase impossível. O ranqueamento de lotes de sementes para comercialização de uma empresa é fundamental no quesito da rapidez de despacho de lotes para os produtores, porém é necessário informar a qualidade desses lotes. Além disso, uma abordagem entre a produção de grãos que desempenha um papel importante na economia global. Nesse sentido, a demanda por métodos eficientes e seguros de produção de alimentos está aumentando. A tecnologia da informação é uma das ferramentas para tal fim (PATRÍCIO; RIEDER, 2018).

Durante o controle de qualidade de lotes de sementes, os requisitos mínimos serão as exigências legais, proveniente dos resultados de testes que

(12)

12

realizam a análise de sementes. Isso gera uma quantidade substancial de informações, que dependendo do porte da empresa somente em uma safra agrícola poderá ter milhares de dados. Por exemplo, uma empresa que trabalha com um portfólio de 20 cultivares, somente cumprida a exigência legal de um lote certificado C1 terá que cumprir oito requisitos mínimos dos quais serão multiplicados pelo número de lotes de cada cultivar, afora os requisitos de qualidade interna da empresa e as análises temporais de armazenamento de cada lote.

Assim, em grandes produtores de sementes se faz necessário um profissional que analise esses dados e classifique esses lotes para que o pessoal de vendas possa trabalhar e a posteriori o pessoal da expedição. Geralmente, devido ao fato de sua responsabilidade ser grande, pois um erro pode fazer a empresa perder seu prestígio e ainda ter um prejuízo financeiro, esse tem um cargo e salário mais alto e altamente especializado.

A agricultura tornou-se muito mais do que simplesmente um meio de alimentar populações cada vez maiores. As plantas se tornaram uma importante fonte de energia (alimento) e são uma peça fundamental no quebra-cabeça para resolver o problema do aquecimento global (BARBEDO, 2013). E com base em novas técnicas, muitas não destrutivas em avaliar as características fisiológicas de sementes satisfazendo a demanda dos agricultores, as indústrias de sementes e bancos de germoplasma focados principalmente na produção e armazenamento de sementes de alta qualidade sob os padrões de uma agricultura sustentável e de precisão (DELLAQUILA, 2009).

Nesse contexto, o objetivo deste trabalho foi utilizar o aprendizado de máquinas para a classificação de lotes de sementes de milho.

Revisão de literatura

1.Escolha de lotes de sementes para comercialização

Rotineiramente as empresas produtoras de sementes têm utilizado testes de vigor associado ao de germinação como ferramenta do controle interno de qualidade, a fim de estimar o potencial de desempenho em campo, quer seja em condições favoráveis como adversas. A partir destes resultados são tomadas decisões de comercialização ou descarte dos lotes de sementes, que por vezes

(13)

13

chega a ser numericamente elevado (GRZYBOWSKI, VIEIRA e PANOBIANCO, 2015).

Germinação e vigor são os principais fatores fisiológicos que os agricultores levam em consideração no momento da escolha da semente de milho (MAGALHÃES NETO, et al., 2018). Assim, considerando-se o tamanho máximo de lotes de sementes de milho (40 toneladas) e que a produção nacional na safra 2018/19 foi de 562.955 mil toneladas (ABRASEM, 2019), o número de lotes comercializados seria de, aproximadamente, 12.510 nesta safra. Desse modo, é necessário tomar decisões assertivas sobre a qualidade e destino dessas sementes, tendo em vista a comercialização e rentabilidade para o produtor. Este trabalho é moroso e despende um alto nível de atenção e cuidado dos profissionais que o realizam. Assim, uma ferramenta que realize previamente esse trabalho e o gestor somente a considere correta ou não traria celeridade e maior assertividade a essas decisões.

2. Exigências legais de lotes de sementes

As exigências legais para a comercialização de um lote de sementes estão descritos na Instrução Normativa nº 45 de 17 de setembro de 2013, do Ministério da Agricultura, Pecuária e Abastecimento do Brasil, aqui considerada a categoria, mais vendida nesta espécie, Certificada C1 e assim definem a pureza física mínima 98%; germinação mínima 85%; outras espécies cultivadas 0,1%; número de sementes de outra espécie cultivada uma (1) unidade; número de sementes silvestres, nocivas toleradas e nociva proibida zero (0) unidades (sendo que no milho devido sua forma de produção e colheita esses atributos podem ser desconsiderados pois não ocorrem) e sementes infestadas de 3%.

3. Métodos de análises de sementes

Para checar a qualidade de um lote, Lopes & Nascimento (2009) descrevem que foi idealizada a análise de sementes, sendo continuamente aperfeiçoada, com a finalidade de fornecer informações sobre a qualidade das sementes a serem usadas para fins de semeadura, procurando-se assim,

(14)

14

minimizar alguns riscos a que estão sujeitas na agricultura. As análises que podem ser realizadas em lotes de sementes e descritas pelo Ministério da Agricultura, Pecuária e Abastecimento do Brasil, através das Regras para Análise de Sementes (RAS) são o teste de germinação (único padronizado e como descrito anterior, legalmente exigido), testes de vigor, pureza física, entre outros.

A germinação é um fenômeno biológico considerado pelos botânicos como a retomada do crescimento do embrião, com o subsequente rompimento do da cobertura protetora pela radícula. Mas para os tecnologistas de sementes, a germinação é definida como a emergência e o desenvolvimento das estruturas essenciais do embrião, manifestando a sua capacidade para dar origem a uma plântula normal, sob condições ambientais favoráveis (NASSIF, VIEIRA & FERNANDES, 1998).

O vigor de sementes compreende a expressão de um conjunto de processos fisiológicos, que são organizados por mecanismos de sinalização celular, envolvendo alocação, hidrólise e translocação de assimilados para o embrião, podendo ser determinado pela avaliação da capacidade de reorganização de membranas celulares, que expressa os processos envolvidos na retomada do crescimento, como associação de mecanismos enzimáticos, quantificação de compostos de reserva, podendo ser estimado pelo teste de emergência de plântulas (DELARMELINO, 2012).

Os tecnologistas de sementes e pesquisadores há muito tempo percebem que o teste de germinação apresenta sérias limitações como uma medida do valor das sementes para o campo, e que já há disponíveis testes eficientes para avaliar o vigor de sementes, e que eles poderiam ser totalmente explorados para dar aos agricultores informações adicionais valiosas sobre a qualidade das sementes disponíveis/oferecidas para semeadura (DELOUCHE, 2002).

Assim, a avaliação da qualidade fisiológica de sementes é rotineiramente utilizada para determinar o desempenho de cultivares e lotes, sendo a mensuração deste conjunto de parâmetros, avaliada pela associação entre viabilidade e vigor (DELARMELINO, 2012).

O teste de germinação é o procedimento oficial para avaliação da capacidade das sementes produzirem plântulas normais em condições ideais,

(15)

15

mas nem sempre indica diferenças de desempenho entre lotes de sementes durante o armazenamento ou em campo (CARVALHO & NAKAGAWA, 2000).

Vigor de sementes é a soma daquelas propriedades que determinam o nível potencial de atividade e desempenho de uma semente ou de um lote de sementes durante a germinação e a emergência da plântula” (ISTA, 1981). A AOSA diz que “Vigor de sementes compreende aquelas propriedades que determinam o potencial para emergência rápida e uniforme e para o desenvolvimento de plântulas normais sob uma ampla faixa de condições ambientais” (AOSA, 1983).O teste de frio em sementes foi inicialmente desenvolvido para avaliar o efeito do tratamento de sementes com fungicidas, mas, com o tempo, passou-se a empregá-lo para avaliar o vigor de sementes de milho (BARROS et al., 1999; GRZYBOWSKI; VIEIRA; PANOBIANCO, 2015). A partir de então, o teste de frio passou a ser amplamente utilizado na avaliação do vigor. Entretanto, devido às diferentes metodologias adotadas pelos laboratórios para a condução do teste na análise de rotina, é possível obter diferenças nos resultados entre laboratórios, reduzindo a eficiência dos mesmos (NIJENSTEIN; KRUSE, 2000).

A tecnologia de sementes tem procurado, como segmento do processo de produção, aprimorar os testes usados para avaliar o potencial fisiológico (germinação e vigor) das mesmas, com o objetivo de que os resultados expressem o potencial de desempenho do lote de sementes sob condições de campo. Metodologias e testes de vigor, utilizados no Brasil, em pesquisa e trabalhos de rotina foram relatados por VIEIRA et al. (1994). Dentre estes, encontram-se os testes baseados no desempenho de plântulas, os de estresse (envelhecimento acelerado, de frio, de deterioração controlada, e germinação à baixa temperatura) e os bioquímicos (condutividade elétrica e teste de tetrazólio) (VIEIRA & KRZYZANOWSKI, 1999).

Na condução de estudos com testes de vigor de sementes é importante que os lotes utilizados tenham qualidade fisiológica semelhante e sejam comercialmente aceitos, uma vez que o principal objetivo destes testes é complementar os resultados do teste de germinação, identificando diferenças de qualidade entre lotes com o potencial de germinação similar (MARCOS FILHO, 2005).

(16)

16

4. Inteligência artificial aplicado à agricultura: visão computacional na área sementeira.

Inteligência Artificial (IA) é a capacidade de uma máquina avaliar uma

situação e, em seguida, tomar uma decisão através de uma busca (FINLAY, 2020).

Soam; Raghuphati (2018) descrevem que o estado da arte do inteligência artificial na agricultura se encontra com efetividade na área de pós-colheita, minimização de desperdício e na simplificação de transporte.

É necessário utilizar a inteligência artificial (IA) para reinventar a agricultura, principalmente no setor de qualidade e ainda e que a rejeição e aceite de lotes é um dos pontos em que IA irá ser utilizada em pouco tempo, pois só necessita de pequenos ajustes de modelos (KUMAR, 2018)

Hoje em dia, em todos os lugares, há necessidade de máquinas e automação para o processamento das tarefas diárias. O aprendizado de máquina é um desses métodos que utiliza-se para simplificar os problemas do dia-a-dia. O aprendizado de máquina é basicamente um campo da ciência da computação e um ramo central da IA que usa estatísticas para fornecer resultados. Geralmente, o aprendizado de máquina é a capacidade de uma máquina específica aprender com seus resultados e algoritmos anteriores, para que possa melhorar por conta própria e não precise de orientações regulares para atualizar seu sistema. O aprendizado de máquina define as etapas para supervisionar o desempenho da máquina, aprendendo com suas entradas históricas. É a aplicação da inteligência artificial e usada para descrever os algoritmos com base em dados históricos. O aprendizado de máquina se concentra no desenvolvimento de programas em sistemas de computador que podem acessar dados e usá-los para aprender por si mesmos (POOJA; SHARMA; SHARMA, 2018).

Segundo MACKINNON; GLICK (1999), a mineração de dados procura extrair informações úteis, mas antes desconhecidas, de coleções geralmente maciças de dados não experimentais, às vezes não tradicionais.

(17)

17

5. Técnicas de mineração de dados

As técnicas de mineração de dados podem ser divididas em dois grupos: técnicas de classificação e cluster. As técnicas de classificação são projetadas para classificar amostras desconhecidas usando as informações fornecidas por um conjunto de amostras classificadas. Esse conjunto geralmente é chamado de conjunto de treinamento, porque, em geral, é usado para treinar a técnica de classificação em como realizar sua classificação. Por exemplo, redes neurais e máquinas de vetores de suporte exploram conjuntos de treinamento para ajustar seus parâmetros, a fim de resolver um problema de classificação específico. Em outras palavras, essas duas técnicas de classificação aprendem com um conjunto de treinamento como classificar amostras desconhecidas. Outra técnica de classificação, o k vizinho mais próximo não possui nenhuma fase de aprendizado, pois utiliza o conjunto de treinamento sempre que uma classificação deve ser realizada. Caso um conjunto de treinamento não esteja disponível, não há conhecimento prévio sobre os dados a serem classificados. Nesse caso, a técnica de clustering pode ser usada para dividir um conjunto de amostras desconhecidas em cluster. Uma das técnicas de agrupamento mais usadas é o método k– means (PATEL; KATHIRIYA, 2017).

As principais técnicas para mineração de dados incluem regras de classificação, clustering, regressão e associação (MUCHERINO et al. 2009).

5.1 Classificação

Classificação e previsão são duas formas de análise de dados que podem ser usadas para extrair modelos que descrevem importantes classes de dados ou para prever tendências futuras de dados. É um processo no qual um modelo aprende a prever um rótulo de classe a partir de um conjunto de dados de treinamento que pode ser usado para prever rótulos de classe discretos em novas amostras. Maximizar a precisão preditiva obtida pelo modelo de classificação ao classificar exemplos no conjunto de testes invisíveis durante o treinamento é um dos principais objetivos do algoritmo de classificação. Os algoritmos de classificação de mineração de dados podem seguir três abordagens diferentes de aprendizado: aprendizado semi-supervisionado, aprendizado supervisionado e aprendizado não supervisionado (PATEL;

(18)

18

KATHIRIYA, 2017). As diferentes técnicas de classificação para descobrir conhecimento são Classificadores Baseados em Regras, Redes Bayesianas (BN), Árvore de Decisão (DT), Vizinho Mais Próximo (NN), Rede Neural Artificial (ANN), Máquina de Vetor de Suporte (SVM), Conjuntos ásperos, Lógica difusa, Algoritmos genéticos, etc (BENIWAL e ARORA, 2012).

5.2. Agrupamento

No cluster, o foco é encontrar uma partição de registros de dados em clusters, de modo que os pontos em cada cluster estejam próximos um do outro. O cluster agrupa as instâncias de dados em subconjuntos de maneira que instâncias semelhantes sejam reunidas, enquanto instâncias diferentes pertencem a diversos grupos. Como o objetivo do agrupamento é descobrir um novo conjunto de categorias, os grupos mais recentes têm interesse em si mesmos e sua avaliação é intrínseca (Xu e Wunsch, 2005). Não há conhecimento prévio sobre dados. Os diferentes métodos de agrupamento são Métodos Hierárquicos (HM), Métodos de Particionamento (PM), Métodos Baseados em Densidade (DBM), Métodos de Clustering Baseados em Modelo (MBCM), Métodos Baseados em Grade e Métodos de Computação Computacional [fuzzy, rede neural baseada], Clustering baseado em erro ao quadrado (quantização vetorial), dados de rede e gráfico de clustering (FAYYAD et al., 1996).

5.3. Regras de associação

A técnica de mineração de regras de associação é uma das técnicas mais eficientes de mineração de dados para pesquisar padrões invisíveis ou desejados entre a grande quantidade de dados. Nesse método, o foco é encontrar relacionamentos entre os diferentes itens em um banco de dados transacional. As regras de associação são usadas para descobrir elementos que co-ocorrem repetidamente em um conjunto de dados que consiste em muitas seleções independentes de elementos e para descobrir regras (PATEL; KATHIRIYA, 2017). Os diferentes algoritmos de mineração de regras de associação são o algoritmo Apriori (AA), Partition, Dynamic Hashing and Pruning (DHP), contagem dinâmica de conjuntos de itens (Dynamic Itemset Counting-DIC), crescimento de FP (FP Growth - FPG), SEAR, SPEAR, Eclatand Declat,

(19)

19

MaxEclat, etc. (ZAKI, 1999).Acurácia baseado na Precisão que é proporção de instâncias verdadeiramente de uma classe dividida pelo total de instâncias classificadas como essa classe. Revocação proporção de instâncias classificadas como uma determinada classe dividida pelo total real nessa classe (equivalente à taxa de falsos positivos). Medição da área ROC (Receiver

Operating Characteristics): um dos valores mais importantes produzidos pelo

software Weka (Hall et al., 2009). Eles dão uma ideia de como os classificadores estão se saindo em geral.

5.4. Trabalhos relacionados

Na agricultura há vários trabalhos relacionados com inteligência artificial e mineração de dados mais nada na área de qualidade de sementes ou classificação de lotes.

Material e Métodos

Foram utilizados dados provenientes de um produtor de sementes de milho, sendo os atributos oito safras (14/15, 15/15, 15/16, 16/16, 16/17, 17/17, 17/18, 18/18) e quatro cultivares (Tabela 1), totalizando 5800 lotes de sementes (linhas).

Os atributos utilizados foram relacionados a questões legais (germinação, pureza física, número de outras sementes, porcentagem de sementes infestadas) e outros de identificação do lote (material, peneira, safra).

(20)

20

Tabela 1. Descrição dos atributos analisados pela mineração de dados

Atributo Descrição Valor

Material Cultivar e tratamento {A-TSI,B-TSI,D-TSI,E-TSI, A-CNV, B-CNV,D-CNV,E-CNV} Pen Peneiras {R2, R3, C3, R4, C2, C4, C1, R1, R2C, C2C, C3C, R3C, R4C, C4C, P0} Safra Safras {14/15, 15/15, 15/16, 16/16, 16/17, 17/17, 17/18, 18/18}

Germinacao Resultado do teste de germinação

{0-100}

Vigor Resultado do teste de vigor

{0-100}

%Infest Porcentagem de sementes infestadas

{0-100}

NumOth Número de outras sementes {0-∞} %Pure Porcentagem do teste de pureza {0-100} Accept or Reject

Decisão tomada {Alto vigor(Accept), Médio

vigor(Accept/Reject), Baixo Vigor (Reject), Esperar}

O pré-processamento utilizado foi verificar dados discrepantes, retirar dados incoerentes e linhas sem dados, trocar vírgulas por pontos e tornar o dados para leitura no software utilizado.

O arquivo de treinamento foi utilizado com 80 Reject (34%) e 237 Accept (66%) porque os dados possuem muitos aceitos e poucos rejeitados e este foi uma forma de balancear os mesmos.

Esses dados foram analisados primeiramente em cultivares e safras em separado. A seguir, a análise foi de cada cultivar com todas as safras e finalmente de todas as cultivares e safras unidas.

Os classificadores utilizados foram J48, RandomForest, CVR, lBk, MLP e NäiveBayes. Foi utilizada a validação cruzada, no qual se dividiu o conjunto de dados, treinamento e teste, em 10 subconjuntos. A média dessas precisões corresponde ao desempenho do algoritmo sobre o conjunto de dados fornecido.

(21)

21

Essa técnica reduz a probabilidade de que coincidências sub-avaliem ou sobre-avaliem o desempenho para uma determinada configuração. Todos os resultados reportados neste trabalho utilizam essa técnica. As etapas descritas foram realizadas no software Weka.

Para verificar quais algoritmos seriam mais convenientes utilizou-ses o critério das suas acurácias e da matriz de confusão proveniente de cada modelo.

modelo.

Após a escolha do modelo de, classificador por meio da melhor acurácia obtida no teste de treinamento, o modelo foi utilizado com os dados totais.

Para a realização de cluster e assim realizar uma avaliação não supervisionada foi realizada com os algoritmos SimpleKMeans e FarthestFirst.

Resultados e discussão

Para a escolha de um lote de sementes, um especialista deseja que a germinação seja próxima a 100% e que o vigor, pelo teste de frio, seja o mais próximo, possível, da germinação. Em mineração de dados, há diversas técnicas e algoritmos de aprendizado de máquina que permitem, entre outros, criar modelos preditivos de classificação de dados. Esses modelos são criados a partir de listas para os quais os valores de classe são conhecidos, e essas listas são por sua vez obtidas a partir de sistemas reais (computacionais ou humanos) que realizam a tarefa para a qual se deseja um modelo.

Aplicando a técnica de classificação e verificando as acurácias dos algoritmos (Tabela 2), os mais indicados seriam o J48 e Classification Via Regression. Analisando suas matrizes de confusão, verifica-se que são idênticas e de grande precisão, pois os dados são classificados perfeitamente e sem falsos positivos ou negativos.

(22)

22

Tabela 2. Acurácia dos algoritmos após a classificação

Algoritmo Acurácia (%) J48 100,0000 RandomForest 99,6845 ClassificationViaRegression 100,0000 lazy.IBk 90,8517 MultilayerPerceptron 98,1073 NaiveBayes 96,5300

A escolha da árvore de decisão pelo algoritmo J48 se ocorre porque o mesmo é uma derivação em Java do algoritmo C4.5, um dos mais utilizados e confiáveis classificadores estatísticos. Ele constrói a árvore de decisão utilizando o conceito de Entropia (Figura 2). Pela entropia, o algoritmo escolhe o atributo que mais particiona os dados por meio do ganho de informação normalizado.

Os dados demonstram que, para sementes de milho, o número de aceites dos lotes é alto com baixa rejeição. Com isso se esperava que houvesse um crivo maior sobre o atributo vigor, o que ocorreu conforme a Figura 2.

a b < classificado como

237 0 a = Accept

0 80 b = Reject

(23)

23

Figura 2. Árvore de decisão para predição de classificação de lotes de sementes de milho

A árvore de decisão gerada demonstra que o atributo que mais influencia na classificação de um lote de sementes de milho é o atributo vigor. No entanto, para a área de Ciência e Tecnologia de Sementes seria interessante um maior número de atributos ligados ao vigor porque legalmente só há um atributo: germinação. Como o teste de frio não é padronizado e no caso deste produtor só utilizou um único teste, de acordo com a teoria se visualiza a importância de mais testes de vigor para uma classificação mais eficiente de lotes conforme já escrito por Tillmann et al. (2003). Já na empresa, há um histórico sobre o comportamento dessa espécie e de todos os materiais, o que faz com que com apenas um teste a empresa tenha resultados satisfatórios e confiáveis.

Quando se realiza a predição sem supervisão, verifica-se a acurácia nos clusters, sendo que o algoritmo FarthestFirst gera maior certeza.

Tabela 3. Acurácia dos algoritmos após o cluster

Algoritmo Incerteza (%) SimpleKMeans 32,8076 FarthestFirst 29,6530

O interessante é que no treinamento dos agrupamentos, ambos os algoritmos comportam-se da maneira semelhante e colocando alguns lotes no agrupamento equivocado o que é considerado de boa precisão (Figura 3).

Simple K Means 0 1 <-- assigned to cluster 0 283 ( 89%) 1 34 ( 11%) FarthestFirst 0 281 ( 89%) 1 36 ( 11%)

Figura 3. Agrupamentos gerados da classificação de lotes de milho.

Já verificando as matrizes de confusão há muita incerteza devido a falsos positivos (rejeitados em aceitos) como demonstrados na Figura 4.

(24)

24 Simple K Means 0 1 <-- assigned to cluster 208 29 | Accept 75 5 | Reject FarthestFirst 212 25 | Accept 69 11 | Reject Cluster 0 <-- Accept Cluster 1 <-- Reject

Figura 4. Confusion Matrix no cluster dos algoritmos Simple K Means e FarthestFirst.

A técnica de mineração de dados mais precisa foi predição e classificação (100%) e não a técnica de associação com somente 70,35% de acurácia. Dentro da predição, os algoritmos mais eficientes foram J48 e Classification Via Regression, sendo que a árvore de decisão (J48) seria a mais interessante porque possuem opção visual, o que facilita a supervisão dos dados a posteriori.

Tabela 4. Acurácia do algoritmo J48 com todos os dados validação cruzada com 10 folds.

Precisão Revocação ROC

Accept 0,988 0,999 0,881 Accept/Reject 0,619 0,356 0,967 Reject 0,667 0,154 0,696 Espera ? 0,000 0,056 === Matriz de Confusão=== a b c d Classified as 5651 7 0 0 a = Accept 44 26 3 0 b = Reject/Accept 24 9 6 0 c = Reject 1 0 0 0 d = Esperar

(25)

25

Tabela 5 . Acurácia do algoritmo J48 com todos os dados validação cruzada com 10 folds e 500 batchs.

Precisão Revocação ROC

Accept 0,988 0,999 0,881 Accept/Reject 0,619 0,356 0,967 Reject 0,667 0,154 0,696 Espera ? 0,000 0,056 === Matriz de Confusão=== a b c d Classified as 5651 7 0 0 a = Accept 44 26 3 0 b = Reject/Accept 24 9 6 0 c = Reject 1 0 0 0 d = Esperar

Figura 6. Confusion Matrix do algoritmo J48 com todos os dados validação cruzada com 10 folds e 500 batchs.

Tabela 6. Acurácia do algoritmo J48 com todos os dados validação cruzada com 20 folds e 1000 batchs.

Precisão Revocação ROC

Accept 0,988 0,998 0,841 Accept/Reject 0,636 0,384 0,959 Reject 0,667 0,154 0,621 Espera ? 0,000 0,031 === Matriz de Confusão === a b c d <-- classified as 5649 9 0 0 | a = Accept 42 28 3 0 | b = Reject/Accept 26 7 6 0 | c = Reject 1 0 0 0 | d = Esperar

Figura 7. Confusion Matrix do algoritmo J48 com todos os dados validação cruzada com 20 folds e 1000 batchs.

(26)

26

Tabela 7 . Acurácia do algoritmo J48 com todos os dados validação cruzada com 30 folds e 1000 batchs.

Precisão Revocação ROC

Accept 0,988 0,999 0,862 Accept/Reject 0,643 0,370 0,967 Reject 0,545 0,154 0,656 Espera ? 0,000 0,031 === Matriz de Confusão === a b c d <-- classified as 5650 7 1 0 | a = Accept 42 27 4 0 | b = Reject/Accept 25 8 6 0 | c = Reject 1 0 0 0 | d = Esperar

Figura 7. Confusion Matrix do algoritmo J48 com todos os dados validação cruzada com 30 folds e 1000 batchs.

Tabela 8. Acurácia do algoritmo J48 com todos os dados validação cruzada com 50 folds e 1000 batchs.

Precisão Revocação ROC

Accept 0,988 0,999 0,867 Accept/Reject 0,605 0,356 0,965 Reject 0,625 0,128 0,650 Espera ? 0,000 0,018 === Matriz de Confusão=== a b c d <-- classified as 5649 9 0 0 | a = Accept 44 26 3 0 | b = Reject/Accept 26 8 5 0 | c = Reject 1 0 0 0 | d = Esperar

Figura 8. Confusion Matrix do algoritmo J48 com todos os dados validação cruzada com 30 folds e 1000 batchs.

Baseado nas Tabelas 4 a 8 e Figuras 5 a 8, onde se encontram os índices de acurácia e as matrizes de confusão obtidas pelo algoritmo J48 aumentando

(27)

27

o número de folds teve eficiência até 20 folds com 1000 batchs após isso não trouxe mais eficiência nos dados, com aumento de falsos positivos após isso.

Nas empresas é de extrema necessidade que não haja erros na classificação dos lotes porque pode ser liberado de menor vigor como de alto vigor, o que pode trazer prejuízos e falta de credibilidade por parte do cliente ou ainda ser descartado, ao inverso, um lote de alto vigor como de baixo trazendo prejuízos financeiros irreversíveis e comprometimento de imagem da empresa. Nesse sentido, essa técnica pode tornar célere o ranqueamento de lotes de sementes de milho com técnicas de inteligência artificial e diminuir o erro humano associado a sua classificação.

Conclusão

É possível classificar lotes de sementes de milho com grande acurácia e precisão por meio de inteligência artificial e sua técnica de aprendizado de máquina. A inteligência artificial permitirá automatizar processos na empresa de sementes e aumentar a velocidade de conclusão de tarefas.

Referências

ABRASEM -Associação Brasileira de Sementes e Mudas. Estatísticas. Disponível em:<https://www.conab.gov.br/info-agro/safras/graos>. Acesso em: 20 nov. 2019.

BARBEDO, J.G.A., Digital image processing techniques for detecting, quantifying and classifying plant diseases. SpringerPlus 2 (1), 660, 2013.

BARROS, A.S.R.; DIAS, M.C.L.L.; CICERO, S.M.; KRZYZANOWSKI, F.C. Testes de Frio. In: KRZYZANOWSKI, F.C.; VIEIRA, R.D.; NETO, J.B.F. Vigor de Sementes: Conceitos e Testes. Londrina - PR: ABRATES, 1999. Cap. 8. p. 5.1-5.15.

BENIWALl, S.; ARORA, J. Classification and feature selection techniques in data mining, Int. J. Engg. Res. Tech. 1(6): 1-6, 2012.

CARVALHO, N.M.; NAKAGAWA, J. Sementes: ciência, tecnologia e produção. 4.ed. Jaboticabal: FUNEP, 2000. 524p.

DELL'AQUILA, A. Digital imaging information technology applied to seed germination testing. A review. Agronomy for Sustainable Development, Paris, v.29, p.213 - 221, 2009.

DELOUCHE, J.C. Germinação, deterioração e vigor da semente. Seed News, v.6, n.6, p.24-31, 2002.

(28)

28

DELARMELINO, L.M. Composição química e qualidade fisiológica de sementes de soja. 2012. 28p. Dissertação (Mestrado em Ciência e Tecnologia de Sementes) - Faculdade de Agronomia Eliseu Maciel, Pelotas, 2012.

FINLAY, S. Artificial intelligence for everyone. Great Britain: Relativistic. 189p. 2020.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, 17(3): 37-54, 1996.

EIBE FRANK, Mark A. Hall, and Ian H. Witten (2016). The WEKA Workbench. Online Appendix for "Data Mining: Practical Machine Learning Tools and Techniques", Morgan Kaufmann, Fourth Edition, 2016.

GRZYBOWSKI, C. R. S.; VIEIRA, R. D.; PANOBIANCO, M. Testes de estresse na avaliação do vigor de sementes de milho. Revista Ciência Agronômica, v.46, n.3, p.590-596, 2015. https://doi.org/10.5935/1806-6690.20150042.

Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, and Ian H. Witten (2009). The WEKA Data Mining Software: An Update. SIGKDD Explorations, Volume 11, Issue 1.

HUANG, M., WANG, Q.G., ZHU, Q.B., QIN, J.W.; HUANG, G. Review of seed quality and safety tests using optical sensing technologies. Seed Science & Technology 43, 337–366, 2015.

KUMAR, S. Reinventing Agri-produce quality testing using AI. National Workshop on Artificial Intelligence in Agriculture. Indian Council of Agricultural Research. New Delhi. p.44-45. 2018.

LOPES, A. C. A.; NASCIMENTO, W. M. Análise de sementes de hortaliças. Circular Técnica (83). Embrapa Hortaliças. Brasília, 2009.

MAGALHÃES NETO, W.; GADOTTI, G. I.; VILLELA, F. A.; MARTINS, A. B. N.; CARVALHO, I. R.; CAVALCANTE. J. A. Critérios de escolha de sementes de milho pelos agricultores da região de Votuporanga-SP. Revista Brasileira de Engenharia e Sustentabilidade, v.5, n.2, p.43-50, dez. 2018.

MACKINNON, M.J.; GLICK, N. Applications: Data Mining and Knowledge

Discovery in Databases – An Overview. Australian & New Zealand Journal of

Statistics, 41: 255-275, 1999. doi:10.1111/1467-842X.00081.

MARCOS FILHO, J. Teste de vigor: importância e utilização. In: KRZYZANOWSKI, F.C.; VIEIRA, R.D.; FRANÇA NETO, J.B. (Ed.). Vigor de sementes: conceitos e testes. Londrina : ABRATES, 1999. 218p. Cap.1, p.1-21.

MARCOS FILHO, J. Fisiologia de sementes de plantas cultivadas. Piracicaba, FEALQ, 2005. 495p.

MUCHERINO, A.; PAPAJORGJI, P.; Pardalos, P. M. A survey of data mining technique applied to agriculture. Operational Res., 9(2): 121-140, 2009.

(29)

29

NASSIF, S.M.L.; VIEIRA,I.G.; GOMES,I.; FERNANDES, G.D.Fatores externos (ambientais) que influenciam na germinação de sementes. Informativo de Sementes IPEF, 1998

NIJENSTEIN, J. H.; KRUSE, M. The potencial for standardization in cold testing of maize (Zea mays L.). Seed Science and Technology, v. 28, n. 3, p. 837-851, 2000.

PATEL, A.A.; KATHIRIYA, D.R. DATA MINING TRENDS IN AGRICULTURE: A REVIEW. AGRES – An International E. Journal Vol. 6, Issue 4:637-645 (2017). PATRICIO, D.I.; RIEDER, R. Computer vision and artificial intelligence in precision agriculture for grain crops: A systematic review.2018.

POOJA, I; SHARMA, A.; SHARMA, A.. Machine Learning: A Review of Techniques of Machine Learning. JASC: Journal of Applied Science and Computations. Volume 5, Issue 7, July /2018. p. 538-541, 2018.

RAHMAN, A.; CHO, B.K. Assessment of seed quality using non-destructive measurement techniques: a review. Seed Sci. Res., 26 (04), pp. 285-305, 2016.

SILVA,D.H.R.; MENEGHELLO, G.E., OLIVEIRA, S.; CAVALCANTE,J.A.; TUNES, L.V.M. População de plantas e desempenho produtivo de híbridos de milho oriundos de sementes com diferentes níveis de vigor. Revista Verde de Agroecologia e Desenvolvimento Sustentável. V. 11, Nº 2, p. 01-04, 2016.

SOAM, S.K.; RAGHUPHATI, B. Artificial Intelligence in Agriculture: Global Status. National Workshop on Artificial Intelligence in Agriculture. Indian Council of Agricultural Research. New Delhi. P.1-7. 2018.

TILMANN, M.A.A; MELLO, V.D.C de; ROTA, G.R.M. Análise de Sementes. In: Peske, S.T.; Rosenthal, M.D.; Rota, G.R. Sementes: Fundamentos Científicos e Tecnológicos. 1a. Edição 2003. P.139-223.

VIEIRA, R.D.; CARVALHO, N.M.; SADER, R. Teste de vigor e suas possibilidades de uso. In: VIEIRA, R.D.; CARVALHO, N.M. Teste de vigor em sementes. Jaboticabal : FUNEP/UNESP, 1994. P.31-47.

VIEIRA, R.D.; KRZYZANOWSKI, F.C. Teste de condutividade elétrica. In: KRZYZANOWSKI,. F.C.; VIEIRA, R.D.; FANÇA NETO, J.B. (Ed.). Vigor de sementes: conceitos e testes. Londrina : ABRATES, 1999. 218p. Cap.4, p.1-26.

XU, R.; WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on Neural Networks, 16(3): 645-678, 2005.

ZAKI, M. J. Parallel and distributed association mining: A survey. IEEE concurrency, 7(4): 14-25, 1999.

(30)

Referências

Documentos relacionados

Contribuir para o desenvolvimento de produtos finais concretos (metodologias, processos, ferramentas de trabalho, políticas públicas, etc.), que sejam “novas portas

Silva e Márquez Romero, no prelo), seleccionei apenas os contextos com datas provenientes de amostras recolhidas no interior de fossos (dado que frequentemente não há garantia

As key results, we found that: the triceps brachii muscle acts in the elbow extension and in moving the humerus head forward; the biceps brachii, pectoralis major and deltoid

Afastamento da sala de audiências: reflete a sensibilidade dos juízes quanto ao impacto das condições físicas, sobretudo das características austeras da sala da audiência de

Apresenta a Campanha Obra-Prima, que visa a mudança comportamental por meio da conscientização diante de algumas atitudes recorrentes nas bibliotecas da

Atualmente, esses parâmetros físicos são subutilizados, servindo apenas, nas palavras de Silva (1999:41), &#34; para justificar os tetos financeiros solicitados e incluídos, ou

Procuramos desmistificar a ideia de que a luta armada consistia na simples resistência contra a Ditadura Civil-Militar, demonstrando a proposta política presente

Capítulo 7 – Novas contribuições para o conhecimento da composição química e atividade biológica de infusões, extratos e quassinóides obtidos de Picrolemma sprucei