PRÉ-PROCESSAMENTO DOS DADOS - 6 MATERIAIS E MÉTODOS

6 MATERIAIS E MÉTODOS

6.7 PRÉ-PROCESSAMENTO DOS DADOS

O pré-processamento dos dados deve ser aplicado para torná-los mais apropriados ao data mining. Segundo Tan, Steinbach e Kumar (2009) divide-se em etapas que compreendem genericamente duas categorias: seleção dos objetos de dados e atributos para a análise ou criação/alteração dos atributos. O objetivo do pré-processamento é melhorar a análise quanto ao tempo, custo e qualidade.

Nesta pesquisa o pré-processamento compreendeu as subfases de entendimento, seleção, limpeza e transformação dos dados.

6.7.1 Entendimento dos Dados

O entendimento consistiu na análise dos dados, composto por 21 variáveis (tabela 8) e 748 registros, fornecidos pelo especialista do domínio de aplicação, a fim de orientar o que era necessário na preparação dos dados para o data mining. Os atributos foram analisados em termos do seu significado, tipo de dado, valores assumidos e relevância para os objetivos do data mining referentes a predição do óbito em TCE grave. Também se verificou a existência de casos de dados errados, de valores ausentes nos atributos e falta de padronização dos dados, o que ocorreu pouco nesta base. Estas análises para entendimento dos dados foram realizadas utilizando-se a ferramenta SPSS versão 22.0 trial para Windows.

A base utilizada referente ao TCE grave apresenta dados com qualidade, visto que já havia sido empregada em pesquisas anteriores, como a de Martins et al (2009). Os dados utilizados nesta pesquisa já se encontravam organizados em uma única tabela, o que facilitou a identificação e agrupamento dos dados relevantes para o data mining, realizando-se a seleção dos dados que consistiu na escolha dos atributos a serem considerados.

6.7.2 Seleção dos Dados

Na etapa de seleção dos dados identificaram-se as informações da base de dados, que foram utilizadas na fase de data mining do processo de KDD, pois é comum existirem atributos irrelevantes aos objetivos do

data mining.

Realizou-se uma junção orientada18que consistiu na seleção criteriosa dos atributos que podem contribuir na identificação dos padrões nos dados. Esta seleção por junção orientada compreendeu a redução de dados vertical, eliminando-se características irrelevantes e reduzindo o ruído. Considerando-se isso, por meio do módulo de pré- processamento da ferramenta Waikato Environment for Knowledge Analysis (Weka), versão 3.6.11, removeram-se atributos cujos conteúdos não foram considerados relevantes para o problema como, por exemplo, o código identificador, óbito na UTI e óbito no andar. A seleção de atributos relevantes e eliminação daqueles desnecessários, diminui a complexidade do problema e pode auxiliar no desempenho da aprendizagem. A eliminação do atributo código identificador ocorreu em função do critério relevância, visto que ele foi considerado inútil ao processo. Enquanto óbito na UTI e óbito no andar, foram eliminados devido a redundância, visto que o atributo óbito já reflete a informação embutida nesses dois atributos. De acordo com Tan, Steinbach e Kumar (2009) a redução de dados verticais pode auxiliar na obtenção de modelos de conhecimento com maior acurácia e concisão, eliminando características irrelevantes e reduzindo o ruído. Após estas eliminações a base de dados passou a ter 18 atributos.

A seleção dos dados pode ser realizada de forma manual ou automática. Nesta pesquisa empregaram-se as duas abordagens.

Na seleção manual o especialista do domínio de aplicação auxiliou na escolha dos atributos que poderiam contribuir para o data

mining, como também se considerou o entendimento adquirido nesta

pesquisa acerca de TCE grave. O método manual é considerado uma das melhores formas de seleção de dados, desde que se conheça o problema de aprendizado e o significado de cada atributo.

Modo de junção de dados relevantes em que o especialista em descoberta de conhecimento em bases de dados, juntamente com o especialista do domínio de aplicação escolhem os atributos que podem influenciar no processo (GOLDSCHMIDT; PASSOS, 2005).

Na seleção automática, realizada por meio de algoritmos, empregou-se o método de filtro que é aplicado antes do processo de aprendizado para selecionar o subconjunto de atributos a serem submetidos ao data mining.

O método de seleção automática utilizado foi o de filtro supervisionado CfsSubsetEval, disponível no módulo de pré- processamento da ferramenta Weka, aplicando-se o método de busca

Best First Search nas configurações Forward e Backward.

O CfsSubsetEval implementa o Correlation based Feature

Selection (CFS) que avalia o valor de um subconjunto de atributos

considerando a capacidade preditiva de cada característica juntamente com o grau de redundância entre eles, preferindo aqueles que são altamente correlacionados.

O CFS identifica atributos irrelevantes, redundantes e ruídos, selecionando dentre os atributos aqueles que são relevantes. De acordo com Hall (1999) em bases de dados reais o CFS eliminou mais da metade das características, sendo que na maioria dos casos a acurácia dos modelos se igualaram ou foram superiores aos casos em que se usou o conjunto completo dos atributos.

O método de busca heurística Best First, também conhecido como melhor escolha, procura otimizar a solução combinando em um único método as vantagens da busca em profundidade e em largura (RICH; KNIGHT; NAIR, 2009). A busca para frente (seleção forward) é iniciada sem atributos e os mesmos são adicionados um a um, isoladamente, sendo incorporado o melhor atributo entre os não selecionados baseado no critério de avaliação. Na busca para trás (eliminação backward) inicia-se com todo o conjunto de atributos e a cada iteração se vai eliminando o atributo menos importante.

6.7.3 Limpeza dos Dados

A limpeza dos dados compreendeu o tratamento de valores ausentes, realizando-se a eliminação destes no conjunto de dados, por meio da exclusão dos casos que possuíam atributos com valores ausentes. Após esta etapa a base de dados passou a apresentar 728 registros, os quais foram submetidos ao data mining.

6.7.4 Transformação dos Dados

A transformação dos dados é aplicada a todos os valores de uma variável e consiste em colocá-los em um formato apropriado, conforme

requerido pelos algoritmos de data mining, aplicando-se operações nestes dados na fase de pré-processamento.

Nesta pesquisa empregou-se a conversão de valores nominais para numéricos e a discretização.

A conversão de valores nominais para numéricos ocorreu por meio da aplicação do entendimento que se tem, bem como do especialista do domínio de aplicação para a determinação de uma boa representação. A partir do entendimento do domínio do problema se utilizou o método de remapeamento 1 de n, em que para cada valor nominal define-se 1 como a presença de um valor e 0 como a ausência. Neste caso, considera-se que dos n valores distintos de um atributo, somente um valor é definido como 1.

A discretização referiu-se a transformação das variáveis contínuas em categorizadas, como por exemplo, idade e glicose, definindo-se a quantidade de categorias e o mapeamento de valores para elas. Primeiramente, ordenaram-se os valores de cada atributo contínuo, os quais foram divididos em n intervalos, especificando-se n-1 pontos de divisão. Após isso, todos os valores de um intervalo foram mapeados para o mesmo valor de categoria.

O método de discretização empregado foi o não supervisionado, realizando-se a partição por meio de duas técnicas: em frequências iguais e pelo método de agrupamento K-means, além da inspeção visual dos dados conforme indicado por Tan, Steinbach e Kumar (2009).

Na tabela 9 tem-se todos os atributos que compõem a base de dados após as atividades de pré-processamentos dos dados, os quais serão empregados para a execução do data mining, conforme os critérios de seleção dos atributos empregado na pesquisa e expostos anteriormente.

Tabela 9 – Atributos presentes na base de dados

Fonte: Do autor.

No documento Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave (páginas 112-116)