• Nenhum resultado encontrado

Perante as limitações dos métodos tradicionais de perturbação dos dados, quer devido às consequências nefastas na qualidade da informação, quer devido ao falhanço do objetivo primordial de proteção da identidades dos respondentes, os métodos de controlo de divulgação estatística evoluíram para a aplicação de metodologias mais sofisticadas. A produção de ficheiros sintéticos apareceu como uma solução credível, uma vez que se garante a confidencialidade da informação, já que nenhum registo original é divulgado, com impactos pouco significativos na utilidade dos dados.

A geração de ficheiros sintéticos utilizando o método da Imputação Múltipla apresenta uma forte fundamentação teórica e é uma das metodologias mais utilizadas55. Neste trabalho utilizaram-se algoritmos de data mining, mais precisamente os algoritmos de Árvores de Decisão e Random Forests, para gerar ficheiros sintéticos aplicando a metodologia de Imputação Múltipla desenvolvida por Rubin (1993). Os métodos não paramétricos conseguem lidar com diferentes tipos de informação de elevada dimensionalidade, obter relações não lineares e iterações que muito dificilmente são captadas pelas abordagens paramétricas. Uma vez que a modelação se processa de forma semiautomática, estes métodos implicam um menor investimento na determinação da relação entre as variáveis e na construção dos modelos face aos métodos paramétricos.

A criação de ficheiros totalmente sintéticos para uma base de dados de empresas constituiu um desafio neste estudo. Os trabalhos que aplicam a Imputação Múltipla habitualmente comtemplam apenas um conjunto limitado de registos ou um número restrito de variáveis, na sua maioria qualitativas, no sentido de manterem a utilidade da informação. A informação das empresas comporta riscos adicionais de identificação dos respondentes, devido à existência de uma diversidade de bases de dados disponíveis ao público, pelo que a geração de ficheiros parcialmente sintéticos comportaria um risco elevado de identificação dos respondentes.

55 Exemplos de trabalhos que utilizam a Imputação Múltipla na produção de ficheiros sintéticos: Reiter,

(2005a), Reiter (2005b), Drechsler (2009), Drechsler e Reiter (2010), Loong et al. (2013) e Raab et al.( 2015).

78

Os resultados obtidos permitem concluir que a utilização dos algoritmos de Árvores de Decisão e Random Forests são eficazes na obtenção de ficheiros sintéticos que reproduzem na generalidade as propriedades estatísticas da base de dados original. Da avaliação dos resultados, constata-se que os três modelos (A+AD_1, A+AD_2 e A+RF_1) reproduzem de forma competente a distribuição do ficheiro original (teste de qualidade do ajustamento). Apesar dos modelos que utilizam Árvores de Decisão obterem os melhores resultados univariados, o modelo Random Forests é o que de forma mais consistente consegue reproduzir a relação entre as variáveis, quer ao nível das combinações das variáveis qualitativas, quer ao nível de variáveis quantitativas. Em termos de número de ficheiros sintéticos, conclui-se que o número ideal se situa entre as sete e as dez imputações, variando de acordo com o modelo e as variáveis consideradas. Em termos de investigação ainda existe algum ceticismo na utilização deste tipo bases de dados, mas a questão da confidencialidade é cada vez mais premente, pelo que a opção será muitas vezes entre a utilização da informação sintética ou nenhuma informação. Obviamente que é impossível garantir que os ficheiros sintéticos consigam reproduzir de forma exata toda e qualquer análise do ficheiro original e ao mesmo tempo garantir a confidencialidade dos respondentes. Para desmistificar a falta de qualidade dos ficheiros sintéticos, os centros de dados numa atitude pedagógica podem facultar aos utilizadores os resultados obtidos utilizando o ficheiro original no sentido de se comparar os valores e certificar que os resultados são semelhantes e as conclusões permanecem inalteradas.

No que concerne a potenciais contributos para a literatura, este estudo concluiu que vale a pena considerar algoritmos de data mining para a produção de ficheiros totalmente sintéticos de bases de dados de empresas que congregam variáveis quantitativas e qualitativas, resultados semelhantes aos existentes para ficheiros parcialmente sintéticos utilizando bases de dados de indivíduos (pessoas singulares). Ao se aplicar dois algoritmos e duas operacionalizações distintas na mesma base de dados, este trabalho comparou quatro alternativas metodológicas, permitindo retirar conclusões importantes sobre os impactos da sua utilização na produção de ficheiros sintéticos. Os trabalhos existentes utilizam apenas algumas destas alternativas que são aplicadas a bases de dados distintas, tornando os resultados muito difíceis de comparar. Ao se identificar e

79

agrupar as diferentes abordagens, este trabalho embora não propondo uma abordagem inovadora contribui para a literatura também numa perspetiva metodológica.

Por fim importa apontar algumas linhas de futura investigação. Embora seja difícil lidar ao mesmo tempo com variáveis qualitativas e contínuas no mesmo algoritmo, a aplicação de algoritmos de data mining à produção de ficheiros sintéticos não se esgota neste trabalho, pelo que se sugere a utilização de outras especificações. Visando suprir a limitação descrita sugere-se a possibilidade de considerar mais do que um algoritmo na produção dos mesmos ficheiros sintéticos, por exemplo considerar um algoritmo para as variáveis quantitativas e outro para as variáveis qualitativas. A ordem de imputação das variáveis e trabalhos que utilizem bases de dados de empresas são áreas que permanecem pouco exploradas e carecem de mais trabalhos. Ainda como linha futura de investigação e no âmbito do algoritmo de Árvores de Decisão sugere-se na fase de modelação a aprendizagem de árvores completas, ou seja, sem utilização de estratégias de paragem, e posteriormente aplicar estratégias de poda de modo a evitar o sobre ajustamento (overfitting) do modelo aos dados.

81

Documentos relacionados