• Nenhum resultado encontrado

1 INTRODUÇÃO

5.3 Análise dos resultados

Avaliando o Brasil em relação aos demais países do mundo vemos que a classificação no sexto cluster demonstra um aproveitamento das TIC ainda bastante aquém do desejado para um país integrante das dez maiores economias do mundo, ficando bem atrás de diversos países da Europa, Ásia e América do Norte. A comparação é melhor quando considerados os demais países membros do grupo BRICS que designa um grupo de países emergentes de destaque na economia mundial, com o Brasil se posicionando atrás apenas da Rússia, e ficando no mesmo cluster da China e à frente dos membros África do Sul e Índia. O mesmo não ocorre em relação aos vizinhos sul-americanos Argentina, Chile e Uruguai, que se classificam à frente do Brasil.

No caso da divisão digital interna, observa-se que a maioria das sub-regiões compartilha a sexta posição do Brasil, com alguns poucos destaques como o Distrito Federal classificado isoladamente como o mais avançado no cluster 4, assim como os estados de São Paulo e Paraná e algumas grandes regiões metropolitanas como Rio de Janeiro, Belo Horizonte e Salvador um pouco à frente do resto do país, classificados no cluster 5. Como destaques negativos aparecem as regiões rurais, os estados de Alagoas, Maranhão e Paraíba além do interior dos estados do Pará, Ceará e Pernambuco figurando no último cluster, dois níveis atrás da média nacional.

Comparando-se a distribuição dos países em clusters com o valor e a posição no ranking IDI, verificamos correlações fortes e estatisticamente significantes entre o número do cluster de cada país e o valor do seu IDI (coeficiente de correlação de Spearman = - 0,970) e o da sua posição no ranking de IDI (coeficiente de correlação de Pearson = 0,941) sugerindo que, apesar de apresentar uma classificação limitada a oito níveis, a distribuição dos países em clusters obtida é adequada como uma forma alternativa ao próprio IDI para medição da divisão digital entre eles.

Como avaliação complementar verificou-se a correlação entre o número do cluster e o PIB per capta, indicador utilizado como representativo de riqueza econômica que, conforme mencionado anteriormente, é um fator citado em diversos trabalhos na literatura de ICT4D como de forte influência na adoção e disseminação das TIC. A verificação do coeficiente de correlação de Spearman = -0,823 entre o PIB per capta de

cada país (apresentado no Apêndice 3) e o ranking de seu cluster demonstra uma forte correlação. Já para as sub-regiões brasileiras, o coeficiente de correlação de Spearman entre os clusters e o PIB per capta de cada sub-região (apresentados no Apêndice 4) foi de -0,513, indicando uma correlação moderada. Em ambos os casos a correlação se demonstrou estatisticamente significante, confirmando a relação entre o avanço no grau de utilização das TIC e o PIB per capta de uma determinada região.

6 AVALIANDO OS FATORES DE INFLUÊNCIA NA DIVISÃO DIGITAL NO BRASIL

Seguindo novamente os passos da associação das metodologias de Kurgan e Musilek (2006) e Lauría e Duchessi (2007), desta vez com o objetivo de avaliar os fatores de influência na determinação da divisão digital nas diferentes subdivisões regionais brasileiras, a revisão da literatura para o entendimento do domínio da aplicação identificou a renda, o sexo, o grau de instrução, a idade, a localização geográfica, a raça, o idioma (particularmente o conhecimento do inglês) além de questões institucionais (VICENTE; LÓPEZ, 2011) como fatores bastante citados como tendo impacto na difusão das TIC. Já dentre as variáveis dependentes utilizadas como indicadores representativos da adoção tecnológica foram selecionadas algumas das mais recorrentes: uso do computador, uso da internet e uso do celular (BILLON et al., 2009; VICENTE; LÓPEZ, 2011).

Buscando avaliar também algumas das aplicações dadas à internet, foram incluídas na análise a adoção do comércio eletrônico e do internet banking pelos usuários de internet. A maior parte das variáveis identificadas na literatura como possíveis fatores de influência faz parte do levantamento sobre uso das TIC no Brasil 2010 realizado pelo Comitê Gestor da Internet no Brasil (CGI.BR, 2010). As exceções são o conhecimento do idioma inglês e os fatores institucionais, que acabaram sendo eliminados da análise. Apesar de não mencionada nos trabalhos que fizeram parte da revisão de literatura, decidiu-se pela inclusão da variável correspondente à situação de emprego do entrevistado (Aposentado(a)/Desempregado(a)/Dona de casa/Estudante/Trabalhando) por parecer ser uma variável de possível impacto e em função da sua disponibilidade no levantamento do CGI.br .

Desta forma a lista de variáveis independentes escolhida para obtenção do modelo incluiu sexo, faixa etária, grau de instrução, situação de emprego, raça, classe social, zona rural/urbana, região e estado. A opção pela utilização da classe social como representativa da renda se deve ao elevado índice de ausência de resposta na questão correspondente à faixa de renda.

Para as variáveis dependentes correspondentes ao uso do computador, da internet e do celular foram consideradas as respostas confirmando o uso nos últimos três meses como positivas. Já o uso do comércio eletrônico foi considerado positivo para respondentes que afirmaram ter comprado ou encomendado produtos pela internet nos últimos 12 meses, enquanto que o internet banking considerou a realização de uma ou mais transações pela internet nos últimos três meses.

Conforme sugerido por Conrady e Jouffe (2011a) foi realizada uma primeira análise das relações entre as variáveis do estudo utilizando-se o algoritmo EQ de aprendizado não supervisionado. Foi obtida uma Rede Bayesiana representativa das variáveis associadas à adoção dos computadores, internet e celulares incluindo os respondentes da pesquisa do CGI.br de forma geral e outra rede para a adoção do comércio eletrônico e internet banking incluindo apenas os participantes que afirmaram utilizarem a internet.

Mesmo sendo possível utilizar a rede obtida a partir do aprendizado não supervisionado para a previsão de um nó designado como alvo, usualmente o aprendizado supervisionado se demonstra um método mais adequado quando existe uma variável alvo específica a ser analisada (CONRADY; JOUFFE, 2011b). Desta forma optou-se pela utilização do algoritmo de obtenção de rede Augmented Naive Bayes em função de seu melhor desempenho na avaliação de variáveis alvo quando comparado aos demais algoritmos supervisionados disponíveis no software Bayesialab, aplicando-o na obtenção de um modelo distinto para cada uma das variáveis dependentes consideradas. Durante o processo de importação dos dados para a geração das redes utilizou-se uma quebra em duas amostras, a primeira incluindo 80% dos registros que foi utilizada para o aprendizado das redes e a segunda de 20%, utilizada para testes. Esta distribuição seguiu a sugestão padrão constante na documentação do software Bayesialab. Desta forma foi possível analisar o poder preditivo dos modelos gerados, utilizando-se a matriz de confusão na comparação entre as classificações previstas pelos modelos com as classificações corretas.

Não foi necessária a realização de nenhum método de redução de dimensionalidade e utilizou-se uma discretização das variáveis de acordo com os estados apresentados na distribuição da Tabela 1 apresentada no item 4.6. Nenhuma restrição semântica foi empregada, e a escolha do melhor modelo foi realizada automaticamente pelos algoritmos do software utilizado.

A análise dos modelos gerados consistiu em uma verificação da sua capacidade de prever a adoção ou não de cada uma das tecnologias a partir do conhecimento das variáveis independentes, seguida de uma avaliação do efeito que o conhecimento isolado das diferentes variáveis tem sobre a probabilidade da tecnologia ter sido adotada ou não.