ICT IN HEALTH 2014:
FINDINGS
V ESAMP – Escola de Amostragem e Metodologia da Pesquisa
Cuiabá – MT
Mesa Redonda “ST4 – AMOSTRAGEM NA ERA DO BIG DATA" | Outubro 2017
CGI.br – Comitê Gestor da Internet no Brasil
NIC.br – Núcleo de Informação e Coordenação do Ponto BR
1995 2005
SOBRE O CETIC.br
PRODUÇÃO DE ESTATÍSTICAS TIC PARA POLÍTICAS PÚBLICAS
Produção de indicadores e estatísticas
sobre o acesso e uso das TIC no Brasil
Fomento do uso de estatísticas TIC na
elaboração de políticas públicas e pesquisas acadêmicas
Capacitação em metodologia de
pesquisas
Monitoramento de impactos
socioeconômico das TIC
Cooperação internacional para
padronização de indicadores Modelo Multisetorial de Governança da Internet 2003 Portaria Interministerial N° 147, de 31/05/95 Decreto-Lei Nº 4.829, de 3/09/03
2011 A 36ª Conferência Geral da UNESCO aprova a criação do Centro de Categoria II.
Referências metodológicas internacionais
Informação para programas e políticas públicas TIC no Brasil
Políticas públicas de
fomento ao uso das TIC
eLAC 2018
Agendas SDGs &
WSIS
Publicações
Produção de indicadores e estatísticas sobre o acesso e uso das TIC no Brasil
ABORDAGENS METODOLÓGICAS PESQUISAS TIC
CENÁRIO PARA PRODUÇÃO DE ESTATÍSTICAS TIC
Aumento da demanda de dados estatísticos com maior granularidade, maior frequência, maior precisão e para novas informações
(p.ex. dados por municípios ou por operadoras).
Redução dos recursos
disponíveis para execução de pesquisas nos órgãos de
estatísticas oficiais.
Aumento da taxa de não resposta nas pesquisas tradicionais.
Big Data e Amostragem em Estatísticas
Oficiais
Trabalho conjunto:
Denise Britz do Nascimento Silva (ENCE/IBGE) Marcelo Pitta (Nic.br)
BIG DATA
✓ volume de dados
✓ velocidade (capacidade de atualização de informações) ✓ variedade de informações
✓ informação não estruturada
✓ informação dinâmica e capturada em eventos
“Big Data are data sources that can be – generally – described as: high volume, velocity and variety of data that demand cost - effective, innovative forms of processing for enhanced insight and decision
making.”
Definição da UNECE 2013
BIG DATA – Fontes de Dados
• Dados gerados por máquinas tipo medidores e
sensores (imagens de satélite, por exemplo)
• Data scraping
• Internet e redes sociais
• Dispositivos móveis e GPS
• Transações comerciais e dados financeiros
• Dados administrativos
BIG DATA
• Acesso às bases de dados de forma regular e independente • Vieses associados ao Big Data: viés de seleção, de
cobertura, de representação e de medida.
• Como trabalhar com os métodos estatísticos usuais de estimação em bases de dados de tamanho tão grande?
• Utilização de bases de dados coletadas por diferentes fontes de informação sem controle sobre o processo de coleta ou suas modificações.
BIG DATA
A utilização de dados de fontes alternativas pode ser parte da solução para os desafios colocados para produção de Estatísticas Oficiais
Pesquisas quantitativas no cenário
atual de evolução do Big Data
Novas fontes de dados devem permitir a realização de inferências e seguir padrões de qualidade das Estatísticas Oficiais ou outros a serem definidos (que garantam sua qualidade/integridade técnico-científica)
BIG DATA
• Realizing the Potential of Satellite Imagery to Estimate Official Crop Area Statistics – Australian Bureau of Statistics
• Predicting population using mobile device counts. Australian Bureau of Statistics
• Using Road Sensor Data for Official Statistics: Towards a Big Data Methodology. Puts, M., Tennekes, M. and Daas, P.
(2014) – Published Official Statistics - Statistics Netherlands
• Mobile Phone Data for Mobility Statistics (ISTAT) and Use of Satellite Images for Agricultural Statistics (DANE – Colombia)
(http://unstats.un.org/unsd/trade/events/2014/beijing/
default.asp)
Experiência piloto no Cetic.br:
Utilização de web scraping para
produção de indicadores TIC para
Empresas
PESQUISA TIC EMPRESAS
METODOLOGIA
Padrão internacional Cadastro de referência Amostra probabilística Coleta dos dados Empresas com 10 pessoas ocupadas ou mais
Porte: pequenas, médias e grandes
Mercado de atuação: 11 setores CNAE 2.0
861
865
1.074
2.901
1.375
Fo nte: P esq ui sa T IC E m presas 20 15 Des ig n e d by Fre e p ik Comparabilidade internacionalPadrões da UNCTAD, OCDE e da Eurostat
Cadastro de referência:
Cadastro Central de Empresas do IBGE 2013
Coleta de dados
Entrevistas por telefone (CATI), realizadas entre setembro e dezembro de 2015
Universo da pesquisa
535 mil empresas
Amostra
OBJETIVO:
o Produção de indicadores TIC selecionados utilizando coleta automática de informações
MOTIVAÇÃO:
o Resultados com maior desagregação o Resultados intra-anuais
RESULTADOS ESPERADOS:
o Avaliação da coleta de dados via web scraping e uso de modelos para produção de estatísticas
o Desenvolvimento de ferramenta para coleta web de informações
Utilização de web scraping para produção
de indicadores da TIC para Empresas
INDICADORES SELECIONADOS:
o Proporção de empresas segundo recursos oferecidos nos
websites (lista de preços, catálogos de produtos, etc.)
o Proporção de empresas que venderam pela Internet o Proporção de empresas que compraram pela Internet o Proporção de empresas que venderam pela Internet
segundo forma de realização da venda
Uso de web scraping para produção de
indicadores da TIC para Empresas
Uso de web scraping para produção de
indicadores da TIC para Empresas
Fase 1: Modelo logístico com base em dados da pesquisa
TIC Empresas e dados coletados na web
X Y P Y P Log X Y
) 1 ( 1 ) 1 ( empresas das sites nos coletadas -s" informaçõe " e palavras" " -dados contrário caso , 0 Internet pela vendas realiza empresa a se , 1BASE DE DADOS DA PESUISA Páginas web das empresas SELEÇÃO DE VARIÁVEIS Resultado: modelo de previsão com base em dados cadastrais e dos websites WEB SCRAPING (Coleta de dados web) CONSTRUÇÃO DE DICIONÁRIO DE PALAVRAS
(limpeza dos dados)
EMPRESAS COM WEBSITE (População) AJUSTE DO MODELO Eliminação de stoping words, preposições e identificação de radicais
Uso de web scraping para produção de
indicadores da TIC para Empresas
Fase 2:
o Seleção de amostra probabilística na base de dados de
domínios .com.br (Registro.br) e identificação das empresas selecionas nas bases RAIS/CEMPRE
o Amostra com tamanho que permita estimação do indicador por UF, ramo de atividade e cruzamentos
o Amostra que permita coleta contínua e resultados com frequência anual ou menor
Uso de web scraping para produção de
indicadores da TIC para Empresas
WEBSITES – web scraping Dados da web e cadastrais Limpeza e análise das palavras (Construção de Diciónário) WEB CRAWLER (Coleta de dados) BASE DE DOMÍNIOS .com.br + RAIS/CEMPRE AMOSTRA PROB. PREVISÃO POR MODELO PARA CADA
EMPRESA
Disseminação
Uso de web scraping para produção de
PRODUÇÃO DE INDICADORES Amostragem em Cadastro DNS Coleta de dadosWeb Previsão CONSTRUÇÃO DE MODELO DE PREVISÃO Web scraping Informação amostral Dicionário
Uso de web scraping para produção de indicadores
de comércio eletrônico
Web Scraping DICIONÁRIO DE TERMOS DNS DATABASE Frame de websites .com.br Análise de dados e disseminaçãoDesafios
• Ajuste de outros modelos considerando o plano
amostral
• Acesso às bases de dados para coleta e seleção
de empresas na Fase 2 do projeto
• Mudança constante nos termos e formato das
páginas (websites)
• Desenvolvimento de ferramenta automática de
construção de dicionário de palavras
• Validação do modelo a cada dois anos (será feito
com a execução da pesquisa TIC Empresas)
Algumas referências
Groves, R. M. (2011). Three Eras of Survey Research. Public Opinion Quarterly (Special Issue )75 (5):
861-871.doi: 10.1093/poq/nfr057
Holt D. (2007). The Official Statistics Olympic Challenge: Wider, Deeper, Quicker, Better, Cheaper (with discussion). American Statistician, 61, 1–15.
Pferffermann, D. (2015). Methodological Issues and Challenges in the Production of Official Statistics 24th Annual Morris Hansen
Lecture. Journal of Survey Statistics and Methodology 3 (4):425-483.doi: 10.1093/jssam/smv035
Tam, S. and Clarke, F. (2015). Big Data, Official Statistics and Some Initiatives by the Australian Bureau of Statistics. International
Statistical Review. Volume 83, Issue 3, pages 436– 448, December 2015.
Algumas referências
Tam, S. and Clarke, F. (2015). Big data, statistical inference and official statistics. Research Paper. Australian Bureau of Statistics. United Nations (2014). Report of the Global Working Group on Big
Data for Official Statistics. Available
at http://unstats.un.org/unsd/statcom/doc15/2015-4-BigData-E.pdf Timely Crop Area Estimates from Landsat (Robert A. Ryersonf,
Richard N. Dobbins, Christian Thibault - Statistics Canada, Ottawa, Ontario K1A OT6, Canada).