• Nenhum resultado encontrado

ICT IN HEALTH 2014: FINDINGS

N/A
N/A
Protected

Academic year: 2021

Share "ICT IN HEALTH 2014: FINDINGS"

Copied!
25
0
0

Texto

(1)

ICT IN HEALTH 2014:

FINDINGS

V ESAMP – Escola de Amostragem e Metodologia da Pesquisa

Cuiabá – MT

Mesa Redonda “ST4 – AMOSTRAGEM NA ERA DO BIG DATA" | Outubro 2017

CGI.br – Comitê Gestor da Internet no Brasil

NIC.br – Núcleo de Informação e Coordenação do Ponto BR

(2)
(3)

1995 2005

SOBRE O CETIC.br

PRODUÇÃO DE ESTATÍSTICAS TIC PARA POLÍTICAS PÚBLICAS

 Produção de indicadores e estatísticas

sobre o acesso e uso das TIC no Brasil

 Fomento do uso de estatísticas TIC na

elaboração de políticas públicas e pesquisas acadêmicas

 Capacitação em metodologia de

pesquisas

 Monitoramento de impactos

socioeconômico das TIC

 Cooperação internacional para

padronização de indicadores Modelo Multisetorial de Governança da Internet 2003 Portaria Interministerial N° 147, de 31/05/95 Decreto-Lei Nº 4.829, de 3/09/03

2011 A 36ª Conferência Geral da UNESCO aprova a criação do Centro de Categoria II.

(4)

Referências metodológicas internacionais

Informação para programas e políticas públicas TIC no Brasil

 Políticas públicas de

fomento ao uso das TIC

 eLAC 2018

 Agendas SDGs &

WSIS

Publicações

Produção de indicadores e estatísticas sobre o acesso e uso das TIC no Brasil

(5)

ABORDAGENS METODOLÓGICAS PESQUISAS TIC

(6)

CENÁRIO PARA PRODUÇÃO DE ESTATÍSTICAS TIC

Aumento da demanda de dados estatísticos com maior granularidade, maior frequência, maior precisão e para novas informações

(p.ex. dados por municípios ou por operadoras).

Redução dos recursos

disponíveis para execução de pesquisas nos órgãos de

estatísticas oficiais.

Aumento da taxa de não resposta nas pesquisas tradicionais.

(7)

Big Data e Amostragem em Estatísticas

Oficiais

Trabalho conjunto:

Denise Britz do Nascimento Silva (ENCE/IBGE) Marcelo Pitta (Nic.br)

(8)

BIG DATA

✓ volume de dados

✓ velocidade (capacidade de atualização de informações) ✓ variedade de informações

✓ informação não estruturada

✓ informação dinâmica e capturada em eventos

“Big Data are data sources that can be – generally – described as: high volume, velocity and variety of data that demand cost - effective, innovative forms of processing for enhanced insight and decision

making.”

Definição da UNECE 2013

(9)

BIG DATA – Fontes de Dados

• Dados gerados por máquinas tipo medidores e

sensores (imagens de satélite, por exemplo)

• Data scraping

• Internet e redes sociais

• Dispositivos móveis e GPS

• Transações comerciais e dados financeiros

• Dados administrativos

(10)

BIG DATA

• Acesso às bases de dados de forma regular e independente • Vieses associados ao Big Data: viés de seleção, de

cobertura, de representação e de medida.

• Como trabalhar com os métodos estatísticos usuais de estimação em bases de dados de tamanho tão grande?

• Utilização de bases de dados coletadas por diferentes fontes de informação sem controle sobre o processo de coleta ou suas modificações.

(11)

BIG DATA

A utilização de dados de fontes alternativas pode ser parte da solução para os desafios colocados para produção de Estatísticas Oficiais

Pesquisas quantitativas no cenário

atual de evolução do Big Data

Novas fontes de dados devem permitir a realização de inferências e seguir padrões de qualidade das Estatísticas Oficiais ou outros a serem definidos (que garantam sua qualidade/integridade técnico-científica)

(12)

BIG DATA

• Realizing the Potential of Satellite Imagery to Estimate Official Crop Area Statistics – Australian Bureau of Statistics

• Predicting population using mobile device counts. Australian Bureau of Statistics

• Using Road Sensor Data for Official Statistics: Towards a Big Data Methodology. Puts, M., Tennekes, M. and Daas, P.

(2014) – Published Official Statistics - Statistics Netherlands

• Mobile Phone Data for Mobility Statistics (ISTAT) and Use of Satellite Images for Agricultural Statistics (DANE – Colombia)

(http://unstats.un.org/unsd/trade/events/2014/beijing/

default.asp)

(13)

Experiência piloto no Cetic.br:

Utilização de web scraping para

produção de indicadores TIC para

Empresas

(14)

PESQUISA TIC EMPRESAS

METODOLOGIA

Padrão internacional Cadastro de referência Amostra probabilística Coleta dos dados

 Empresas com 10 pessoas ocupadas ou mais

 Porte: pequenas, médias e grandes

 Mercado de atuação: 11 setores CNAE 2.0

861

865

1.074

2.901

1.375

Fo nte: P esq ui sa T IC E m presas 20 15 Des ig n e d by Fre e p ik Comparabilidade internacional

Padrões da UNCTAD, OCDE e da Eurostat

Cadastro de referência:

Cadastro Central de Empresas do IBGE 2013

Coleta de dados

Entrevistas por telefone (CATI), realizadas entre setembro e dezembro de 2015

Universo da pesquisa

535 mil empresas

Amostra

(15)

OBJETIVO:

o Produção de indicadores TIC selecionados utilizando coleta automática de informações

MOTIVAÇÃO:

o Resultados com maior desagregação o Resultados intra-anuais

RESULTADOS ESPERADOS:

o Avaliação da coleta de dados via web scraping e uso de modelos para produção de estatísticas

o Desenvolvimento de ferramenta para coleta web de informações

Utilização de web scraping para produção

de indicadores da TIC para Empresas

(16)

INDICADORES SELECIONADOS:

o Proporção de empresas segundo recursos oferecidos nos

websites (lista de preços, catálogos de produtos, etc.)

o Proporção de empresas que venderam pela Internet o Proporção de empresas que compraram pela Internet o Proporção de empresas que venderam pela Internet

segundo forma de realização da venda

Uso de web scraping para produção de

indicadores da TIC para Empresas

(17)

Uso de web scraping para produção de

indicadores da TIC para Empresas

Fase 1: Modelo logístico com base em dados da pesquisa

TIC Empresas e dados coletados na web

X Y P Y P Log X Y

                ) 1 ( 1 ) 1 ( empresas das sites nos coletadas -s" informaçõe " e palavras" " -dados contrário caso , 0 Internet pela vendas realiza empresa a se , 1

(18)

BASE DE DADOS DA PESUISA Páginas web das empresas SELEÇÃO DE VARIÁVEIS Resultado: modelo de previsão com base em dados cadastrais e dos websites WEB SCRAPING (Coleta de dados web) CONSTRUÇÃO DE DICIONÁRIO DE PALAVRAS

(limpeza dos dados)

EMPRESAS COM WEBSITE (População) AJUSTE DO MODELO Eliminação de stoping words, preposições e identificação de radicais

Uso de web scraping para produção de

indicadores da TIC para Empresas

(19)

Fase 2:

o Seleção de amostra probabilística na base de dados de

domínios .com.br (Registro.br) e identificação das empresas selecionas nas bases RAIS/CEMPRE

o Amostra com tamanho que permita estimação do indicador por UF, ramo de atividade e cruzamentos

o Amostra que permita coleta contínua e resultados com frequência anual ou menor

Uso de web scraping para produção de

indicadores da TIC para Empresas

(20)

WEBSITES – web scraping Dados da web e cadastrais Limpeza e análise das palavras (Construção de Diciónário) WEB CRAWLER (Coleta de dados) BASE DE DOMÍNIOS .com.br + RAIS/CEMPRE AMOSTRA PROB. PREVISÃO POR MODELO PARA CADA

EMPRESA

Disseminação

Uso de web scraping para produção de

(21)

PRODUÇÃO DE INDICADORES Amostragem em Cadastro DNS Coleta de dadosWeb Previsão CONSTRUÇÃO DE MODELO DE PREVISÃO Web scraping Informação amostral Dicionário

Uso de web scraping para produção de indicadores

de comércio eletrônico

Web Scraping DICIONÁRIO DE TERMOS DNS DATABASE Frame de websites .com.br Análise de dados e disseminação

(22)

Desafios

• Ajuste de outros modelos considerando o plano

amostral

• Acesso às bases de dados para coleta e seleção

de empresas na Fase 2 do projeto

• Mudança constante nos termos e formato das

páginas (websites)

• Desenvolvimento de ferramenta automática de

construção de dicionário de palavras

• Validação do modelo a cada dois anos (será feito

com a execução da pesquisa TIC Empresas)

(23)

Algumas referências

Groves, R. M. (2011). Three Eras of Survey Research. Public Opinion Quarterly (Special Issue )75 (5):

861-871.doi: 10.1093/poq/nfr057

Holt D. (2007). The Official Statistics Olympic Challenge: Wider, Deeper, Quicker, Better, Cheaper (with discussion). American Statistician, 61, 1–15.

Pferffermann, D. (2015). Methodological Issues and Challenges in the Production of Official Statistics 24th Annual Morris Hansen

Lecture. Journal of Survey Statistics and Methodology 3 (4):425-483.doi: 10.1093/jssam/smv035

Tam, S. and Clarke, F. (2015). Big Data, Official Statistics and Some Initiatives by the Australian Bureau of Statistics. International

Statistical Review. Volume 83, Issue 3, pages 436– 448, December 2015.

(24)

Algumas referências

Tam, S. and Clarke, F. (2015). Big data, statistical inference and official statistics. Research Paper. Australian Bureau of Statistics. United Nations (2014). Report of the Global Working Group on Big

Data for Official Statistics. Available

at http://unstats.un.org/unsd/statcom/doc15/2015-4-BigData-E.pdf Timely Crop Area Estimates from Landsat (Robert A. Ryersonf,

Richard N. Dobbins, Christian Thibault - Statistics Canada, Ottawa, Ontario K1A OT6, Canada).

(25)

Obrigado!

www.cetic.br

Referências

Documentos relacionados

O objetivo desta pesquisa foi investigar o papel da Educação Física na Educação Infantil, considerando-se os objetivos gerais, objetivos específicos, os conteúdos da

98: “En- quanto não permitir o fundo de custeio dos serviços de inspeção, a designação de inspetores especializados para orientação do en- sino da Musica e dos exercícios

sem discriminação”; “...o ensino inclusivo será uma oportunidade das pessoas portadoras de necessidades especiais de mostrar suas potencialidades”; “espero que esta

Aprendizado geral dos jogos esportivos de forma implícita - lúdica Escola da Bola - O ABC da Aprendizagem do Jogo Implícito / Lúdico. O Problema / As causas A solução:

Savants são pessoas que demonstram capacidades superiores em uma inteligência, enquanto suas outras inteligências funcionam num baixo ritmo.. Ex.: Rain Man (baseado numa

Mediação significa que o t rabalho do professor é viabilizar a relação at iva do aluno com a mat éria de est udo, at ravés de obj et ivos, cont eúdos, mét odos e formas

Anche dopo il rilascio bisogna restare nella posizione precedentemente assunta fino al momento dell'impatto della freccia sul bersaglio ed evitare bruschi cali di tensione

1 - Entrada da mão muito próxima da cabeça. 2 - Entrada da mão fora da largura do ombro.. 3 -Tração com o braço fora do alinhamento do corpo.. 4 - Batida com elevação excessiva