UNIDADE II
Conceitos e Teorias da Análise RDS
Ao final desta Unidade, você
deverá estar apto a:
• Descrever alguns dos conceitos-chave usados para interpretar a análise RDS
• Entender porque o RDS, quando
adequadamente analisado, pode gerar estimativas que são representativas da população-alvo
• Reconhecer alguns dos produtos básicos do tratamento de dados pelo software de análise RDS.
A amostra RDS
• Uma amostra RDS é simplesmente uma amostra de
cadeia de referência até que seja analisada levando-se em consideração os vieses inerentes à amostragem por
cadeia de referência
• Uma amostra por cadeia de referência é uma amostra de conveniência e seus resultados não podem ser
extrapolados para representar todos os membros da população-alvo
• Existe um pacote de software disponível no website RDS que aplica os pesos apropriados para ajustar os vieses encontrados na amostra por cadeia de referência RDS • Esse software, “respondent driven sampling analysis tool”
(RDSAT), pode ser baixado a partir do website: www.respondentdrivensampling.org
Amostragem probabilística tradicional
e o RDS
POPULAÇÃO AMOSTRA Estimativa POPULAÇÃO AMOSTRA Rede social Coleta Estimativa EstimativaHeckathorn & Salganik, 2002
B
A B
A
Gráfico 1. Tamanho da população Gráfico 2. Tamanho da amostra
Termos importantes
• Equilíbrio
• Homofilia
• Tamanho (ou grau) da rede
• Padrões de recrutamento
Equilíbrio
•É o ponto em que as características da amostra passam a modificar-se muito minimamente, não importa quantas pessoas mais sejam recrutadas •O alcance do equilíbrio supera os vieses
introduzidos pela seleção não-aleatória de sementes
•Uma vez que o equilíbrio é atingido, o processo de amostragem identifica aleatoriamente os laços na rede da sua população-alvo
Equilíbrio e estimativas para soropositividade em HIV Equilíbrio .141 Amostra .143 P o r c e n t a g e m d e 1 2 3 4 5 6 ONDAS s o r o p o si ti v o s p a r a H I V
Seleção das sementes – a composição da amostra permite
alcançar o equilíbrio independentemente da escolha das sementes
Recrutamento de UDI por casta, Katmandu, Nepal
A: Composição de amostra por ondas começando apenas com sementes brâmanes
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 1 2 3 4 5 6 7 8 9 10 Onda de recrutamento Por c ent a g e m d a pop ul a ç ã o
Brâmanes Chhetri Newar Outros 49.6% 32.6%
B: Composição de amostra por ondas começando apenas com sementes Chhetri
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 1 2 3 4 5 6 7 8 9 10 Onda de recrutamento Por c ent a g e m d a pop ul a ç ã o
Brâmanes Chhetri Newar Outros 49.6% 32.6%
Nº de ondas necessárias para atingir o equilíbrio por casta e status de HIV: UDI em Katmandu, Nepal
0 1 2 3 4 5 Apenas Brâmanes Apenas Chhetri Apenas Newar Todas as castas Apenas HIV positivos Apenas HIV negativos HIV Negativos e Positivos
Composição das sementes
Ondas n eces sá rias par a a tingir o equilibrio dentro de 2%
Homofilia
• É uma medida da preferência por
determinadas conexões dentro de um
grupo
• Varia entre -1 (completamente heterófilo) e
+1 (completamente homófilo)
• Na variável de sexo, uma homofilia de .45
para mulheres significa que em 45% das
vezes as mulheres recrutaram outras
mulheres, e no resto das vezes (55%), as
mulheres recrutaram aleatoriamente na
Tamanho da rede
• Informação fornecida pelo participante • Deve ser o mais precisa possível
• A questão típica sobre o tamanho da rede deve ter os seguintes elementos:
Número de pessoas semelhantes a si mesmo que o participante conhece (profissionais do sexo, usuários de drogas injetáveis, homens que fazem sexo com homens, etc.)
Use a mesma definição para os membros da população-alvo ao longo de todo o estudo (por ex., restrições de idade, sexo,
localidade, número de anos participando do comportamento, etc) Estabeleça um intervalo de tempo durante o qual o participante
tenha visto as pessoas da população alvo
Quantas pessoas você conhece pessoalmente, que vivem em … (inserir a cidade ou área), cujo nome você sabe, que você sabe quem são e eles sabem quem você é, que você viu no último … (inserir o período)?”
Tamanho da rede
“Quantos (PS, UDI, HSH) você conhece
(sabe o nome, sabe quem são e eles
sabem quem você é), vivem em … (inserir
cidade ou área), e que você viu no último
… (inserir o período)?”
• Os componentes do tamanho da rede devem incluir aqueles membros da rede social do participante que ele provavelmente incluirá
• Em outras palavras, modifique a questão sobre a rede para garantir que o participante inclua todas as pessoas que têm a probablidade de serem
elegíveis para o estudo
• Por exemplo, se o seu estudo apenas inclui
aqueles HSH que têm mais de 18 anos e vivem em Zagreb, Croácia, então a questão sobre a rede deve incluir esses mesmos parâmetros
Padrões de recrutamento
• O RDSAT examina como os tipos de pessoas foram recrutados para sua amostra
• Por exemplo, quantas mulheres e quantos
homens foram recrutados por homens, e quantas mulheres e quantos homens foram recrutados por mulheres
• O RDS usa os padrões de recrutamento para calcular a probabilidade de que uma pessoa de um tipo recrutará outra pessoa do mesmo tipo, ou diferente (probalidade de transição)
Ferramenta de Análise RDS (RDSAT)
• Utiliza tamanhos de rede e padrões de recrutamento para gerar estimativas de proporção (por ex.,
participantes soronegativos para o HIV versus participantes soropositivos para o HIV)
• O banco de dados deve ter links entre recrutadores e recrutados
• Aplicam-se pesos aos dados de modo que as redes maiores recebam menos peso (e vice-versa)
• Utiliza bootstrap para gerar estimativas de proporção • O RDSAT apenas lê arquivos de texto (com
• O RDSAT é fácil de instalar em seu computador • O RDSAT é grátis
• Baixe a última versão do RDSAT a partir do site:
www.respondentdrivensampling.org
• Os passos para baixar o programa são
explicados durante o processo de download. Basta seguir as instruções
• Ao baixar o programa, surgirá um ícone do RDSAT em sua área de trabalho
• Terminado o downsload do RDSAT, basta clicar no ícone da área de trabalho para abri-lo
• No website do RDS, você pode baixar um
manual que explica como usar o EDS
• Os slides seguintes apenas oferecem uma
visão geral de alguns dos componentes do
RDSAT
Trabalhando com o RDSAT- primeiro passo
Alterando opções
• Estando seus dados já prontos para análise, a primeira coisa que você deve fazer é alterar suas opções:
– Aumentar o número de bootstraps para 15000
– Alterar o alpha para .025, para obter um intervalo de confiança de 95%
– Cortar tamanhos de redes extremamente grandes
– Selecionar tratamento avançado de dados (“Enhanced Data-Smoothing”) como seu tipo de algortimo, para
garantir que as estimativas sejam calculadas para células de recrutamento vazias
• A análise com o RDSAT resulta na seguinte
produção de dados:
– Matriz de recrutamento
– Probabilidades de transição
– Recrutamento demograficamente ajustado
Matriz de recrutamento
• A matriz de recrutamento descreve o
padrão dos recrutamentos dentro da
amostra
• A amostra é dividida em subtipos distintos
(ex., mulheres, homens) e o número dos
recrutamentos de cada tipo para cada tipo
é mensurado
• Esses dados são inseridos em uma matriz
com o tipo do recrutador nas linhas e o tipo
do recruta nas colunas
Exemplo de uma matriz de
recrutamento no RDSAT
Recrutamentos: Recruta 1 Recruta 2 Recrutador 1 10 46 Recrutador 2 44 298Probabilidades de transição
• O RDS usa as informações sobre recrutadores e recrutas e os tamanhos de suas redes para determinar a
probabilidade de que uma pessoa de determinado tipo (mulher) recrute uma pessoa de outro tipo (homem) • A probabilidade é estimada a partir da matriz de
recrutamento
• As linhas da matriz de recrutamento são somadas,
fornecendo o número total dos recrutamentos realizados por cada tipo
• O número dos recrutas em cada célula pode ser dividido pela linha do total para determinar a probabilidade de transição
• As probabilidades de transição são fundamentais para compreender uma amostra por cadeia de referência, como o processo de Markov em relação aos subtipos
Exemplo de uma tabela de
probabilidade de transição no
RDSAT
Probabilidades de transição: Recruta 1 Recruta 2 Recrutador 1 0.178 0.821 Recrutador 2 0.128 0.871O recrutamento
demograficamente ajustado
• Para compensar as diferenças no resultado do recrutamento, o RDSAT ajusta a contagem dos recrutamentos, de modo que o número de
recrutas de cada grupo (soma das linhas) iguale o número dos recrutamentos por cada grupo (soma das colunas), sem qualquer mudança no padrão de recrutamento ou tamanho da amostra
• A contagem de recrutamento ajustada é a proporção de seleção multiplicada pelas
proporções de equilíbrio de recrutas daquela
categoria e o número total de recrutamentos de todas as categorias
Exemplo de uma matriz de
recrutamento no RDSAT
Matriz de recrutamento demograficamente ajustado:
Recruta 1 Recruta 2
Recrutador 1 12.68 43.32
Recrutamento demograficamente
ajustado
• Por exemplo, analisando a proporção de
soronegativos e soropositivos para o HIV entre PS de Ho Chi Minh, os soronegativos recrutaram outros soronegativos em uma proporção de .87. A proporção de soronegativos na amostra é .821 e o total de recrutamentos foi 398. A contagem ajustada de recrutamento para as mulheres
é .871 x .821 x 398 = 284.28
• Este é o número esperado de recrutas soronegativos para o HIV por outros
soronegativos; ambos os grupos de HIV foram recrutados com igual sucesso
Tratamento avançado de dados
(“Enhanced Data-Smoothing”)
• Idealmente, espera-se ver uma amostra em que haja a mesma quantidade de recrutamentos de soropositivos por soronegativos e recrutamentos de soronegativos por soropositivos (ou seja, as conexões existentes entre soronegativos e
soropositivos)
• Porém, isto não costuma ocorrer
• O tratamento avançado dos dados pode corrigir esta situação
Tratamento avançado de dados
(“Enhanced Data-Smoothing”)
• O RDS requer que nenhuma coluna ou linha da matriz de recrutamento esteja vazia
• O tratamento avançado de dados reduz essa
restrição, preechendo potencialmente as células vazias da matria de recrutamento com a média pela diagonal
• O tratamento avançado de dados deve ser
selecionado antes da análise dos dados quando da escolha das opções (veja slides prévios)
Homofilia
• A homofilia (ou índice de conglomerado) é uma estatística que descreve os padrões de mistura nas redes
• O RDS é um dos poucos métodos de
amostragem que oferece a mensuração da homofilia
• Ele descreve a probabilidade de um indivíduo soropositivo conectar-se com outro indivíduo soropositivo, em uma população de indivíduos soropositivos e soronegativos
Homofilia
• A homofilia pode ser positiva ou negativa, indo de -1 a 1, dependendo da preferência de um indivíduo em associar-se a outros de mesmo tipo, ou associar-se tende a evitá-los
• A homofilia positiva (quando as pessoas mostram tendência a recrutar indivíduos semelhantes a si) é próxima a 1
• A homofilia negativa (quando as pessoas mostram
tendência a recrutar indivíduos não semelhantes a si) é próxima a -1
• Quando a homofilia é zero para todos os grupos, as proporções de equilíbrio e amostra serão idênticas às reais proporções da população no RDS
Estruturas homofílicas
• A compreensão da homofilia em determinadas populações pode fornecer informações úteis para o desenvolvimento e disseminação de mensagens de prevenção
• Existem três estruturas de rede básicas que podem ser identificadas examinando-se a homofilia em uma população
• Essas estruturas são conhecidas como:
– “centro-periferia” – “coorte”
Redes de estrutura
“centro-periferia”
• Essas redes apresentam tipicamente alguns poucos indivíduos muito populares, em torno dos quais vários outros indivíduos menos
populares se reúnem • Um exemplo:
– O profissional do sexo é o “astro” ou “centro”, e seus clientes, a periferia da rede
– Do mesmo modo, um agente (cafetão, dona de
prostíbulo) pode ser o centro da rede de profissionais do sexo, e estes profissionais, a periferia
• Esta rede é assim classificada quando a
homofilia é positiva para grupos de alto status e negativa para grupos de baixo status
Redes de estrutura
“centro-periferia”
Redes estruturadas em coortes
• Uma rede estruturada em coortes pressupõe que seus membros tendem a associar-se
inicialmente a indivíduos semelhantes a si
• Os membros podem assemelhar-se por idade, sexo, grau de escolaridade
• Por exemplo, jovens HSH podem preferir associar-se com outros jovens HSH
• O índicador que permite reconhecer uma
estrutura em coortes é a homofilia positiva para cada subgrupo de interesse
Redes de estrutura bipartite
• Estruturas bipartites existem quando os
indivíduos formam laços com outros
diferentes de si; por ex., os parceiros
sexuais de indivíduos heterossexuais
• Em estruturas bipartites, a homofilia será
negativa para cada grupo.
Variância das estimativas
• A variância das estimativas é essencial para estabelecer a confiabilidade de uma estimativa • Em uma simulação com mil repetições de uma
coleta de RSD, uma única estimativa de cada uma dessas amostras é computada
• Uma distribuição dessas estimativas pode então ser computada
Variância das estimativas
• Simulações em estatística geral demonstram que, independentemente do tamanho da
população ou do tamanho da amostra aleatória, quando se tomam repetidamente amostras
aleatórias de mesmo tamanho na mesma população, e se calcula a variância das
estimativas de cada amostra, esses valores se agruparão ao redor do valor exato da variância da população (Rosner, 2000).
• O RDS usa o bootstrap para gerar a estimativa de variância (Efron & Tibshirani, 1993)
Pesos da população
Grupo 1 Grupo 2 Proporções estimadas da população 0.121 0.878 Proporções de amostra da população 0.142 0.857 Proporções de recrutamento 0.136 0.863 Distribuição da amostra de equilíbrio 0.136 0.863 Pesos da população 0.853 1.024Peso < 1 é dado ao Grupo 1 e peso >1 é dado ao Grupo 2 para compensar possíveis vieses.
Estimativas RDS para
proporções de população
Grupo 1 Grupo 2
Proporções estimadas da população 0.121 0.878 Proporções de amostra da população 0.142 0.857 Proporções de recrutamento 0.136 0.863
Distribuição da amostra de equilíbrio 0.136 0.863
Pesos da população 0.853 1.024
Intervalo de confiança do Bootstrap (alfa=0.05)
Proporções estimadas da população Limite mínimo Limite máximo Grupo 1 0.121 0.087 0.161 Grupo 2 0.878 0.838 0.912
Técnica de Bootstrapping
Recrutas Recrutadores Grupo 1 Grupo 2 Total Grupo 1 10 41 51 Grupo 2 44 301 345 Total 54 342 396Estimativas de Bootstrap para
reamostras variantes
Reamostras Grupo 1 (0.121) Grupo 2 (0.878) 10 0.096 – 0.180 0.819 – 0.903 50 0.087 – 0.152 0.847 – 0.912 100 0.081 – 0.151 0.849 – 0.918 500 0.089 – 0.161 0.839 – 0.910 1000 0.088 – 0.159 0.841 – 0.911 2500 0.088 – 0.162 0.837 – 0.911 5000 0.087 – 0.159 0.840 – 0.912 10000 0.086 – 0.160 0.839 – 0.913 15000 0.086 – 0.159 0.840 – 0.913Estimativas de proporção de
amostra (EPA)
• São calculadas mediante a divisão do número de entrevistados com a variável de interesse pelo
tamanho total da amostra
– Por exemplo, a proporção de mulheres na amostra é o número de mulheres da amostra dividido pelo tamanho total da amostra
• As EPA não são representativas da população porque são calculadas sem levar em conta os tamanhos médios das redes
• Todavia, elas ainda representam uma estimativa que pode ser encontrada em uma amostra por cadeia de referência normal
Estimativas de proporção da
população
(EPP)
• São estimativas de proporção obtidas mediante o uso da teoria do RDS descrita acima
• Se todos os pressupostos e exigências do RDS forem satisfeitos, as EPP serão representativas das características encontradas na população-alvo
Estimativas de proporção de
equilíbrio
(EPE)
• São estimativas da proporção da amostra de dois (ou mais) grupos distintos no momento de
convergência
– Por exemplo, se a convergência é atingida na onda 3 do recrutamento (a composição da amostra deixa de
apresentar variação), então as EPE são a proporção de tipos (por ex., mulheres e homens) naquele ponto de convergência
• Geram proporções sem levar em conta as diferenças no tamanho das redes
• Demonstram que a amostra atingiu convergência – uma importante indicação de que não sofreu viés devido à seleção não-aleatória das sementes
Diferenças entre as estimativas de
proporção de população e as estimativas de
proporção de amostra
13,6 38,8 12,2 12,8 43,7 12,3 0 10 20 30 40 50 60 70 80 90 100 Status de HIV (sim) Uso de preservativo no mês anterior (não)Alguma vez foi IDU (sim)
Fatores de risco e status de HIV
EPA EPP P e r c e n t
Avaliando vieses na amostra
• Tamanhos das redes
• Homofilia (índice de conglomerado)
• Recrutamento Diferencial
Vieses em estimativas de amostra
Status atual de HIV Positivo Negativo
Tamanho estimado da rede 6.149 5.490
Homofilia .064 -0.0070
Uso de preservativo no
mês anterior Yes No
Tamanho estimado da rede 6.346 5.102
Homofilia .252 .069
Alguma vez foi UDI Yes No
Tamanho estimado da rede 5.83 5.53