LAISA MARCORELA ANDREOLI SARTES
PROPRIEDADES PSICOMÉTRICAS DA VERSÃO
BRASILEIRA DO ADDICTION SEVERITY INDEX 6 (ASI 6):
Uma abordagem pela Teoria de Resposta ao Item
Tese apresentada à Universidade Federal
de São Paulo – Escola Paulista de
Medicina, para obtenção do Título de
Doutor em Ciências.
Sartes, Laisa Marcorela Andreoli
Propriedades Psicométricas da versão brasileira do Addiction Severity Index 6
(ASI 6): Uma abordagem pela Teoria de Resposta ao Item /
Laisa Marcorela
Andreoli Sartes. – São Paulo, 2010.
(xvii) 179 p.
Tese de Doutorado – Universidade Federal de São Paulo. Escola Paulista de
Medicina. Programa de Pós/Graduação em Psicobiologia.
Psychometric properties of Brazilian version of the Addiction Severity Index 6
(ASI 6): An approach by Item Response Theory.
LAISA MARCORELA ANDREOLI SARTES
PROPRIEDADES PSICOMÉTRICAS DA VERSÃO
BRASILEIRA DO ADDICTION SEVERITY INDEX 6 (ASI 6):
Uma abordagem pela Teoria de Resposta ao Item
Tese apresentada à Universidade Federal
de São Paulo – Escola Paulista de
Medicina, para obtenção do Título de
Doutor em Ciências.
Orientadora: Prof.a. Dra. Maria Lucia Oliveira de Souza Formigoni
São Paulo
UNIVERSIDADE FEDERAL DE SÃO PAULO
ESCOLA PAULISTA DE MEDICINA
PROGRAMA DE PÓS:GRADUAÇÃO EM PSICOBIOLOGIA
PROFA. DRA. MARIA LUCIA OLIVEIRA DE SOUZA FORMIGONI
Chefe do Departamento de Psicobiologia
PROF. DR. MARCO TÚLIO DE MELLO
UNIVERSIDADE FEDERAL DE SÃO PAULO
ESCOLA PAULISTA DE MEDICINA
PROGRAMA DE PÓS:GRADUAÇÃO EM PSICOBIOLOGIA
BANCA EXAMINADORA
Dr. Dalton Francisco Andrade
Dr. Marcelo Santos Cruz
Dra. Maria Lucia O. Souza Formigoni
Dr. Sergio Baxter Andreoli
Dra. Silvia Brasiliano
Suplentes:
Dra. Clarice Gorenstein
Dr. Jair de Jesus Mari
Esta tese foi realizada no Programa de Pós/Graduação
em Psicobiologia da Escola Paulista de Medicina da
Universidade Federal de São Paulo / com o apoio
financeiro
da
Associação
Fundo
Incentivo
a
“Logo que, numa inovação, nos mostram
alguma coisa de antigo, ficamos sossegados.”
AGRADECIMENTOS
Agradeço aos colegas do Departamento que idealizaram e realizaram o primeiro
Curso de Verão em Psicobiologia, por meio do qual conheci e me interessei em
estudar esta disciplina.
A Maria Lucia Oliveira de Souza Formigoni, a quem muito admiro, pelos
ensinamentos, pela amizade e disposição, e por ter me ajudado a crescer nessa
imensidão que é a ciência.
Aos professores e colegas do grupo ASI Félix Kessler, Flávio Pechansky, Marcelo
Cruz, Silvia Brasiliano e Esdras Cabus pelo trabalho que realizamos juntos.
Aos professores Dalton Andrade e Adriano Borgatto, pela disponibilidade e por me
abrirem a possibilidade de novos conhecimentos.
Às amigas Melina Cury, Carolina Botéquio e Vanessa Patrick, entrevistadoras que
foram parte fundamental neste processo.
Aos 740 pacientes que participaram desta pesquisa, sem os quais este trabalho não
teria se realizado, pela paciência durante as entrevistas.
Às clínicas de tratamento para usuários de drogas que me abriram suas portas para
que este trabalho fosse realizado.
Aos queridos amigos da família UDED Eroy, Bia, Marlene, Mara, Angélica, Melina,
Márcia, Priscila, Neuri, Fernanda, Vera, Iracema e Justo pessoas com quem cresci
profissionalmente, agradeço pela amizade, força e por terem tornado a vida mais
gostosa de ser vivida.
Aos meus amigos Vanessa, Leandra, Sandra, Michaela, Lara, Angélica e muitos
outros pelos grandes momentos de alegria, descanso e apoio que sempre me
deram.
Aos meus irmãos, Marcelo e Felipe, e à querida Dalva, pelo apoio, incentivo, amor e
Ao meu pai, Reginaldo, pelo amor, e por ser o
grande incentivo da minha vida para seguir os
caminhos da ciência.
À minha mãe, Cida, por todo amor, apoio e
confiança que sempre depositou em mim
neste caminho.
À minha irmã, Samantha, pelo amor, e por
estar perto de mim nos momentos mais
Ao Fernando, meu marido, meu amor, por todo
apoio, incentivo, grandes momentos de alegria e pela
SUMÁRIO
1. INTRODUÇÃO... 17
1.1. Uso de drogas no Brasil ... 17
1.2. Instrumentos de avaliação do uso de substâncias ... 18
1.3. Propriedades Psicométricas... 20
1.3.1. Validade ... 20
1.3.2. Confiabilidade ... 22
1.3.3. Teoria Clássica dos Testes vs Teoria de Resposta ao Item ... 22
1. 4. Adaptação Transcultural dos Instrumentos... 32
1. 5. Instrumentos de avaliação do uso de substâncias no Brasil e o Addiction Severity Index (ASI)... 33
2. OBJETIVOS... 40
2.1. Gerais ... 40
2.2. Específicos... 40
3. METODOLOGIA... 41
3.1. Metodologia geral do estudo multicêntrico ... 41
3.1.1. Sujeitos ... 41
3.1.2. Instrumentos ... 42
3.1.3. Entrevistadores ... 43
3.1.4. Procedimentos ... 44
3.2. Análise Estatística do estudo das propriedades psicométricas da versão brasileira do ASI 6 utilizando a Teoria de Resposta ao Item ... 45
3.2.1. Tratamento dos Dados... 45
3.2.2. Análises descritivas e escolha dos itens a serem incluídos na análise fatorial pela TRI... 45
3.3. Análises das propriedades psicométricas ... 51
3.3.1. Análises Fatoriais ... 51
3.3.2. Análise pela Teoria de Resposta ao Item (TRI) ... 52
4. RESULTADOS... 64
4.1. ANÁLISES DESCRITIVAS... 64
4.2. ANÁLISES DAS PROPRIEDADES PSICOMÉTRICAS DAS SETE ÁREAS DO ASI 6 DO BRASIL... 68
4.2.1. ÁREA “ÁLCOOL”... 68
4.2.2. ÁREA “DROGAS”... 82
4.2.3. ÁREA “MÉDICA” ... 97
4.2.4. ÁREA “LEGAL” ... 107
4.2.5. ÁREA “PSIQUIÁTRICA” ... 120
4.2.6. ÁREA “SOCIOFAMILIAR” ... 132
4.2.7. ÁREA “EMPREGO/SUSTENTO”... 147
5. DISCUSSÃO... 156
6. CONCLUSÕES... 168
LISTA DE ABREVIATURAS
DSM:IV :Manual de Diagnóstico e Estatístico de Transtornos Mentais CEBRID :Centro Brasileiro de Informações Sobre Drogas Psicotrópicas APA :Associação Psiquiátrica Americana
CID:10 :Classificação Internacional de Doenças OMS :Organização Mundial da Saúde
TCT :Teoria Clássica dos Testes TRI :Teoria de Resposta ao Item AF :Análise Fatorial
CCI :Curva Característica do Item CRC :Curva de Resposta à Categoria
NAEP :National Assessment of Educational Progress ETS :Educational Testing Service
GMAT :Graduate Management Admission Test CITO :Institute for Educational Measurement DIF :Funcionamento Diferencial do Item CAT :Teste Adaptativo Computadorizado
SARESP :Sistema de Avaliação do Rendimento Escolar do Estado de São Paulo SAEB :Sistema Nacional de Educação Básica
ENEM :Exame Nacional do Ensino Médio
ASSIST :Alcohol, Smoking and Substance Involvement Screening Test, DUSI :Drug Use Screening Inventory
CIDI :Composite International Diagnostic Interview ADS :Alcohol Dependence Scale
SADD :Short Alcohol Dependence Data FES :Family Environment Scale
FAM :Family Assessment Measure T:ASI :Teen Addiction Severity Index ESA :Escala de Severidade de Alcoolismo IDS :Inventory of Drinking Situations
ASI :Addiction Severity Index – Escala de Gravidade de Dependência SS:Rs :Escores Resumo de Funcionamento Recente
UDED :Unidade de Dependência de Drogas
PROJAD :Programa de Estudos e Assistência ao Uso Indevido de Drogas PROMUD :Programa de Atenção à Mulher Dependente Química
CETAD :Centro de Estudos e Terapia do Abuso de Drogas CPAD :Centro de Pesquisa em Álcool e Drogas
WHOQOL :Qualidade de Vida EAS :Escala de Ajustamento Social
MINI :Mini International Neuropsychiatry Interview ASRS :Adult Self/Report Scale
LISTA DE TABELAS
Tabela 1 :Perfil sociodemográfico dos 740 pacientes avaliados. Dados expressos em porcentagem, exceto quando explicitado
Tabela 2 : Freqüência do uso de substâncias dos 740 entrevistados nos últimos 30 dias. Dados expressos em porcentagem.
Tabela 3 :Escores Resumidos de Funcionamento Recente (SS/Rs) referentes a problemas ocorridos nos últimos 30 dias entre os indivíduos nas sete áreas do ASI 6. Dados expressos em média ± DP
Tabela 4 :Análise fatorial com todos os itens da área “Álcool”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.
Tabela 5 : Porcentagem de respostas dadas aos itens dicotômicos da área “Álcool” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (ausência de respostas).
Tabela 6 : Porcentagem de respostas dadas aos itens politômicos da área “Álcool” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR (ausência de resposta).
Tabela 7 :Parâmetros de discriminação ( ) e de dificuldade ) de todos os itens da área “Álcool” avaliados pela TRI.
Tabela 8 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Álcool”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora avaliados pela TRI.
Tabela 9 :Análise fatorial com todos os itens da área “Drogas”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.
Tabela 10 :Porcentagem de respostas dadas aos itens dicotômicos da área “Drogas” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (dados não respondidos).
Tabela 11 : Porcentagem de respostas dadas aos itens politômicos da área “Drogas” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR (ausência de resposta)
Tabela 12 :Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Drogas” avaliados pela TRI.
Tabela 13 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Drogas”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora
Tabela 14 : Análise fatorial com todos os itens da área “Médica”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.
Tabela 15 :Porcentagem de respostas dadas aos itens dicotômicos da área “Médica” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (dados não respondidos).
Tabela 16 : Porcentagem de respostas dadas aos itens politômicos da área “Médica” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR.
Tabela 17 :Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Médica” analisados pela TRI.
Tabela 18 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Médica”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora, analisados pela TRI.
Tabela 19 :Análise fatorial com todos os itens da área “Legal”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.
Tabela 20 : Porcentagem de respostas dadas aos itens dicotômicos da área “Legal” do ASI 6 nas categorias: menor gravidade, maior gravidade, politômico nas 5 categorias e AR (dados não respondidos).
Tabela 21 : Parâmetros de discriminação (a) e dificuldade (b) de todos os itens da área “Legal” avaliados pela TRI.
Tabela 23 : Análise fatorial com todos os itens da área “Psiquiátrica”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.
Tabela 24 :Porcentagem de respostas dadas aos itens dicotômicos da área “Psiquiátrica” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (ausência de respostas).
Tabela 25 : Porcentagem de respostas dadas aos itens politômicos da área “Psiquiátrica” do ASI 6 nas categorias “não”, “sim, associado a drogas” e “sim, não associado a drogas” e AR (ausência de resposta).
Tabela 26 : Porcentagem de respostas dadas aos itens politômicos da área “Psiquiátrica” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR (ausência de resposta).
Tabela 27 : Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Psiquiátrica”, analisados pela TRI.
Tabela 28 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Psiquiátrica”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora, avaliados pela TRI.
Tabela 29 : Análise fatorial com todos os itens da área “Sociofamiliar”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.
Tabela 30 :Porcentagem de respostas dadas aos itens dicotômicos da área “Sociofamiliar” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (dados não respondidos).
Tabela 31 : Porcentagem de respostas dadas aos itens politômicos da área “Sociofamiliar” nas categorias 1, 2, 3, 4 e 5 e de AR (ausência de resposta).
Tabela 32 : Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Sociofamiliar”.
Tabela 33 : Parâmetros de discriminação ( ) e de dificuldade ( ) dos itens selecionados da área “Sociofamiliar”; posicionamento dos itens na escala de gravidade e identificação dos itens âncora. Tabela 34 :Análise fatorial com todos os itens da área “Emprego/Sustento”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.
Tabela 35 :Porcentagem de respostas dadas aos itens dicotômicos da área “Emprego/Sustento” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (ausência de resposta).
Tabela 36 : Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Emprego/Sustento” analisados pela TRI.
LISTA DE FIGURAS
Figura 1 : Exemplo de Curva Característica do Item (CCI) para itens dicotômicos. A CCI indica a probabilidade de resposta positiva a um dado item (eixo y) em função da intensidade (ou nível) do traço latente do indivíduo (valores de b no eixo x). A inclinação da curva indica a capacidade de discriminação do item e a projeção do valor deano eixo x indica o valor debpara o item.
Figura 2 :Exemplos de Curvas Características de três itens, com alta discriminação (item A), média discriminação (item B) e pouca discriminação (item C).
Figura 3/ Exemplo de Curva Característica do Item (CCI) de um item politômico.
Figura 4 :Representação da escala do traço latente.
Figura 5 :Curvas Características dos Itens da área (CCIs) “Álcool” do ASI 6, analisadas pela TRI.
Figura 6 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas com álcool do ASI 6 utilizando o subconjunto de itens selecionados pela TRI.
Figura 7 :Curvas Características dos Itens da área “Drogas” do ASI 6, analisadas pela TRI.
Figura 8 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas com drogas utilizando o subconjunto de itens selecionados do ASI 6.
Figura 9 :Curvas Características dos Itens (CCIs) da área “Médica” do ASI 6, analisados pela TRI.
Figura 10 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas médicos utilizando o subconjunto de itens selecionados pela TRI.
Figura 11 : Curvas Características dos Itens selecionados da área “Legal” do ASI 6, avaliadas pela TRI.
Figura 12 :Distribuição de freqüência dos entrevistados na escala de gravidade de problemas legais utilizando o subconjunto de itens selecionados do ASI 6.
Figura 13 :Curvas Características dos Itens (CCIs) da área “Psiquiátrica” do ASI 6, analisadas pela TRI.
Figura 14 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas psiquiátricos utilizando o subconjunto de itens selecionados pela TRI.
Figura 15 :Curvas Características do Item F15 Original, com 5 categorias: 1) nada, 2) levemente, 3) moderadamente, 4) consideravelmente e 5) extremamente grave e Recategorizado pelo agrupamento das categorias 2 e 3 (com 4 categorias): 1) nada, 2) leve/moderadamente (curva azul), 3) consideravelmente (curva rosa) e 4) extremamente grave (curva verde) da área “Sociofamiliar” do ASI 6 analisadas pela TRI.
Figura 16 :Curvas Características do Item F47 Original, com 5 categorias: 1) nada, 2) levemente, 3) moderadamente, 4) consideravelmente e 5) extremamente grave e Recategorizado pelo agrupamento das categorias 2, 3 e 4 (com 3 categorias): 1) nada, 2) leve/moderadamente/consideravelmente (curva azul), 3) extremamente grave (curva rosa), da área “Sociofamiliar” do ASI 6, analisadas pela TRI.
Figura 17 :Curvas Características dos Itens (CCIs) da área “Sociofamiliar” do ASI 6, analisadas pela TRI.
Figura 18 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas sociofamiliares utilizando o subconjunto de itens selecionados da área “Sociofamiliar” do ASI 6.
Figura 19 :Curvas Características dos Itens (CCIs) de todos os itens da área “Emprego/Sustento” do ASI 6, analisadas pela TRI.
RESUMO
Embora amplamente utilizado em vários países para planejamento de tratamento de
pessoas com problemas decorrentes do uso abusivo de substâncias psicotrópicas, a
versão em português do instrumento Addiction Severity Index (Escala de Gravidade de Dependência / 6ª. edição / ASI 6), ainda não havia sido avaliada quanto a algumas
propriedades psicométricas. Este estudo transversal, que fez parte de um projeto
multicêntrico internacional, teve por objetivo avaliar as propriedades psicométricas das sete
áreas da versão brasileira do ASI 6 utilizando modelos da Teoria de Resposta ao Item (TRI)
e com base nesta análise, selecionar os melhores itens, visando propor uma versão
reduzida do ASI 6. O ASI 6 foi aplicado a 740 pacientes em tratamento especializado para
dependência de álcool e/ou outras drogas, localizados em quatro cidades brasileiras: Porto
Alegre, São Paulo, Rio de Janeiro e Salvador. Com os dados colhidos, foram realizadas
análises fatoriais (AFs) para avaliar a existência de unidimensionalidade da área e, sendo
esta confirmada, aplicados dois modelos paramétricos da Teoria de Resposta ao Item
(TRI). Cada item foi avaliado em relação a dois parâmetros: a) sua capacidade de
discriminação de pessoas quanto à intensidade do traço latente (gravidade de problemas
em cada área avaliada) e b) dificuldade do item para gerar respostas afirmativas. Com
base nestes parâmetros foi estudada, em cada área, a distribuição dos itens e das pessoas
numa escala dos diferentes níveis de gravidade do traço latente. As características das
pessoas que se encontram em cada nível de gravidade foram descritas considerando os
itens que os compõem. Segundo as análises baseadas na TRI, com exceção da área
“Emprego/Sustento”, todas as outras seis áreas apresentaram boas propriedades
psicométricas. Cerca de um terço dos itens originais apresentou índices adequados de
discriminação e dificuldade. Desta forma, para compor uma versão reduzida do ASI, foram
selecionados 96 dos 344 itens (incluindo aqui os subitens dos 252 itens originais) pela
eliminação dos itens pouco discriminativos ou de extrema dificuldade para gerar respostas
afirmativas. No caso da área “Emprego/Sustento” a seleção de itens foi baseada na AF. A
estrutura dos construtos de cada uma das sete áreas do ASI 6 foi avaliada com base na
associação da interpretação das análises baseadas na TRI e das AFs. Tal análise indicou
que cada área pode ser considerada unidimensional, a partir de um subconjunto de itens,
por possuir um construto principal identificável. Uma redução significativa do ASI 6,
construída com base nos itens selecionados, poderá ser útil tanto em pesquisa clínica,
como no planejamento de tratamento de pessoas com problemas decorrentes do uso
abusivo de substâncias psicotrópicas, reduzindo o tempo necessário para sua aplicação,
sem que haja perda das principais informações por ele fornecidas.
1. INTRODUÇÃO
1. 1. Uso de drogas no Brasil
Os transtornos relacionados ao consumo de álcool e outras drogas salientam/se
como um grave problema de saúde pública em vários países do mundo e no Brasil. O fato
de ser comum a experimentação de drogas, principalmente na adolescência, nem sempre
acarretará no desenvolvimento de problemas significativos (Tarter, 1990). A relação entre o
uso experimental e o desenvolvimento da dependência de substâncias se dá por um
continuum no qual o indivíduo passa por diferentes padrões de uso de drogas até atingir
padrões problemáticos de uso, denominados pelo Manual de Diagnóstico Estatístico de
Transtornos Mentais (DSM/IV, APA, 1994) de abuso e dependênciaa de substâncias.
Entretanto, parte dos indivíduos acaba por desenvolver ao longo da vida problemas em
outras áreas da vida relacionados ao uso de substâncias. Segundo dados de dois
levantamentos domiciliares realizados no Brasil pelo CEBRID (Centro Brasileiro de
Informações Sobre Drogas Psicotrópicas), em 2001 e 2005, com amostra representativa da
população das 108 maiores cidades do país, incluindo pessoas entre 12 e 65 anos, a
prevalência de dependentes de álcool aumentou de 11,2% para 12,3%. Em 2005, a
prevalência de dependência de álcool entre os homens foi de 19,5% e entre as mulheres de
6,9%, enquanto para o tabaco a diferença foi menor, sendo 11,3% entre os homens e 9%
entre as mulheres. Entre os adolescentes de 12 a 17 anos, 54,3% informaram já ter feito uso
de álcool na vida e 15,2% de tabaco (Carlini et al., 2007, Galduróz et al., 2005).
Além desse estudo, foram realizados cinco levantamentos sobre o uso de drogas
entre estudantes do ensino médio e fundamental em dez capitais brasileiras, entre 1987 e
1997 e nas 27 capitais em 2004. A análise dos quatro primeiros levantamentos mostrou que
as drogas mais utilizadas foram o álcool, o tabaco e os solventes. Observou/se, no período,
um aumento significativo do uso na vida, freqüente (seis vezes ou mais no mês) e pesado
(vinte vezes ou mais no mês) de vários tipos de drogas psicoativas (Galduróz et al., 1997;
2004). O uso pesado de maconha aumentou nas 10 capitais pesquisadas, bem como o uso
de álcool em oito delas. No levantamento de 2004, realizado com estudantes do ensino
médio e fundamental das 27 capitais brasileiras, foi confirmado maior uso na vida de
maconha, cocaína, solventes, anticolinérgicos, tabaco, crack, energéticos e esteróides
anabolizantes entre estudantes do sexo masculino, enquanto que as mulheres usaram mais
freqüentemente álcool e medicamentos sem prescrição médica, principalmente os
ansiolíticos e anfetamínicos (Galduróz et al., 2004).
1.2. Instrumentos de avaliação do uso de substâncias
Embora, segundo dados históricos, o uso de drogas exista desde os primórdios da
humanidade, inserido nos mais diversos contextos (Bucher, 2002), somente a partir de
1952, a Organização Mundial da Saúde reconheceu o alcoolismo como uma doença
(Garcia/Mijares & Silva, 2006). Este conceito também foi incorporado no lançamento da
primeira edição do DSM (Manual Diagnóstico e Estatístico de Transtornos Mentais), pela
Associação Psiquiátrica Americana (1952) passando a dependência de álcool e outras
drogas a ser considerada um transtorno mental. Somente a partir da década de 1960,
iniciou/se o desenvolvimento de instrumentos padronizados para avaliar, não somente
outros transtornos psiquiátricos, mas também a dependência de substâncias (Jorge, 2000).
Diversos tipos de instrumentos foram desenvolvidos com diferentes objetivos, sendo
os mais comuns: a) os instrumentos para triagem, destinados a identificar pessoas que
instrumentos para diagnósticode abuso (ou uso nocivo) e dependência de drogas, segundo,
respectivamente, os critérios do DSM/IV (APA, 1994) e da CID/10 (Classificação
Internacional de Doenças – 10ª edição, OMS, 1993); c) instrumentos para avaliação do
consumo de álcool e drogas, destinados a caracterizar e/ou medir quantidade, freqüência,
intensidade e padrão de consumo; d) instrumentos para avaliação de comportamentos
associados ao consumo de álcool e drogas, utilizados para avaliar diversos aspectos como
por exemplo: situações de uso ou de risco, auto/eficácia e capacidade de enfrentamento; e)
instrumentos para avaliação do comprometimento de outras áreas, utilizados para avaliar
outras áreas da vida do indivíduo, como moradia, emprego, problemas legais, social,
familiar, psicológico entre outras; f) instrumentos para planejamento do tratamento,
utilizados para auxiliar no plano inicial do tratamento, não apenas quanto ao uso de drogas,
mas também envolvendo outras áreas da vida; g)instrumentos para análise do processo de
tratamento,para avaliar fatores alterados pela mudança de consumo ou que a influenciam; e
h) instrumentos para avaliação dos resultados, que são aplicados ao final do tratamento
para detectar possíveis mudanças ocorridas (Jorge, 2000).
A escolha do instrumento adequado para cada situação dependerá do objetivo do
clínico ou o pesquisador. Segundo Formigoni & Castel (2000) essa escolha deve ainda ser
norteada por outros critérios, dentro dos quais: o período da vida do sujeito que se pretende
avaliar; a população/alvo; o tipo de administração que cada instrumento exige; se o
instrumento necessita de treinamento para ser aplicado; a possibilidade de se obter escores
computadorizados e o custo financeiro.
Embora existam no Brasil diversos tipos de tratamento oferecidos para pessoas
dependentes de substâncias, sua efetividade nem sempre é avaliada de forma adequada,
algumas vezes por falta de desenvolvimento e padronização de instrumentos de pesquisa
adaptados às características de nossa população. Estes instrumentos são necessários
também para o planejamento do tratamento dos dependentes de álcool e outras drogas. No
sentido de padronizar adequadamente esses instrumentos, metodologias de pesquisa, em
grande parte baseadas em técnicas estatísticas, foram desenvolvidas a fim de mensurar
1.3. Propriedades Psicométricas
Segundo Pasquali (1997), as avaliações psicométricas dos testes passaram por
diferentes fases tendo início por volta da década de 1880 com Galton, cujos trabalhos
visavam a avaliação das aptidões humanas por meio da média sensorial. Nas décadas
seguintes, Cattell (1890) focou seus trabalhos sobre as diferenças individuais e Binet (1900)
na avaliação das aptidões humanas sobre o ponto de vista acadêmico e de saúde, baseado
nas propostas de avaliação de Spearman. Esta era também pode ser considerada a era de
Spearman, em cujos trabalhos, especialmente relacionados à correlação de Spearman,
basearam/se os fundamentos para o desenvolvimento da Teoria Clássica dos Testes (TCT).
Após o desenvolvimento da TCT, emergiu a era dos testes de inteligência (1910 a 1930), a
década da análise fatorial (1930), a era da sistematização (1940 a 1980) e, por fim, a era da
psicometria moderna, em 1980, centrada na Teoria de Resposta ao Item.
Com base na TCT, desenvolveram/se as avaliações psicométricas clássicas em
que são baseadas a maioria das análises para avaliação davalidadee confiabilidadedos
testes.
1.3.1. Validade
A validade de um instrumento pode ser definida como sua capacidade de realmente
medir aquilo a que se propõe a medir (Kelsey, et al., 1996, Portney & Watkins, 1993),
Pasquali, 1997). Segundo Almeida Filho et al. (1989), a validade envolve um componente
conceitual, que se refere ao julgamento subjetivo do pesquisador sobre se o instrumento
mede o que deveria medir, e um componente operacional, que envolve uma avaliação
sistemática do instrumento, utilizando/se de métodos específicos e/ou técnicas estatísticas
para isso.
Existem diversos métodos de investigação operacional da validade de um
Meehl (1955) que engloba três aspectos: validade de conteúdo, validade de critério e
validade de construto(Anastasi, 1998, O’Leary’Kelly & Vokurka, 1998).
Avalidade de conteúdorefere/se à abrangência com que o universo do fenômeno a
ser testado é captado pelo instrumento (Portney & Watkins, 1993). Essa validade assegura
que os itens de um instrumento cobrem e representam adequadamente o que está sendo
medido, assim como permite que qualquer escore seja interpretado de forma apropriada. A
avaliação da validade de conteúdo é dada a partir de um consenso entre especialistas e
pela adequação com que os itens são colocados na escala (Goldstein & Simpson, 1995).
Embora não haja técnicas estatísticas para avaliação da validade de conteúdo, são
propostos alguns métodos para sua avaliação, como o Índice de Validade de Conteúdo
(IVC) proposto por Waltz, Strickland e Lenz (1991), em que uma proporção é calculada a
partir do número de itens avaliados como equivalentes por dois especialistas dividido pelo
número total de itens.
A validade de critério é determinada pela comparação do instrumento em avaliação
com um instrumento padrão que avalia especificamente as características daquilo que se
está medindo. Calcula/se então, o grau em que os instrumentos diferem (Menezes &
Nascimento, 2000, Pasquali, 1997). O instrumento padrão é também denominado “padrão+
ouro” ou “gold standard”, sendo comumente outro instrumento já validado no país, que
avalia o mesmo tipo de conteúdo do instrumento que está sendo testado. No caso de
ausência deste tipo de instrumento, avaliações e/ou diagnósticos clínicos podem ser
utilizados.
A validade de construto se refere à capacidade do instrumento de efetivamente
medir um conceito teórico específico / o construto + que pode se referir a um processo
psicológico ou a características dos indivíduos (Bruscato, 1998, Menezes & Nascimento,
2000, Strauss & Smith, 2009). Os métodos para avaliação da validade de construto levam
em consideração o relacionamento entre o construto e variáveis observáveis (itens), por
meio de três aspectos: a unidimensionalidade, que examina se os itens têm um ajuste
aceitável sobre uma dimensão singular; avalidade convergenteque examina se os itens do
estão relacionados a outros construtos que não o principal que está sendo avaliado (Strauss
& Smith, 2009).
1.3.2. Confiabilidade
A confiabilidade se refere à reprodutibilidade de uma medida, ou seja, o grau de
concordância entre múltiplas medidas de um mesmo objeto inter e intra indivíduos
(Armstrong, White & Saracci, 1994). A confiabilidade é importante para testar o quanto o
instrumento é estável, de forma que se for utilizado por diferentes pessoas ou em situações
e momentos diferentes, os resultados obtidos serão muito semelhantes, pressupondo/se
que o fenômeno em si não tenha sofrido alterações. Várias técnicas podem ser utilizadas
para avaliação da confiabilidade, sendo as mais conhecidas a confiabilidadeteste+reteste, a
técnica das metadese ocoeficiente α de Cronbach.
1.3.3. Teoria Clássica dos Testes
Teoria de Resposta ao Item
A maioria dos métodos operacionais utilizados para avaliar a validade e
confiabilidade dos instrumentos são baseados na Teoria Clássica dos Testes (TCT). A TCT
compreende um conjunto de conceitos e técnicas que tem sido utilizada como base para o
desenvolvimento de numerosos instrumentos de medidas e como ponto de referência para
abordagens de medidas psicométricas (DeVellis, 2006). Uma vez que seus postulados são
pouco exigentes e pouco numerosos, ela pode ser utilizada numa grande variedade de
situações (Grégoire & Laveault, 2002). Segundo Grégoire e Laveault, a TCT tem como
objetivo fundamental o resultado total obtido por cada pessoa num teste e é baseada em
sete postulados principais. O primeiro deles faz referência ao fato de que o resultado
observado do indivíduo ( ) resulta da soma do resultado verdadeiro do indivíduo ( : valor
real) com o erro de medida associado a esse mesmo resultado ( : variável aleatória),
representar o resultado observado . O segundo postulado é uma conseqüência do
primeiro. Estipula que o valor esperado para o resultado observado é o resultado verdadeiro.
Isto significa que a precisão de um resultado aumenta com o número de observações. De
fato, se fosse possível que um mesmo indivíduo respondesse mais de uma vez ao mesmo
teste de forma independente, a média dos resultados acabaria por ser o resultado
verdadeiro. O terceiro postulado afirma que não há correlação entre o erro de medida e o
resultado verdadeiro do indivíduo, ou seja, o erro não varia se o indivíduo possuir um
resultado verdadeiro maior ou menor. Para DeVellis (2006) este postulado refere/se ao erro
aleatório. O quarto postulado estipula que os erros de dois testes diferentes aplicados ao
mesmo indivíduo não se correlacionam entre si. O quinto postulado alega que não há
correlação entre o erro de medida de um teste e o resultado verdadeiro de outro teste
aplicado ao mesmo indivíduo. Em decorrência dos anteriores, para o sexto postulado, dois
testes são paralelos somente se os seus resultados verdadeiros e erros de medida forem
iguais, sendo assim, os dois testes paralelos terão a mesma média e a mesma variância dos
resultados observados. O último postulado define o que é um teste tau/equivalente.
Consideram/se dois testes como tau/equivalentes sempre que os seus resultados
verdadeiros diferem por uma constante aditivak. Sendo assim, se três indivíduos obtêm os
resultados 20, 29 e 15 num teste e 26, 35 e 21 em outro, estes dois testes são tau/
equivalentes e a constantek é igual a 6. Em resumo, os sete postulados da TCT assumem
que os erros aleatórios de medida devem ser independentes em qualquer circunstância, ou
seja, as condições detesting devem ser de modo a não haver correlação entre o resultado
verdadeiro de um indivíduo e o erro de medida, nem entre o erro de medida de dois testes
diferentes. Diversas técnicas utilizam a TCT como base para avaliação dos testes, como o
coeficiente de confiabilidade, alfa de Cronbach, a correlação bisserial, correlações de
Pearson e Spearman, entre outros.
A análise dos itens é um procedimento que visa selecionar os melhores itens a
partir de um conjunto de itens muitas vezes maior que o necessário. É realizada através das
bases da TCT, avaliando principalmente duas características dos itens: a dificuldade e a
O parâmetro de dificuldade do item na TCT é dado pela proporção dos indivíduos
que respondem afirmativamente ao item, no caso dos itens dicotômicos, e pela proporção
de respostas a uma categoria de escolha no caso dos itens politômicos, ou ainda pela média
das respostas de todos os indivíduos (DeVellis, 2006, Grégoire & Laveault, 2002). O índice
de dificuldade varia entre 0 e 1, sendo que caso seu valor seja igual a zero, significa que
nenhum indivíduo respondeu ao item afirmativamente, ou que nenhum aluno acertou o item,
em uma prova de matemática, por exemplo. E ao contrário, se o índice for igual a 1, significa
que todos os alunos acertaram o item. Entretanto, a interpretação dos índices de dificuldade,
assim como a dos índices de discriminação dos itens, não pode ser realizada isoladamente,
mas em função do contexto no qual o instrumento é utilizado. Por exemplo, não é possível
dizer que um item em que 90% das pessoas responderam afirmativamente é fácil, já que
essa interpretação depende das características da amostra de indivíduos. Dois fatores
podem influenciar a interpretação do índice de dificuldade: o número de respostas omitidas
e a probabilidade de um indivíduo responder corretamente ao item, ao acaso. Sendo assim,
se um grande número de indivíduos não respondeu ao item por falta de tempo, o índice de
dificuldade não será avaliado corretamente.
O parâmetro de discriminação visa diferenciar o grupo de indivíduos que tiveram
alta pontuação total dos que tiveram baixa pontuação total no teste. Nesta perspectiva, um
item discriminante é aquele que é respondido corretamente (ou afirmativamente) por uma
alta proporção dos indivíduos que obtiveram um resultado elevado no escore total do teste e
por uma baixa proporção daqueles que obtiveram baixa pontuação. O item é mais
discriminativo quanto maior for o seu valor. O índice de discriminação pode assumir
qualquer valor entre /1 e +1, correspondendo à diferença entre o índice de dificuldade dos
indivíduos que obtiveram uma pontuação elevada no escore total do teste e o índice de
dificuldade dos indivíduos que obtiveram uma pontuação baixa no escore total do teste. Um
índice de discriminação de valor zero indica que o item foi respondido afirmativamente na
mesma proporção pelos dois grupos. Um índice de valor negativo indica que o item foi
respondido afirmativamente em maior proporção pelo grupo com escore total baixo,
pelo grupo com maior pontuação no escore total. Alguns estudos utilizam a divisão dos
indivíduos em dois grupos, os 27% superiores (que obtiveram os escores mais altos) e os
27% inferiores (que obtiveram os escores mais baixos), proposta por Kelley (1939 apud
Grégoire & Laveault, 2002). Kelley mostrou que essa percentagem apresenta a melhor
sensibilidade no cálculo desse indicador. Os melhores 27% dos alunos são denominados
Massa Superior, e os 27% dos alunos mais fracos, Massa Inferior.
Outra forma de calcular a discriminação é através do índice correlacional que se
baseia na correlação entre o resultado do item e o resultado total do exame. A escolha do
método a ser utilizado dependerá da natureza das escalas dos itens sendo avaliados. Um
exemplo é a correlação de Pearson nos casos em que são avaliadas médias de variáveis
numéricas. Para escalas de medida de outras naturezas, existem métodos alternativos
como a correlação de Spearman, coeficiente de correlação ponto/bisserial que utiliza o
cálculo da correlação de Pearson, correlaçãophie correlação tetracórica.
Após o desenvolvimento da TCT, a partir dos trabalhos de Thurstone, por volta de
1930 foi desenvolvida a análise fatorial (AF), que é uma análise multivariada amplamente
utilizada para avaliar a dimensionalidade dos instrumentos de medida. Ela abrange um
conjunto de técnicas estatísticas cujo objetivo é representar ou descrever um maior número
de variáveis iniciais, utilizando um menor número de variáveis hipotéticas (fatores) obtidas
como função das variáveis originais (Reis, 2001). A AF tem como base a estrutura de
dependência existente entre as variáveis de interesse (em geral representada pelas
estruturas de correlação ou covariância das mesmas), permitindo a criação de um conjunto
menor de variáveis (variáveis latentes, ou fatores). Além disso, é possível saber o quanto
cada fator está associado a cada variável e o quanto da variabilidade geral dos dados
originais é explicado pelo conjunto de fatores (Reis, 2001, Pereira, 2001). Assim, o objetivo
da análise fatorial é a parcimônia, procurando definir o relacionamento entre as variáveis de
modo simples e usando um número de fatores menor que o número original de variáveis. Os
dois métodos mais conhecidos para a estimação dos fatores são a máxima verossimilhança,
requer apenas que os dados estejam numa escala numérica e que guardem, entre si,
estruturas de correlação ou covariância, não assumindo nenhuma suposição sobre a
distribuição dos dados. Embora a AF seja amplamente utilizada, principalmente para avaliar
a dimensionalidade dos construtos dos instrumentos, ela permite apenas verificar se os
dados são consistentes ou não com a estrutura fatorial postulada. Quando os dados são
compatíveis com várias estruturas latentes, a análise fatorial não nos permite determinar
qual devemos escolher, sendo tal escolha feita em bases teóricas. Além disso, a AF
apresenta dificuldades com conjuntos de dados mistos, ou seja, instrumentos que
apresentam variáveis dicotômicas, politômicas e numéricas. Em particular, sobre variáveis
dicotômicas e politômicas, os itens podem ser levados a formar estruturas dimensionais
incorretas. Isto pode ocorrer, inclusive, quando são utilizadas AF tetracórica e policórica
(Hambleton & Rovinelli, 1986; Hattie, 1985; McDonald & Ahlawat, 1974). Outra limitação da
AF é relativa à suposição de linearidade na relação dos itens com o construto, ou seja, o
construto é representado pela soma ponderada das respostas aos itens, sendo os pesos
dados pelas cargas fatoriais. Por conseguinte, esta análise nos dá informações necessárias,
mas não suficientes (Grégoire & Laveault, 2002).
Ainda que a TCT tenha sido útil para o desenvolvimento dos testes psicológicos
e continue sendo largamente utilizada, suas limitações têm sido discutidas há muitas
décadas (Gulliksen, 1950, Hambleton & Slater, 1997, Lord & Novick, 1968, Rasch, 1961).
Atualmente, diversos trabalhos têm apresentado e discutido essas limitações, propondo
novas formas de avaliação de medidas psicométricas (Andrade, Tavares & Valle, 2000, De
Champlain, 2010, Embretson & Reise, 2000, Hambleton & Slater, 1997, Pasquali & Primi,
2003, Vendramini, Silva & Canale, 2004). A principal limitação refere/se ao fato de que todas
as medidas baseadas na TCT são dependentes da amostra dos indivíduos que
responderam ao instrumento. Isto significa que as avaliações do teste são válidas somente
se a amostra for representativa ou se o instrumento for utilizado em outra amostra com
características semelhantes (Embretson & Reise, 2000, Hambleton & Slater, 1997). Uma
segunda limitação refere/se ao fato de que testes diferentes com índices de dificuldade e
escore observado e o escore verdadeiro aumentam ou diminuem conforme as
características do instrumento, sendo, portanto,teste+dependentes. Uma terceira limitação é
que a TCT não permite a comparação de indivíduos que não foram submetidos ao mesmo
teste.
Outro problema da TCT é com relação à avaliação da fidedignidade, a qual exige
que dois testes aplicados ao mesmo grupo, para avaliar a confiabilidade, devem ter formas
estritamente paralelas, ou seja, produzir escores verdadeiros idênticos e variâncias também
iguais. Esta situação é difícil de ser alcançada devido aos vieses relativos ao contexto do
delineamento de pesquisa como a aprendizagem, o cansaço, a motivação etc., discutidos
nos trabalhos de Campbell e Stanley (1973) (apud Pasquali & Primi, 2003). Um quinto
problema na teoria tradicional de medida consiste na suposição de que a variância dos erros
de medida de todos os indivíduos é a mesma, suposição de difícil sustentação, pois parece
claro que alguns indivíduos realizam o teste de forma mais consistente do que outros
(Hambleton & Swaminathan, 1985).
Outras limitações da TCT são exploradas por Embretson e Reise (2000) como a
suposição de que testes longos são mais confiáveis do que testes curtos e que as
propriedades de um intervalo da escala que está sendo medida são obtidas somente se a
distribuição de freqüência dos escores for normal. Além disso, instrumentos que contém
itens com formatos mistos (dicotômicos, numéricos e politômicos), conduzem a um escore
total dos indivíduos desbalanceado.
Embora as críticas à TCT sejam antigas, apenas após os anos 50 os
psicometristas começaram a descobrir uma solução para o problema, baseados na teoria do
traço latente de Lazersfeld (1959) e nos trabalhos de Lord (1952) e do dinamarquês Rasch
(1961), os quais se tornaram as bases da moderna Teoria de Resposta ao Item (TRI). A
TRI, também conhecida como a Teoria do Traço Latente, foi finalmente axiomatizada por
Birnbaum em 1968 e por Lord em 1980 (Pasquali & Primi, 2003). A TRI deve ser entendida
como um conjunto de modelos psicométricos para desenvolver e refinar medidas
da psicometria clássica e traz uma nova proposta estatística, a de análise centrada nos
itens, que supera as limitações da teoria clássica, além de apresentar novos recursos
tecnológicos para a avaliação psicológica e educacional (Primi, 1998).
A TRI parte da suposição de que existe no indivíduo umtraço latente, representado
pela letraθ(teta), relativo a uma característica do indivíduo como, por exemplo, a gravidade
da dependência de drogas, o nível de depressão, ou o quanto ele sabe sobre matemática. O
traço latente determinará como o indivíduo responderá aos itens de um instrumento,
estabelecendo com cada item uma relação de probabilidade de resposta (Fletcher, 1994).
Tal probabilidade é determinada pelas características (parâmetros) de cada item por meio
de uma função matemática, tipicamente logística. O primeiro passo para aplicação da TRI é
a avaliação ou, como se diz, estimação dos parâmetros dos itens, que pode ser feita por
diferentes modelos estatísticos propostos pela TRI. A utilização dos modelos é baseada no
número de populações envolvidas, na natureza das respostas ao item (dicotômico ou não
dicotômico), na dimensionalidade do instrumento (Vendramini, Silva & Canale, 2004) e no
número de parâmetros a ser avaliados.
Para itens dicotômicos, a função matemática é referida como uma Curva
Característica do Item (CCI) e para itens politômicos, a relação entre o traço latente e a
resposta a uma das categorias é determinada pela Curva de Resposta à Categoria (CRC –
também denominada CCI, por alguns autores). Um modelo comum aplicado a itens
dicotômicos é o modelo logístico de dois parâmetros, o qual avalia as características de
dificuldade e discriminação dos itens. Entretanto, diversos outros modelos são propostos
como, por exemplo, o modelo logístico de um parâmetro, que avalia apenas a dificuldade
dos itens e o modelo de três parâmetros que avalia ainda a probabilidade de acerto de um
item ao acaso (Andrade, Tavares & Valle, 2000, Reise & Waller, 2009). Dentre os modelos
mais comuns para itens politômicos encontramos o modelo de resposta gradual
(Samejima,1969), que pode ser visto como uma generalização do modelo logístico de dois
parâmetros. Além destes modelos designados paramétricos, podem ser encontrados na
(Ark, 2007). Considerando/se que estes modelos têm suposições relativas à exigência de
unidimensionalidade do traço latente, modelos multidimensionais foram propostos para
avaliar instrumentos que não preenchem este critério. Entretanto, os modelos
multidimensionais são considerados mais complexos e ainda pouco aplicados e estudados.
As duas principais suposições para a utilização da maioria dos modelos da TRI
são a unidimensionalidade e a independência local (Andrade, Tavares & Valle, 2000,
Embretson & Reise, 2000). Pasquali & Primi (2003) consideram que as suposições podem
ser frustrantes para os pesquisadores porque elas não podem ser empiricamente
demonstradas e nem possuem bases lógicas, isto é, elas são hipóteses. A
unidimensionalidade é o postulado de que há apenas um traço latente, ou construto,
responsável pelas respostas dos indivíduos aos itens. É plausível dizer que o
comportamento humano é multideterminado, sendo assim, os modelos que utilizam essa
premissa admitem que haja um traço latente dominante (Andrade, Tavares & Valle, 2000)
conhecido na análise fatorial como fator dominante. Alguns autores discutem outros
métodos de avaliação da dimensionalidade além da análise fatorial clássica, como a análise
fatorial tetracórica para itens dicotômicos, a policórica, para itens politômicos e os métodos
de máxima verossimilhança (Andrade, Tavares & Valle, 2000). Apesar disso, ainda há
contradições entre os autores sobre o que seja a unidimensionalidade e como ela deve
estimada (Pasquali & Primi, 2003).
A suposição sobre a independência local postula que, se o traço latente é
constante, as respostas do indivíduo aos itens são independentes (Andrade, Tavares &
Valle, 2000, Hambleton & Swaminathan, 1991, Reeve & Fayers, 2005) e dependem
somente do nível do traço latente do indivíduo. Esta suposição é fundamental para a
adequada estimação dos parâmetros dos itens e sua violação pode implicar em erro ao
escolher os itens melhor estimados para a construção final do instrumento (Reeve & Fayers,
2005).
Segundo Hambleton, Swaminathan e Rogers (1991), a TRI, traz ao menos cinco
cálculo do nível de traço latente do sujeito que independe da amostra de itens utilizados. Ao
contrário do que ocorria na psicometria clássica, em que o escore do sujeito dependia e
variava segundo o grau de dificuldade e precisão do instrumento aplicado, a TRI considera
que o indivíduo possui um traço latente verdadeiro específico que não irá variar segundo os
itens utilizados, desde que os itens estejam medindo o mesmo traço latente. Da mesma
forma, na TRI o cálculo dos parâmetros dos itens também independe da amostra de sujeitos
utilizada, enquanto que na teoria clássica os parâmetros dependiam dos indivíduos da
amostra possuírem maior ou menor nível no traço latente. Isto significa que mesmo que a
amostra não seja representativa, os parâmetros dos itens serão estimados corretamente
pela TRI (Embretson & Reise, 2000). A TRI permite ainda emparelhar itens com o traço
latente do sujeito, o que ocorre porque os itens e os indivíduos são posicionados numa
mesma escala do traço latente que está sendo avaliado, tornando possível que os itens de
um mesmo instrumento avaliem diferentes níveis do traço. Assim, itens mais fáceis de
serem respondidos avaliam sujeitos com níveis menores do traço e itens mais difíceis
avaliam sujeitos com níveis maiores. Na TCT, sempre era aplicado o mesmo instrumento
para todos os sujeitos, de maneira que se o instrumento total fosse mais fácil avaliaria bem
sujeitos com níveis menores no traço e se fosse mais difícil ocorreria o contrário. Outro
avanço refere/se ao fato de que a TRI constitui um modelo que não precisa fazer
suposições que aparentam ser improváveis, tais como a de que os erros de medida são
iguais para todos os indivíduos. A TRI não necessita também de trabalhar com instrumentos
estritamente paralelos para avaliar a confiabilidade, como exige a teoria clássica. Além
desses cinco avanços citados por Hambleton, Swaminathan e Rogers (1991), na TRI,
respostas que não se aplicam a alguns entrevistados são consideradas de modo diferente à
0, sendo, portanto, distinta dos testes clássicos.
Em vários países, a TRI tem sido amplamente utilizada na avaliação de testes
educacionais padronizados aplicados em grande escala, dentre os quais o NAEP (National
Assessment of Educational Progress) e o GMAT (Graduate Management Admission Test)
nos Estados Unidos, além de instituições como o ETS (Educational Testing Service) nos
habilidades e conhecimentos em testes de múltipla escolha (Wikipédia, 2010). Mais
recentemente, a TRI tem sido adotada por diversos pesquisadores para avaliação de
instrumentos da área de saúde. Dentre os principais propósitos da utilização da TRI nesta
área destacam/se: a avaliação das propriedades psicométricas dos itens; o estudo da
equivalência de grupos com diferentes características sociodemográficas, por meio do
Funcionamento Diferencial do Item (Differential Item Functioning / DIF); o desenvolvimento
de versões reduzidas dos instrumentos selecionando os itens que apresentam melhores
propriedades psicométricas, e ainda o desenvolvimento de testes adaptativos
computadorizados (Computerized Adaptative Testing – CAT), que direcionam a
apresentação dos itens a partir da identificação do nível de habilidade do indivíduo
determinado pelas respostas aos itens anteriormente apresentados (Alterman, et al., 2009,
Cook et al., 2008, Jiang & Hesser, 2009, Kopec, et al., 2008, Orlando et al., 2006, Reise &
Waller, 2009, Teresi & Fleishman, 2007, Wainer, 2000). Nos dois últimos casos, a vantagem
da utilização dos modelos da TRI baseia/se na avaliação individual de cada item e na
independência entre eles, para que um conjunto menor de itens possa ser utilizado, sem
que a confiabilidade dos escores seja sacrificada (Wainer, 2000).
No Brasil, sua principal utilização tem sido na área educacional, por exemplo, para
avaliação do Sistema de Avaliação do Rendimento Escolar do Estado de São Paulo
(SARESP) e doSistema Nacional de Educação Básica(SAEB). Desde a criação do SAEB,
em 1990, a TRI tem sido utilizada para estimar as habilidades e conhecimentos dos alunos
do Ensino Básico e Médio das escolas públicas e particulares brasileiras. Isto é feito
utilizando/se amostragem do universo desses alunos. Também oExame Nacional do Ensino
Médio(ENEM) a tem utilizado, desde 2009, principalmente para garantir a comparabilidade
das notas em diferentes edições. Além desses, outros trabalhos têm utilizado a TRI para
avaliação de testes educacionais, testes relacionados à gestão pela qualidade, para
avaliação demarketing, assim como nas áreas de nutrição, qualidade de vida e psiquiátrica
(Alexandre et al., 2002, Andrade, 2001, Andrade, Tavares & Valle, 2000, Andrade & Valle,
1998, Bayley, 2001, Chachamovich et al., 2008, Cúri, Singer & Andrade, 2010, Gabriel et
1.4. Adaptação Transcultural dos Instrumentos
Grande parte dos instrumentos de medida psicológica e psiquiátrica utilizados em
todo o mundo são traduções e adaptações de instrumentos desenvolvidos em outros países.
Uma das explicações para este fato foi a necessidade de padronização diagnóstica, uma
vez que a pesquisa na área da Psiquiatria Clínica vinha sofrendo atrasos e desencontros,
devido à utilização de diferentes critérios diagnósticos por profissionais de diferentes países
e, até mesmo dentro de um mesmo país. Além disso, a utilização de instrumentos
equivalentes permite uma linguagem comum aos clínicos e pesquisadores de todas as
partes do mundo. Entretanto, uma importante questão que envolve o uso desses
instrumentos se refere às diferenças entre as culturas nas quais foram criados e aquelas em
que estão sendo usados. Não se pode ignorar que os próprios fenômenos mentais não são
universais, mas muito influenciados pela cultura. Fatores socioculturais estão presentes não
apenas em indivíduos considerados normais, mas também naqueles com problemas
psiquiátricos. Neste contexto, nas adaptações transculturais dos instrumentos devem ser
observados fatores como a linguagem utilizada no instrumento, as relações interpessoais
envolvidas durante a coleta dos dados, a técnica da coleta, as questões formuladas, as
tarefas requeridas, as normas, as escalas e os conceitos investigados (Jorge, 2000). Essas
adaptações devem adotar um processo rigoroso que garanta os resultados fornecidos pelo
instrumento. É necessário que pesquisadores ou clínicos interessados em utilizar um
instrumento elaborado em outro país sigam algumas etapas (Duarte & Bordin, 2000).
Na primeira etapa deste processo, deve ser realizada a tradução para língua
utilizada no país, feita da forma mais fiel possível ao instrumento original. Entretanto,
adaptações podem e devem ser realizadas levando/se em conta, os diferentes aspectos da
cultura local e particularidades da linguagem. Na segunda etapa, deve ser realizada aretro+
tradução (ou back translation), em que a tradução do instrumento é re/traduzida para a
língua original, por um tradutor bilíngüe. Em seguida, esta versão retro/traduzida é
detectada modificação no sentido dos itens. Após estas etapas, o instrumento deve
submetido à avaliação de suas propriedades psicométricas.
1. 5. Instrumentos de avaliação do uso de substâncias no Brasil e o
Addiction Severity Index (ASI)
Ainda que nos países desenvolvidos existam vários instrumentos padronizados
para diagnóstico do uso, abuso ou dependência de drogas, no Brasil a situação é um pouco
diferente, sendo raros os instrumentos validados, e em muitos casos, restritos para uso em
populações específicas (Formigoni & Castel, 2000). Considerando os diferentes objetivos
propostos para utilização desses instrumentos, no Brasil podem ser encontrados alguns
instrumentos traduzidos e/ou validados que abrangem diferentes aspectos, entre eles: o
ASSIST (Alcohol, Smoking and Substance Involvement Screening Test, Henrique, 2002) e o
DUSI (Drug Use Screening Inventory, De Micheli & Formigoni, 2000), utilizados para triagem
do uso de substâncias em adultos e adolescentes, respectivamente; o CIDI (Composite
International Diagnostic Interview / Quintana, et al., 2004, Miranda, et al., 1990), utilizado
para fornecer o diagnóstico de acordo com os critérios do DSM/IV e CID/10; o ADS (Alcohol
Dependence Scalee o SADD (Short Alcohol Dependence Data) para avaliar a dependência
de álcool (Jorge et al., 1986, Jorge & Masur, 1985,1986); a FES (Family Environment Scale,
Vianna, Silva & Formigoni, 2007), a FAM (Family Assessment Measure / Skinner,
Steinhauer & Santa/Barbara, 1983, Silva, Noto & Formigoni / dados não publicados)
utilizados para avaliação do funcionamento familiar, o T/ASI (Teen Addiction Severity Index,
Sartes, De Micheli & Formigoni, 2009), para avaliação de adolescentes em relação a
problemas em várias áreas; a ESA (Escala de Severidade de Alcoolismo, Andrade, 1991,
Andrade et al., 1988), escala brasileira, desenvolvida para avaliação de resultado do
tratamento em cinco áreas; além de uma versão do IDS (Inventory of Drinking Situations,
Para que seja realizada uma avaliação adequada do uso, abuso ou dependência
de drogas é importante que, além do consumo, várias áreas da vida da pessoa sejam
avaliadas. Isto é particularmente importante para planejar adequadamente o tratamento e
também para avaliar sua efetividade, dado que transtornos decorrentes do uso de
substâncias em geral estão associados a problemas em diversas áreas.
O Addiction Severity Index(ASI) é um instrumento que permite colher informações
sobre vários aspectos da vida de pessoas com problemas associados ao abuso e
dependência de drogas, como problemas médicos, situação ocupacional, aspectos legais,
sociofamiliares, psiquiátricos, além do uso de álcool e uso de outras drogas. O ASI foi
desenvolvido em 1979 por A. Thomas McLellan e colegas do Center for Studies of Addiction,
na Filadélfia, USA, inicialmente para propósitos de pesquisa. A partir de então, diversas
versões do instrumento foram desenvolvidas, sendo amplamente aceito e utilizado em
diversas partes do mundo. Uma versão não validada da sua quinta versão (ASI 5) tem sido
utilizada no Brasil com o nome de Escala de Severidade de Dependência, porém sem uma
validação formal (Kessler & Pechansky, 2006). Neste contexto, o ASI tem sido utilizado
principalmente com quatro propósitos: planejamento do tratamento e avaliação do
comprometimento de outras áreas da vida do indivíduo, quando aplicado no início da
intervenção, acompanhamento do tratamento, quando aplicado durante a intervenção,
avaliação da efetividade do tratamento, quando aplicado no final da intervenção e/ou no
seguimento (follow+up).
Trata/se de uma entrevista semi/estruturada, que deve ser realizada por
entrevistadores treinados, dividida nas sete áreas de avaliação acima citadas, cujo tempo de
aplicação é relativamente breve (entre 45 a 90 minutos) considerando a amplitude de
informações que fornece. Cada área é formada por questões objetivas sobre o número, a
intensidade e a duração dos sintomas ocorridos durante toda a vida do indivíduo, nos
últimos 6 meses e nos últimos 30 dias que antecedem a avaliação. Além disso, duas
questões são feitas no final de cada área para que o paciente faça uma avaliação subjetiva
do grau de preocupação com os problemas e sintomas atuais e a necessidade de
Escore de Gravidade do Entrevistador (Interviewer Severity Ratings) variando de 0 a 10, que
determina o nível de gravidade em cada área e a necessidade de tratamento adicional. O
Escore de Gravidade do Entrevistador tem sido mais comumente utilizado para o
planejamento do tratamento, levando em consideração suas informações subjetivas,
surgindo a necessidade de se criar outro índice apropriado para fins de pesquisa. O Escore
Composto (Composite Score) é obtido a partir dos dados objetivos, incluindo apenas os
itens passíveis de mudança: problemas ocorridos nos últimos 30 dias ou no período de
seguimento. Devido à sua ampla utilização, este instrumento já foi traduzido para diversas
línguas (McLellan et al., 1992), além de ter sido alvo de estudos de validade e confiabilidade
em diferentes contextos (Hendricks et al., 1989, Kosten, Rousaville & Kleber, 1983, Liang et
al., 2008, McLellan et al., 1985, Rogalski, 1987, Zanis et al., 1994), culturas e países
(Holanda: DeJong et al.,1995, Hendricks et al., 1989) (Costa Rica: Sandi/Esquivel & Ávila
Corrales, 1990), (Kwait: Bilal, 1988), (Suíça: Daeppen et al., 1996), (França: Krenz et al.,
2004), (Hungria: Gerevich et al., 2005), (Japão: Senoo et al., 2006); (China: Luo, Wu & Wei,
2010), variando também quanto às formas de aplicação (Butler et al., 2009, Butler et al.,
2001, Petry, 2003).
Com o objetivo de avaliar as propriedades psicométricas do ASI, Mäkelä (2004) fez
uma revisão de 37 estudos e encontrou grande variação na confiabilidade dos Escores de
Gravidade e Escores Compostos entre entrevistadores e após teste/reteste que atribui
principalmente ao uso em diferentes populações e países, assim como aos diferentes níveis
de treinamento dos entrevistadores. De fato, conforme dados da literatura, a validade e a
confiabilidade dos Escores de Gravidade do Entrevistador são melhores quando a escala é
aplicada por entrevistadores melhor treinados e periodicamente supervisionados em seu
trabalho (Kessler & Pechansky, 2006). Entretanto, outros autores sugerem que avaliações
objetivas como os Escores Compostos não sofrem significativa redução na confiabilidade,
quando realizadas por indivíduos menos treinados (Alterman, Mulvaney & Cacciola, 2001).
Para desenvolver os escores mais consistentes para a quinta versão do ASI,
que tem sido amplamente utilizada nos últimos anos para avaliação de inúmeros
instrumentos e com diferentes objetivos, inclusive para determinar as propriedades de
instrumentos que avaliam o uso de substâncias psicotrópicas (Baillie & Teesson, 2010,
Hagman et al., 2009, Harford, et al., 2009, 2006, Kahler et al., 2003, Kirisci, et al., 2006,
Kirisci, Tarter & Hsu, 1994, Krueger et al., 2004, MacPherson, Strong & Myers, 2008, Morey
& Hopwood, 2009). Alterman et al. (2007) avaliaram respostas provenientes de 2142
pacientes em início de tratamento para dependência de substâncias. Foram utilizados dois
modelos não paramétricos da TRI: a escala Mokken e as técnicas de covariância
condicional. Os autores apresentaram diversas estratégias da teoria clássica empregadas
em estudos anteriores para viabilizar índices resumo, ou escores, especialmente para serem
utilizados em settings de pesquisa. Nestes estudos anteriores, foram utilizados métodos
empíricos e racionais gerando combinações aritméticas não padronizadas para o
desenvolvimento dos Escores Compostos (McLellan et al, 1985), uma análise fatorial
confirmatória para a seleção de itens, formando doisÍndices Clínicos (Clinical Indexes para
avaliação de problemas recentes e relativos à história de vida de cada área do ASI
(McDermott et al., 1996), além de análises fatoriais exploratórias na tentativa de desenvolver
índices resumo padronizados para problemas recentes de cada área do ASI, denominados
Índices de Avaliação (Evaluation Indexes (McDermott & Alterman, 2002). Entretanto, os
autores discutem as diversas limitações relativas às técnicas da psicometria clássica
(Alterman et al., 2007, Hodgins & El/Guebaly, 1992, Mäkelä, 2004, McDermott et al., 1996,
McLellan, Cacciola, & Alterman, 2006), já apresentadas anteriormente. No estudo de 2007,
Alterman et al., propuseram a utilização da TRI não paramétrica para gerar “índices/resumo”
de problemas recentes e de história de vida das sete áreas do ASI 5. Foram criados nove
índices confiáveis e dimensionalmente homogêneos relacionados a problemas recentes das
sete áreas do ASI 5 e cinco índices relacionados a problemas de história de vida, exceto das
áreas “Emprego/Sustento” e “Família/Social”. O número de itens incluídos para formação
destes índices variou entre as áreas. Por exemplo, três itens da área “Médica” e sete da
área “Drogas” formaram os índices de problemas recentes, cujos valores foram
problemas de cada área, cinco itens foram incluídos da área Álcool ( =0,67) e dez da
Psiquiátrica ( =0,49).
Embora no estudo de Alterman et al. (2007) a TRI não paramétrica tenha sido bem
empregada para os propósitos do estudo, fornecendo informações sobre a consistência dos
itens e a consistência de cada área através do índice , ela apresenta algumas limitações
não fornecendo, por exemplo, parâmetros que representem as propriedades dos itens, como
dificuldade e discriminação. Os modelos paramétricos, além de serem mais bem estudados,
estimam os parâmetros de cada item permitindo a seleção de itens que formam uma escala
final mais consistente diminuindo o tamanho do instrumento; posicionam os itens nos
diferentes níveis da escala do traço latente, indicando a probabilidade de resposta a cada
item pelos indivíduos com diferentes níveis do traço; e ainda permitem a interpretação dos
diferentes níveis. Neste estudo, os autores discutem a necessidade de modificações para a
próxima versão do instrumento.
Visando minimizar as limitações apresentadas pelas versões anteriores do ASI,
atualizar e expandir suas áreas de avaliação, foi desenvolvida a sexta versão do
instrumento. O ASI 6 é composto por 252 questões, também agrupadas nas mesmas sete
áreas de avaliação. Os itens objetivos relativos à problemas ocorridos nos últimos 30 dias,
nos últimos 6 meses e na vida, foram mantidos, assim como os itens subjetivos, sendo
mantidos também o formato dos itens que geram respostas numéricas, dicotômicas e
ordinais que utilizam uma escala do tipo Likert para resposta dos indivíduos. Foram
acrescentados à sexta versão, alguns itens relacionados ao uso do tempo livre e histórico de
traumas. Além disso, foi retirada a avaliação subjetiva de problemas feita pelo entrevistador,
que costumava ser ponderada com a do paciente nas versões anteriores, tornando os
Escores de Gravidade do Entrevistador baseados apenas na avaliação do paciente,
denominado agora deEscores de Gravidade do Entrevistado. OsEscores Compostosforam
substituídos pelos Summary Scores for Recent Functioning (SS+Rs + Escores Resumo de
Funcionamento Recente, em português), que tem por base as questões sobre problemas