Propriedades Psicométricas da versão brasileira do Addiction Severity Index 6 (ASI 6): Uma abordagem pela Teoria de Resposta ao Item

(1)

LAISA MARCORELA ANDREOLI SARTES

PROPRIEDADES PSICOMÉTRICAS DA VERSÃO

BRASILEIRA DO ADDICTION SEVERITY INDEX 6 (ASI 6):

Uma abordagem pela Teoria de Resposta ao Item

Tese apresentada à Universidade Federal

de São Paulo – Escola Paulista de

Medicina, para obtenção do Título de

Doutor em Ciências.

(2)

Sartes, Laisa Marcorela Andreoli

Propriedades Psicométricas da versão brasileira do Addiction Severity Index 6

(ASI 6): Uma abordagem pela Teoria de Resposta ao Item /

Laisa Marcorela

Andreoli Sartes. – São Paulo, 2010.

(xvii) 179 p.

Tese de Doutorado – Universidade Federal de São Paulo. Escola Paulista de

Medicina. Programa de Pós/Graduação em Psicobiologia.

Psychometric properties of Brazilian version of the Addiction Severity Index 6

(ASI 6): An approach by Item Response Theory.

(3)

LAISA MARCORELA ANDREOLI SARTES

PROPRIEDADES PSICOMÉTRICAS DA VERSÃO

BRASILEIRA DO ADDICTION SEVERITY INDEX 6 (ASI 6):

Uma abordagem pela Teoria de Resposta ao Item

Tese apresentada à Universidade Federal

de São Paulo – Escola Paulista de

Medicina, para obtenção do Título de

Doutor em Ciências.

Orientadora: Prof.a. Dra. Maria Lucia Oliveira de Souza Formigoni

São Paulo

(4)

UNIVERSIDADE FEDERAL DE SÃO PAULO

ESCOLA PAULISTA DE MEDICINA

PROGRAMA DE PÓS:GRADUAÇÃO EM PSICOBIOLOGIA

PROFA. DRA. MARIA LUCIA OLIVEIRA DE SOUZA FORMIGONI

Chefe do Departamento de Psicobiologia

PROF. DR. MARCO TÚLIO DE MELLO

(5)

UNIVERSIDADE FEDERAL DE SÃO PAULO

ESCOLA PAULISTA DE MEDICINA

PROGRAMA DE PÓS:GRADUAÇÃO EM PSICOBIOLOGIA

BANCA EXAMINADORA

Dr. Dalton Francisco Andrade

Dr. Marcelo Santos Cruz

Dra. Maria Lucia O. Souza Formigoni

Dr. Sergio Baxter Andreoli

Dra. Silvia Brasiliano

Suplentes:

Dra. Clarice Gorenstein

Dr. Jair de Jesus Mari

(6)

Esta tese foi realizada no Programa de Pós/Graduação

em Psicobiologia da Escola Paulista de Medicina da

Universidade Federal de São Paulo / com o apoio

financeiro

da

Associação

Fundo

Incentivo

a

(7)

“Logo que, numa inovação, nos mostram

alguma coisa de antigo, ficamos sossegados.”

(8)

AGRADECIMENTOS

Agradeço aos colegas do Departamento que idealizaram e realizaram o primeiro

Curso de Verão em Psicobiologia, por meio do qual conheci e me interessei em

estudar esta disciplina.

A Maria Lucia Oliveira de Souza Formigoni, a quem muito admiro, pelos

ensinamentos, pela amizade e disposição, e por ter me ajudado a crescer nessa

imensidão que é a ciência.

Aos professores e colegas do grupo ASI Félix Kessler, Flávio Pechansky, Marcelo

Cruz, Silvia Brasiliano e Esdras Cabus pelo trabalho que realizamos juntos.

Aos professores Dalton Andrade e Adriano Borgatto, pela disponibilidade e por me

abrirem a possibilidade de novos conhecimentos.

Às amigas Melina Cury, Carolina Botéquio e Vanessa Patrick, entrevistadoras que

foram parte fundamental neste processo.

Aos 740 pacientes que participaram desta pesquisa, sem os quais este trabalho não

teria se realizado, pela paciência durante as entrevistas.

Às clínicas de tratamento para usuários de drogas que me abriram suas portas para

que este trabalho fosse realizado.

Aos queridos amigos da família UDED Eroy, Bia, Marlene, Mara, Angélica, Melina,

Márcia, Priscila, Neuri, Fernanda, Vera, Iracema e Justo pessoas com quem cresci

profissionalmente, agradeço pela amizade, força e por terem tornado a vida mais

gostosa de ser vivida.

Aos meus amigos Vanessa, Leandra, Sandra, Michaela, Lara, Angélica e muitos

outros pelos grandes momentos de alegria, descanso e apoio que sempre me

deram.

Aos meus irmãos, Marcelo e Felipe, e à querida Dalva, pelo apoio, incentivo, amor e

(9)

Ao meu pai, Reginaldo, pelo amor, e por ser o

grande incentivo da minha vida para seguir os

caminhos da ciência.

À minha mãe, Cida, por todo amor, apoio e

confiança que sempre depositou em mim

neste caminho.

À minha irmã, Samantha, pelo amor, e por

estar perto de mim nos momentos mais

(10)

Ao Fernando, meu marido, meu amor, por todo

apoio, incentivo, grandes momentos de alegria e pela

(11)

SUMÁRIO

1. INTRODUÇÃO... 17

1.1. Uso de drogas no Brasil ... 17

1.2. Instrumentos de avaliação do uso de substâncias ... 18

1.3. Propriedades Psicométricas... 20

1.3.1. Validade ... 20

1.3.2. Confiabilidade ... 22

1.3.3. Teoria Clássica dos Testes vs Teoria de Resposta ao Item ... 22

1. 4. Adaptação Transcultural dos Instrumentos... 32

1. 5. Instrumentos de avaliação do uso de substâncias no Brasil e o Addiction Severity Index (ASI)... 33

2. OBJETIVOS... 40

2.1. Gerais ... 40

2.2. Específicos... 40

3. METODOLOGIA... 41

3.1. Metodologia geral do estudo multicêntrico ... 41

3.1.1. Sujeitos ... 41

3.1.2. Instrumentos ... 42

3.1.3. Entrevistadores ... 43

3.1.4. Procedimentos ... 44

3.2. Análise Estatística do estudo das propriedades psicométricas da versão brasileira do ASI 6 utilizando a Teoria de Resposta ao Item ... 45

3.2.1. Tratamento dos Dados... 45

3.2.2. Análises descritivas e escolha dos itens a serem incluídos na análise fatorial pela TRI... 45

3.3. Análises das propriedades psicométricas ... 51

3.3.1. Análises Fatoriais ... 51

3.3.2. Análise pela Teoria de Resposta ao Item (TRI) ... 52

4. RESULTADOS... 64

4.1. ANÁLISES DESCRITIVAS... 64

4.2. ANÁLISES DAS PROPRIEDADES PSICOMÉTRICAS DAS SETE ÁREAS DO ASI 6 DO BRASIL... 68

4.2.1. ÁREA “ÁLCOOL”... 68

4.2.2. ÁREA “DROGAS”... 82

4.2.3. ÁREA “MÉDICA” ... 97

4.2.4. ÁREA “LEGAL” ... 107

4.2.5. ÁREA “PSIQUIÁTRICA” ... 120

4.2.6. ÁREA “SOCIOFAMILIAR” ... 132

4.2.7. ÁREA “EMPREGO/SUSTENTO”... 147

5. DISCUSSÃO... 156

6. CONCLUSÕES... 168

(12)

LISTA DE ABREVIATURAS

DSM:IV :Manual de Diagnóstico e Estatístico de Transtornos Mentais CEBRID :Centro Brasileiro de Informações Sobre Drogas Psicotrópicas APA :Associação Psiquiátrica Americana

CID:10 :Classificação Internacional de Doenças OMS :Organização Mundial da Saúde

TCT :Teoria Clássica dos Testes TRI :Teoria de Resposta ao Item AF :Análise Fatorial

CCI :Curva Característica do Item CRC :Curva de Resposta à Categoria

NAEP :National Assessment of Educational Progress ETS :Educational Testing Service

GMAT :Graduate Management Admission Test CITO :Institute for Educational Measurement DIF :Funcionamento Diferencial do Item CAT :Teste Adaptativo Computadorizado

SARESP :Sistema de Avaliação do Rendimento Escolar do Estado de São Paulo SAEB :Sistema Nacional de Educação Básica

ENEM :Exame Nacional do Ensino Médio

ASSIST :Alcohol, Smoking and Substance Involvement Screening Test, DUSI :Drug Use Screening Inventory

CIDI :Composite International Diagnostic Interview ADS :Alcohol Dependence Scale

SADD :Short Alcohol Dependence Data FES :Family Environment Scale

FAM :Family Assessment Measure T:ASI :Teen Addiction Severity Index ESA :Escala de Severidade de Alcoolismo IDS :Inventory of Drinking Situations

ASI :Addiction Severity Index – Escala de Gravidade de Dependência SS:Rs :Escores Resumo de Funcionamento Recente

UDED :Unidade de Dependência de Drogas

PROJAD :Programa de Estudos e Assistência ao Uso Indevido de Drogas PROMUD :Programa de Atenção à Mulher Dependente Química

CETAD :Centro de Estudos e Terapia do Abuso de Drogas CPAD :Centro de Pesquisa em Álcool e Drogas

WHOQOL :Qualidade de Vida EAS :Escala de Ajustamento Social

MINI :Mini International Neuropsychiatry Interview ASRS :Adult Self/Report Scale

(13)

LISTA DE TABELAS

Tabela 1 :Perfil sociodemográfico dos 740 pacientes avaliados. Dados expressos em porcentagem, exceto quando explicitado

Tabela 2 : Freqüência do uso de substâncias dos 740 entrevistados nos últimos 30 dias. Dados expressos em porcentagem.

Tabela 3 :Escores Resumidos de Funcionamento Recente (SS/Rs) referentes a problemas ocorridos nos últimos 30 dias entre os indivíduos nas sete áreas do ASI 6. Dados expressos em média ± DP

Tabela 4 :Análise fatorial com todos os itens da área “Álcool”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.

Tabela 5 : Porcentagem de respostas dadas aos itens dicotômicos da área “Álcool” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (ausência de respostas).

Tabela 6 : Porcentagem de respostas dadas aos itens politômicos da área “Álcool” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR (ausência de resposta).

Tabela 7 :Parâmetros de discriminação ( ) e de dificuldade ) de todos os itens da área “Álcool” avaliados pela TRI.

Tabela 8 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Álcool”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora avaliados pela TRI.

Tabela 9 :Análise fatorial com todos os itens da área “Drogas”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.

Tabela 10 :Porcentagem de respostas dadas aos itens dicotômicos da área “Drogas” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (dados não respondidos).

Tabela 11 : Porcentagem de respostas dadas aos itens politômicos da área “Drogas” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR (ausência de resposta)

Tabela 12 :Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Drogas” avaliados pela TRI.

Tabela 13 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Drogas”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora

Tabela 14 : Análise fatorial com todos os itens da área “Médica”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.

Tabela 15 :Porcentagem de respostas dadas aos itens dicotômicos da área “Médica” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (dados não respondidos).

Tabela 16 : Porcentagem de respostas dadas aos itens politômicos da área “Médica” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR.

Tabela 17 :Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Médica” analisados pela TRI.

Tabela 18 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Médica”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora, analisados pela TRI.

Tabela 19 :Análise fatorial com todos os itens da área “Legal”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.

Tabela 20 : Porcentagem de respostas dadas aos itens dicotômicos da área “Legal” do ASI 6 nas categorias: menor gravidade, maior gravidade, politômico nas 5 categorias e AR (dados não respondidos).

Tabela 21 : Parâmetros de discriminação (a) e dificuldade (b) de todos os itens da área “Legal” avaliados pela TRI.

(14)

Tabela 23 : Análise fatorial com todos os itens da área “Psiquiátrica”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.

Tabela 24 :Porcentagem de respostas dadas aos itens dicotômicos da área “Psiquiátrica” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (ausência de respostas).

Tabela 25 : Porcentagem de respostas dadas aos itens politômicos da área “Psiquiátrica” do ASI 6 nas categorias “não”, “sim, associado a drogas” e “sim, não associado a drogas” e AR (ausência de resposta).

Tabela 26 : Porcentagem de respostas dadas aos itens politômicos da área “Psiquiátrica” do ASI 6 nas categorias 1, 2, 3, 4 e 5 e AR (ausência de resposta).

Tabela 27 : Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Psiquiátrica”, analisados pela TRI.

Tabela 28 : Parâmetros de discriminação (a) e de dificuldade (b) dos itens selecionados da área “Psiquiátrica”; posicionamento dos itens nos níveis de gravidade e identificação dos itens âncora, avaliados pela TRI.

Tabela 29 : Análise fatorial com todos os itens da área “Sociofamiliar”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.

Tabela 30 :Porcentagem de respostas dadas aos itens dicotômicos da área “Sociofamiliar” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (dados não respondidos).

Tabela 31 : Porcentagem de respostas dadas aos itens politômicos da área “Sociofamiliar” nas categorias 1, 2, 3, 4 e 5 e de AR (ausência de resposta).

Tabela 32 : Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Sociofamiliar”.

Tabela 33 : Parâmetros de discriminação ( ) e de dificuldade ( ) dos itens selecionados da área “Sociofamiliar”; posicionamento dos itens na escala de gravidade e identificação dos itens âncora. Tabela 34 :Análise fatorial com todos os itens da área “Emprego/Sustento”. No corpo da tabela são apresentadas as correlações dos itens com os fatores. Em negrito, as correlações maiores do que o ponto de corte (0,40). Na última coluna, estão os pesos dos itens selecionados na segunda análise, limitada a um fator.

Tabela 35 :Porcentagem de respostas dadas aos itens dicotômicos da área “Emprego/Sustento” do ASI 6 nas categorias: menor gravidade, maior gravidade e AR (ausência de resposta).

Tabela 36 : Parâmetros de discriminação (a) e de dificuldade (b) de todos os itens da área “Emprego/Sustento” analisados pela TRI.

(15)

LISTA DE FIGURAS

Figura 1 : Exemplo de Curva Característica do Item (CCI) para itens dicotômicos. A CCI indica a probabilidade de resposta positiva a um dado item (eixo y) em função da intensidade (ou nível) do traço latente do indivíduo (valores de b no eixo x). A inclinação da curva indica a capacidade de discriminação do item e a projeção do valor deano eixo x indica o valor debpara o item.

Figura 2 :Exemplos de Curvas Características de três itens, com alta discriminação (item A), média discriminação (item B) e pouca discriminação (item C).

Figura 3/ Exemplo de Curva Característica do Item (CCI) de um item politômico.

Figura 4 :Representação da escala do traço latente.

Figura 5 :Curvas Características dos Itens da área (CCIs) “Álcool” do ASI 6, analisadas pela TRI.

Figura 6 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas com álcool do ASI 6 utilizando o subconjunto de itens selecionados pela TRI.

Figura 7 :Curvas Características dos Itens da área “Drogas” do ASI 6, analisadas pela TRI.

Figura 8 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas com drogas utilizando o subconjunto de itens selecionados do ASI 6.

Figura 9 :Curvas Características dos Itens (CCIs) da área “Médica” do ASI 6, analisados pela TRI.

Figura 10 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas médicos utilizando o subconjunto de itens selecionados pela TRI.

Figura 11 : Curvas Características dos Itens selecionados da área “Legal” do ASI 6, avaliadas pela TRI.

Figura 12 :Distribuição de freqüência dos entrevistados na escala de gravidade de problemas legais utilizando o subconjunto de itens selecionados do ASI 6.

Figura 13 :Curvas Características dos Itens (CCIs) da área “Psiquiátrica” do ASI 6, analisadas pela TRI.

Figura 14 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas psiquiátricos utilizando o subconjunto de itens selecionados pela TRI.

Figura 15 :Curvas Características do Item F15 Original, com 5 categorias: 1) nada, 2) levemente, 3) moderadamente, 4) consideravelmente e 5) extremamente grave e Recategorizado pelo agrupamento das categorias 2 e 3 (com 4 categorias): 1) nada, 2) leve/moderadamente (curva azul), 3) consideravelmente (curva rosa) e 4) extremamente grave (curva verde) da área “Sociofamiliar” do ASI 6 analisadas pela TRI.

Figura 16 :Curvas Características do Item F47 Original, com 5 categorias: 1) nada, 2) levemente, 3) moderadamente, 4) consideravelmente e 5) extremamente grave e Recategorizado pelo agrupamento das categorias 2, 3 e 4 (com 3 categorias): 1) nada, 2) leve/moderadamente/consideravelmente (curva azul), 3) extremamente grave (curva rosa), da área “Sociofamiliar” do ASI 6, analisadas pela TRI.

Figura 17 :Curvas Características dos Itens (CCIs) da área “Sociofamiliar” do ASI 6, analisadas pela TRI.

Figura 18 : Distribuição de freqüência dos entrevistados na escala de gravidade de problemas sociofamiliares utilizando o subconjunto de itens selecionados da área “Sociofamiliar” do ASI 6.

Figura 19 :Curvas Características dos Itens (CCIs) de todos os itens da área “Emprego/Sustento” do ASI 6, analisadas pela TRI.

(16)

RESUMO

Embora amplamente utilizado em vários países para planejamento de tratamento de

pessoas com problemas decorrentes do uso abusivo de substâncias psicotrópicas, a

versão em português do instrumento Addiction Severity Index (Escala de Gravidade de Dependência / 6ª. edição / ASI 6), ainda não havia sido avaliada quanto a algumas

propriedades psicométricas. Este estudo transversal, que fez parte de um projeto

multicêntrico internacional, teve por objetivo avaliar as propriedades psicométricas das sete

áreas da versão brasileira do ASI 6 utilizando modelos da Teoria de Resposta ao Item (TRI)

e com base nesta análise, selecionar os melhores itens, visando propor uma versão

reduzida do ASI 6. O ASI 6 foi aplicado a 740 pacientes em tratamento especializado para

dependência de álcool e/ou outras drogas, localizados em quatro cidades brasileiras: Porto

Alegre, São Paulo, Rio de Janeiro e Salvador. Com os dados colhidos, foram realizadas

análises fatoriais (AFs) para avaliar a existência de unidimensionalidade da área e, sendo

esta confirmada, aplicados dois modelos paramétricos da Teoria de Resposta ao Item

(TRI). Cada item foi avaliado em relação a dois parâmetros: a) sua capacidade de

discriminação de pessoas quanto à intensidade do traço latente (gravidade de problemas

em cada área avaliada) e b) dificuldade do item para gerar respostas afirmativas. Com

base nestes parâmetros foi estudada, em cada área, a distribuição dos itens e das pessoas

numa escala dos diferentes níveis de gravidade do traço latente. As características das

pessoas que se encontram em cada nível de gravidade foram descritas considerando os

itens que os compõem. Segundo as análises baseadas na TRI, com exceção da área

“Emprego/Sustento”, todas as outras seis áreas apresentaram boas propriedades

psicométricas. Cerca de um terço dos itens originais apresentou índices adequados de

discriminação e dificuldade. Desta forma, para compor uma versão reduzida do ASI, foram

selecionados 96 dos 344 itens (incluindo aqui os subitens dos 252 itens originais) pela

eliminação dos itens pouco discriminativos ou de extrema dificuldade para gerar respostas

afirmativas. No caso da área “Emprego/Sustento” a seleção de itens foi baseada na AF. A

estrutura dos construtos de cada uma das sete áreas do ASI 6 foi avaliada com base na

associação da interpretação das análises baseadas na TRI e das AFs. Tal análise indicou

que cada área pode ser considerada unidimensional, a partir de um subconjunto de itens,

por possuir um construto principal identificável. Uma redução significativa do ASI 6,

construída com base nos itens selecionados, poderá ser útil tanto em pesquisa clínica,

como no planejamento de tratamento de pessoas com problemas decorrentes do uso

abusivo de substâncias psicotrópicas, reduzindo o tempo necessário para sua aplicação,

sem que haja perda das principais informações por ele fornecidas.

(17)

1. INTRODUÇÃO

1. 1. Uso de drogas no Brasil

Os transtornos relacionados ao consumo de álcool e outras drogas salientam/se

como um grave problema de saúde pública em vários países do mundo e no Brasil. O fato

de ser comum a experimentação de drogas, principalmente na adolescência, nem sempre

acarretará no desenvolvimento de problemas significativos (Tarter, 1990). A relação entre o

uso experimental e o desenvolvimento da dependência de substâncias se dá por um

continuum no qual o indivíduo passa por diferentes padrões de uso de drogas até atingir

padrões problemáticos de uso, denominados pelo Manual de Diagnóstico Estatístico de

Transtornos Mentais (DSM/IV, APA, 1994) de abuso e dependênciaa de substâncias.

Entretanto, parte dos indivíduos acaba por desenvolver ao longo da vida problemas em

outras áreas da vida relacionados ao uso de substâncias. Segundo dados de dois

levantamentos domiciliares realizados no Brasil pelo CEBRID (Centro Brasileiro de

Informações Sobre Drogas Psicotrópicas), em 2001 e 2005, com amostra representativa da

população das 108 maiores cidades do país, incluindo pessoas entre 12 e 65 anos, a

prevalência de dependentes de álcool aumentou de 11,2% para 12,3%. Em 2005, a

prevalência de dependência de álcool entre os homens foi de 19,5% e entre as mulheres de

6,9%, enquanto para o tabaco a diferença foi menor, sendo 11,3% entre os homens e 9%

entre as mulheres. Entre os adolescentes de 12 a 17 anos, 54,3% informaram já ter feito uso

de álcool na vida e 15,2% de tabaco (Carlini et al., 2007, Galduróz et al., 2005).

(18)

Além desse estudo, foram realizados cinco levantamentos sobre o uso de drogas

entre estudantes do ensino médio e fundamental em dez capitais brasileiras, entre 1987 e

1997 e nas 27 capitais em 2004. A análise dos quatro primeiros levantamentos mostrou que

as drogas mais utilizadas foram o álcool, o tabaco e os solventes. Observou/se, no período,

um aumento significativo do uso na vida, freqüente (seis vezes ou mais no mês) e pesado

(vinte vezes ou mais no mês) de vários tipos de drogas psicoativas (Galduróz et al., 1997;

2004). O uso pesado de maconha aumentou nas 10 capitais pesquisadas, bem como o uso

de álcool em oito delas. No levantamento de 2004, realizado com estudantes do ensino

médio e fundamental das 27 capitais brasileiras, foi confirmado maior uso na vida de

maconha, cocaína, solventes, anticolinérgicos, tabaco, crack, energéticos e esteróides

anabolizantes entre estudantes do sexo masculino, enquanto que as mulheres usaram mais

freqüentemente álcool e medicamentos sem prescrição médica, principalmente os

ansiolíticos e anfetamínicos (Galduróz et al., 2004).

1.2. Instrumentos de avaliação do uso de substâncias

Embora, segundo dados históricos, o uso de drogas exista desde os primórdios da

humanidade, inserido nos mais diversos contextos (Bucher, 2002), somente a partir de

1952, a Organização Mundial da Saúde reconheceu o alcoolismo como uma doença

(Garcia/Mijares & Silva, 2006). Este conceito também foi incorporado no lançamento da

primeira edição do DSM (Manual Diagnóstico e Estatístico de Transtornos Mentais), pela

Associação Psiquiátrica Americana (1952) passando a dependência de álcool e outras

drogas a ser considerada um transtorno mental. Somente a partir da década de 1960,

iniciou/se o desenvolvimento de instrumentos padronizados para avaliar, não somente

outros transtornos psiquiátricos, mas também a dependência de substâncias (Jorge, 2000).

Diversos tipos de instrumentos foram desenvolvidos com diferentes objetivos, sendo

os mais comuns: a) os instrumentos para triagem, destinados a identificar pessoas que

(19)

instrumentos para diagnósticode abuso (ou uso nocivo) e dependência de drogas, segundo,

respectivamente, os critérios do DSM/IV (APA, 1994) e da CID/10 (Classificação

Internacional de Doenças – 10ª edição, OMS, 1993); c) instrumentos para avaliação do

consumo de álcool e drogas, destinados a caracterizar e/ou medir quantidade, freqüência,

intensidade e padrão de consumo; d) instrumentos para avaliação de comportamentos

associados ao consumo de álcool e drogas, utilizados para avaliar diversos aspectos como

por exemplo: situações de uso ou de risco, auto/eficácia e capacidade de enfrentamento; e)

instrumentos para avaliação do comprometimento de outras áreas, utilizados para avaliar

outras áreas da vida do indivíduo, como moradia, emprego, problemas legais, social,

familiar, psicológico entre outras; f) instrumentos para planejamento do tratamento,

utilizados para auxiliar no plano inicial do tratamento, não apenas quanto ao uso de drogas,

mas também envolvendo outras áreas da vida; g)instrumentos para análise do processo de

tratamento,para avaliar fatores alterados pela mudança de consumo ou que a influenciam; e

h) instrumentos para avaliação dos resultados, que são aplicados ao final do tratamento

para detectar possíveis mudanças ocorridas (Jorge, 2000).

A escolha do instrumento adequado para cada situação dependerá do objetivo do

clínico ou o pesquisador. Segundo Formigoni & Castel (2000) essa escolha deve ainda ser

norteada por outros critérios, dentro dos quais: o período da vida do sujeito que se pretende

avaliar; a população/alvo; o tipo de administração que cada instrumento exige; se o

instrumento necessita de treinamento para ser aplicado; a possibilidade de se obter escores

computadorizados e o custo financeiro.

Embora existam no Brasil diversos tipos de tratamento oferecidos para pessoas

dependentes de substâncias, sua efetividade nem sempre é avaliada de forma adequada,

algumas vezes por falta de desenvolvimento e padronização de instrumentos de pesquisa

adaptados às características de nossa população. Estes instrumentos são necessários

também para o planejamento do tratamento dos dependentes de álcool e outras drogas. No

sentido de padronizar adequadamente esses instrumentos, metodologias de pesquisa, em

grande parte baseadas em técnicas estatísticas, foram desenvolvidas a fim de mensurar

(20)

1.3. Propriedades Psicométricas

Segundo Pasquali (1997), as avaliações psicométricas dos testes passaram por

diferentes fases tendo início por volta da década de 1880 com Galton, cujos trabalhos

visavam a avaliação das aptidões humanas por meio da média sensorial. Nas décadas

seguintes, Cattell (1890) focou seus trabalhos sobre as diferenças individuais e Binet (1900)

na avaliação das aptidões humanas sobre o ponto de vista acadêmico e de saúde, baseado

nas propostas de avaliação de Spearman. Esta era também pode ser considerada a era de

Spearman, em cujos trabalhos, especialmente relacionados à correlação de Spearman,

basearam/se os fundamentos para o desenvolvimento da Teoria Clássica dos Testes (TCT).

Após o desenvolvimento da TCT, emergiu a era dos testes de inteligência (1910 a 1930), a

década da análise fatorial (1930), a era da sistematização (1940 a 1980) e, por fim, a era da

psicometria moderna, em 1980, centrada na Teoria de Resposta ao Item.

Com base na TCT, desenvolveram/se as avaliações psicométricas clássicas em

que são baseadas a maioria das análises para avaliação davalidadee confiabilidadedos

testes.

1.3.1. Validade

A validade de um instrumento pode ser definida como sua capacidade de realmente

medir aquilo a que se propõe a medir (Kelsey, et al., 1996, Portney & Watkins, 1993),

Pasquali, 1997). Segundo Almeida Filho et al. (1989), a validade envolve um componente

conceitual, que se refere ao julgamento subjetivo do pesquisador sobre se o instrumento

mede o que deveria medir, e um componente operacional, que envolve uma avaliação

sistemática do instrumento, utilizando/se de métodos específicos e/ou técnicas estatísticas

para isso.

Existem diversos métodos de investigação operacional da validade de um

(21)

Meehl (1955) que engloba três aspectos: validade de conteúdo, validade de critério e

validade de construto(Anastasi, 1998, O’Leary’Kelly & Vokurka, 1998).

Avalidade de conteúdorefere/se à abrangência com que o universo do fenômeno a

ser testado é captado pelo instrumento (Portney & Watkins, 1993). Essa validade assegura

que os itens de um instrumento cobrem e representam adequadamente o que está sendo

medido, assim como permite que qualquer escore seja interpretado de forma apropriada. A

avaliação da validade de conteúdo é dada a partir de um consenso entre especialistas e

pela adequação com que os itens são colocados na escala (Goldstein & Simpson, 1995).

Embora não haja técnicas estatísticas para avaliação da validade de conteúdo, são

propostos alguns métodos para sua avaliação, como o Índice de Validade de Conteúdo

(IVC) proposto por Waltz, Strickland e Lenz (1991), em que uma proporção é calculada a

partir do número de itens avaliados como equivalentes por dois especialistas dividido pelo

número total de itens.

A validade de critério é determinada pela comparação do instrumento em avaliação

com um instrumento padrão que avalia especificamente as características daquilo que se

está medindo. Calcula/se então, o grau em que os instrumentos diferem (Menezes &

Nascimento, 2000, Pasquali, 1997). O instrumento padrão é também denominado “padrão+

ouro” ou “gold standard”, sendo comumente outro instrumento já validado no país, que

avalia o mesmo tipo de conteúdo do instrumento que está sendo testado. No caso de

ausência deste tipo de instrumento, avaliações e/ou diagnósticos clínicos podem ser

utilizados.

A validade de construto se refere à capacidade do instrumento de efetivamente

medir um conceito teórico específico / o construto + que pode se referir a um processo

psicológico ou a características dos indivíduos (Bruscato, 1998, Menezes & Nascimento,

2000, Strauss & Smith, 2009). Os métodos para avaliação da validade de construto levam

em consideração o relacionamento entre o construto e variáveis observáveis (itens), por

meio de três aspectos: a unidimensionalidade, que examina se os itens têm um ajuste

aceitável sobre uma dimensão singular; avalidade convergenteque examina se os itens do

(22)

estão relacionados a outros construtos que não o principal que está sendo avaliado (Strauss

& Smith, 2009).

1.3.2. Confiabilidade

A confiabilidade se refere à reprodutibilidade de uma medida, ou seja, o grau de

concordância entre múltiplas medidas de um mesmo objeto inter e intra indivíduos

(Armstrong, White & Saracci, 1994). A confiabilidade é importante para testar o quanto o

instrumento é estável, de forma que se for utilizado por diferentes pessoas ou em situações

e momentos diferentes, os resultados obtidos serão muito semelhantes, pressupondo/se

que o fenômeno em si não tenha sofrido alterações. Várias técnicas podem ser utilizadas

para avaliação da confiabilidade, sendo as mais conhecidas a confiabilidadeteste+reteste, a

técnica das metadese ocoeficiente α de Cronbach.

1.3.3. Teoria Clássica dos Testes

Teoria de Resposta ao Item

A maioria dos métodos operacionais utilizados para avaliar a validade e

confiabilidade dos instrumentos são baseados na Teoria Clássica dos Testes (TCT). A TCT

compreende um conjunto de conceitos e técnicas que tem sido utilizada como base para o

desenvolvimento de numerosos instrumentos de medidas e como ponto de referência para

abordagens de medidas psicométricas (DeVellis, 2006). Uma vez que seus postulados são

pouco exigentes e pouco numerosos, ela pode ser utilizada numa grande variedade de

situações (Grégoire & Laveault, 2002). Segundo Grégoire e Laveault, a TCT tem como

objetivo fundamental o resultado total obtido por cada pessoa num teste e é baseada em

sete postulados principais. O primeiro deles faz referência ao fato de que o resultado

observado do indivíduo ( ) resulta da soma do resultado verdadeiro do indivíduo ( : valor

real) com o erro de medida associado a esse mesmo resultado ( : variável aleatória),

(23)

representar o resultado observado . O segundo postulado é uma conseqüência do

primeiro. Estipula que o valor esperado para o resultado observado é o resultado verdadeiro.

Isto significa que a precisão de um resultado aumenta com o número de observações. De

fato, se fosse possível que um mesmo indivíduo respondesse mais de uma vez ao mesmo

teste de forma independente, a média dos resultados acabaria por ser o resultado

verdadeiro. O terceiro postulado afirma que não há correlação entre o erro de medida e o

resultado verdadeiro do indivíduo, ou seja, o erro não varia se o indivíduo possuir um

resultado verdadeiro maior ou menor. Para DeVellis (2006) este postulado refere/se ao erro

aleatório. O quarto postulado estipula que os erros de dois testes diferentes aplicados ao

mesmo indivíduo não se correlacionam entre si. O quinto postulado alega que não há

correlação entre o erro de medida de um teste e o resultado verdadeiro de outro teste

aplicado ao mesmo indivíduo. Em decorrência dos anteriores, para o sexto postulado, dois

testes são paralelos somente se os seus resultados verdadeiros e erros de medida forem

iguais, sendo assim, os dois testes paralelos terão a mesma média e a mesma variância dos

resultados observados. O último postulado define o que é um teste tau/equivalente.

Consideram/se dois testes como tau/equivalentes sempre que os seus resultados

verdadeiros diferem por uma constante aditivak. Sendo assim, se três indivíduos obtêm os

resultados 20, 29 e 15 num teste e 26, 35 e 21 em outro, estes dois testes são tau/

equivalentes e a constantek é igual a 6. Em resumo, os sete postulados da TCT assumem

que os erros aleatórios de medida devem ser independentes em qualquer circunstância, ou

seja, as condições detesting devem ser de modo a não haver correlação entre o resultado

verdadeiro de um indivíduo e o erro de medida, nem entre o erro de medida de dois testes

diferentes. Diversas técnicas utilizam a TCT como base para avaliação dos testes, como o

coeficiente de confiabilidade, alfa de Cronbach, a correlação bisserial, correlações de

Pearson e Spearman, entre outros.

A análise dos itens é um procedimento que visa selecionar os melhores itens a

partir de um conjunto de itens muitas vezes maior que o necessário. É realizada através das

bases da TCT, avaliando principalmente duas características dos itens: a dificuldade e a

(24)

O parâmetro de dificuldade do item na TCT é dado pela proporção dos indivíduos

que respondem afirmativamente ao item, no caso dos itens dicotômicos, e pela proporção

de respostas a uma categoria de escolha no caso dos itens politômicos, ou ainda pela média

das respostas de todos os indivíduos (DeVellis, 2006, Grégoire & Laveault, 2002). O índice

de dificuldade varia entre 0 e 1, sendo que caso seu valor seja igual a zero, significa que

nenhum indivíduo respondeu ao item afirmativamente, ou que nenhum aluno acertou o item,

em uma prova de matemática, por exemplo. E ao contrário, se o índice for igual a 1, significa

que todos os alunos acertaram o item. Entretanto, a interpretação dos índices de dificuldade,

assim como a dos índices de discriminação dos itens, não pode ser realizada isoladamente,

mas em função do contexto no qual o instrumento é utilizado. Por exemplo, não é possível

dizer que um item em que 90% das pessoas responderam afirmativamente é fácil, já que

essa interpretação depende das características da amostra de indivíduos. Dois fatores

podem influenciar a interpretação do índice de dificuldade: o número de respostas omitidas

e a probabilidade de um indivíduo responder corretamente ao item, ao acaso. Sendo assim,

se um grande número de indivíduos não respondeu ao item por falta de tempo, o índice de

dificuldade não será avaliado corretamente.

O parâmetro de discriminação visa diferenciar o grupo de indivíduos que tiveram

alta pontuação total dos que tiveram baixa pontuação total no teste. Nesta perspectiva, um

item discriminante é aquele que é respondido corretamente (ou afirmativamente) por uma

alta proporção dos indivíduos que obtiveram um resultado elevado no escore total do teste e

por uma baixa proporção daqueles que obtiveram baixa pontuação. O item é mais

discriminativo quanto maior for o seu valor. O índice de discriminação pode assumir

qualquer valor entre /1 e +1, correspondendo à diferença entre o índice de dificuldade dos

indivíduos que obtiveram uma pontuação elevada no escore total do teste e o índice de

dificuldade dos indivíduos que obtiveram uma pontuação baixa no escore total do teste. Um

índice de discriminação de valor zero indica que o item foi respondido afirmativamente na

mesma proporção pelos dois grupos. Um índice de valor negativo indica que o item foi

respondido afirmativamente em maior proporção pelo grupo com escore total baixo,

(25)

pelo grupo com maior pontuação no escore total. Alguns estudos utilizam a divisão dos

indivíduos em dois grupos, os 27% superiores (que obtiveram os escores mais altos) e os

27% inferiores (que obtiveram os escores mais baixos), proposta por Kelley (1939 apud

Grégoire & Laveault, 2002). Kelley mostrou que essa percentagem apresenta a melhor

sensibilidade no cálculo desse indicador. Os melhores 27% dos alunos são denominados

Massa Superior, e os 27% dos alunos mais fracos, Massa Inferior.

Outra forma de calcular a discriminação é através do índice correlacional que se

baseia na correlação entre o resultado do item e o resultado total do exame. A escolha do

método a ser utilizado dependerá da natureza das escalas dos itens sendo avaliados. Um

exemplo é a correlação de Pearson nos casos em que são avaliadas médias de variáveis

numéricas. Para escalas de medida de outras naturezas, existem métodos alternativos

como a correlação de Spearman, coeficiente de correlação ponto/bisserial que utiliza o

cálculo da correlação de Pearson, correlaçãophie correlação tetracórica.

Após o desenvolvimento da TCT, a partir dos trabalhos de Thurstone, por volta de

1930 foi desenvolvida a análise fatorial (AF), que é uma análise multivariada amplamente

utilizada para avaliar a dimensionalidade dos instrumentos de medida. Ela abrange um

conjunto de técnicas estatísticas cujo objetivo é representar ou descrever um maior número

de variáveis iniciais, utilizando um menor número de variáveis hipotéticas (fatores) obtidas

como função das variáveis originais (Reis, 2001). A AF tem como base a estrutura de

dependência existente entre as variáveis de interesse (em geral representada pelas

estruturas de correlação ou covariância das mesmas), permitindo a criação de um conjunto

menor de variáveis (variáveis latentes, ou fatores). Além disso, é possível saber o quanto

cada fator está associado a cada variável e o quanto da variabilidade geral dos dados

originais é explicado pelo conjunto de fatores (Reis, 2001, Pereira, 2001). Assim, o objetivo

da análise fatorial é a parcimônia, procurando definir o relacionamento entre as variáveis de

modo simples e usando um número de fatores menor que o número original de variáveis. Os

dois métodos mais conhecidos para a estimação dos fatores são a máxima verossimilhança,

(26)

requer apenas que os dados estejam numa escala numérica e que guardem, entre si,

estruturas de correlação ou covariância, não assumindo nenhuma suposição sobre a

distribuição dos dados. Embora a AF seja amplamente utilizada, principalmente para avaliar

a dimensionalidade dos construtos dos instrumentos, ela permite apenas verificar se os

dados são consistentes ou não com a estrutura fatorial postulada. Quando os dados são

compatíveis com várias estruturas latentes, a análise fatorial não nos permite determinar

qual devemos escolher, sendo tal escolha feita em bases teóricas. Além disso, a AF

apresenta dificuldades com conjuntos de dados mistos, ou seja, instrumentos que

apresentam variáveis dicotômicas, politômicas e numéricas. Em particular, sobre variáveis

dicotômicas e politômicas, os itens podem ser levados a formar estruturas dimensionais

incorretas. Isto pode ocorrer, inclusive, quando são utilizadas AF tetracórica e policórica

(Hambleton & Rovinelli, 1986; Hattie, 1985; McDonald & Ahlawat, 1974). Outra limitação da

AF é relativa à suposição de linearidade na relação dos itens com o construto, ou seja, o

construto é representado pela soma ponderada das respostas aos itens, sendo os pesos

dados pelas cargas fatoriais. Por conseguinte, esta análise nos dá informações necessárias,

mas não suficientes (Grégoire & Laveault, 2002).

Ainda que a TCT tenha sido útil para o desenvolvimento dos testes psicológicos

e continue sendo largamente utilizada, suas limitações têm sido discutidas há muitas

décadas (Gulliksen, 1950, Hambleton & Slater, 1997, Lord & Novick, 1968, Rasch, 1961).

Atualmente, diversos trabalhos têm apresentado e discutido essas limitações, propondo

novas formas de avaliação de medidas psicométricas (Andrade, Tavares & Valle, 2000, De

Champlain, 2010, Embretson & Reise, 2000, Hambleton & Slater, 1997, Pasquali & Primi,

2003, Vendramini, Silva & Canale, 2004). A principal limitação refere/se ao fato de que todas

as medidas baseadas na TCT são dependentes da amostra dos indivíduos que

responderam ao instrumento. Isto significa que as avaliações do teste são válidas somente

se a amostra for representativa ou se o instrumento for utilizado em outra amostra com

características semelhantes (Embretson & Reise, 2000, Hambleton & Slater, 1997). Uma

segunda limitação refere/se ao fato de que testes diferentes com índices de dificuldade e

(27)

escore observado e o escore verdadeiro aumentam ou diminuem conforme as

características do instrumento, sendo, portanto,teste+dependentes. Uma terceira limitação é

que a TCT não permite a comparação de indivíduos que não foram submetidos ao mesmo

teste.

Outro problema da TCT é com relação à avaliação da fidedignidade, a qual exige

que dois testes aplicados ao mesmo grupo, para avaliar a confiabilidade, devem ter formas

estritamente paralelas, ou seja, produzir escores verdadeiros idênticos e variâncias também

iguais. Esta situação é difícil de ser alcançada devido aos vieses relativos ao contexto do

delineamento de pesquisa como a aprendizagem, o cansaço, a motivação etc., discutidos

nos trabalhos de Campbell e Stanley (1973) (apud Pasquali & Primi, 2003). Um quinto

problema na teoria tradicional de medida consiste na suposição de que a variância dos erros

de medida de todos os indivíduos é a mesma, suposição de difícil sustentação, pois parece

claro que alguns indivíduos realizam o teste de forma mais consistente do que outros

(Hambleton & Swaminathan, 1985).

Outras limitações da TCT são exploradas por Embretson e Reise (2000) como a

suposição de que testes longos são mais confiáveis do que testes curtos e que as

propriedades de um intervalo da escala que está sendo medida são obtidas somente se a

distribuição de freqüência dos escores for normal. Além disso, instrumentos que contém

itens com formatos mistos (dicotômicos, numéricos e politômicos), conduzem a um escore

total dos indivíduos desbalanceado.

Embora as críticas à TCT sejam antigas, apenas após os anos 50 os

psicometristas começaram a descobrir uma solução para o problema, baseados na teoria do

traço latente de Lazersfeld (1959) e nos trabalhos de Lord (1952) e do dinamarquês Rasch

(1961), os quais se tornaram as bases da moderna Teoria de Resposta ao Item (TRI). A

TRI, também conhecida como a Teoria do Traço Latente, foi finalmente axiomatizada por

Birnbaum em 1968 e por Lord em 1980 (Pasquali & Primi, 2003). A TRI deve ser entendida

como um conjunto de modelos psicométricos para desenvolver e refinar medidas

(28)

da psicometria clássica e traz uma nova proposta estatística, a de análise centrada nos

itens, que supera as limitações da teoria clássica, além de apresentar novos recursos

tecnológicos para a avaliação psicológica e educacional (Primi, 1998).

A TRI parte da suposição de que existe no indivíduo umtraço latente, representado

pela letraθ_{(teta), relativo a uma característica do indivíduo como, por exemplo, a gravidade}

da dependência de drogas, o nível de depressão, ou o quanto ele sabe sobre matemática. O

traço latente determinará como o indivíduo responderá aos itens de um instrumento,

estabelecendo com cada item uma relação de probabilidade de resposta (Fletcher, 1994).

Tal probabilidade é determinada pelas características (parâmetros) de cada item por meio

de uma função matemática, tipicamente logística. O primeiro passo para aplicação da TRI é

a avaliação ou, como se diz, estimação dos parâmetros dos itens, que pode ser feita por

diferentes modelos estatísticos propostos pela TRI. A utilização dos modelos é baseada no

número de populações envolvidas, na natureza das respostas ao item (dicotômico ou não

dicotômico), na dimensionalidade do instrumento (Vendramini, Silva & Canale, 2004) e no

número de parâmetros a ser avaliados.

Para itens dicotômicos, a função matemática é referida como uma Curva

Característica do Item (CCI) e para itens politômicos, a relação entre o traço latente e a

resposta a uma das categorias é determinada pela Curva de Resposta à Categoria (CRC –

também denominada CCI, por alguns autores). Um modelo comum aplicado a itens

dicotômicos é o modelo logístico de dois parâmetros, o qual avalia as características de

dificuldade e discriminação dos itens. Entretanto, diversos outros modelos são propostos

como, por exemplo, o modelo logístico de um parâmetro, que avalia apenas a dificuldade

dos itens e o modelo de três parâmetros que avalia ainda a probabilidade de acerto de um

item ao acaso (Andrade, Tavares & Valle, 2000, Reise & Waller, 2009). Dentre os modelos

mais comuns para itens politômicos encontramos o modelo de resposta gradual

(Samejima,1969), que pode ser visto como uma generalização do modelo logístico de dois

parâmetros. Além destes modelos designados paramétricos, podem ser encontrados na

(29)

(Ark, 2007). Considerando/se que estes modelos têm suposições relativas à exigência de

unidimensionalidade do traço latente, modelos multidimensionais foram propostos para

avaliar instrumentos que não preenchem este critério. Entretanto, os modelos

multidimensionais são considerados mais complexos e ainda pouco aplicados e estudados.

As duas principais suposições para a utilização da maioria dos modelos da TRI

são a unidimensionalidade e a independência local (Andrade, Tavares & Valle, 2000,

Embretson & Reise, 2000). Pasquali & Primi (2003) consideram que as suposições podem

ser frustrantes para os pesquisadores porque elas não podem ser empiricamente

demonstradas e nem possuem bases lógicas, isto é, elas são hipóteses. A

unidimensionalidade é o postulado de que há apenas um traço latente, ou construto,

responsável pelas respostas dos indivíduos aos itens. É plausível dizer que o

comportamento humano é multideterminado, sendo assim, os modelos que utilizam essa

premissa admitem que haja um traço latente dominante (Andrade, Tavares & Valle, 2000)

conhecido na análise fatorial como fator dominante. Alguns autores discutem outros

métodos de avaliação da dimensionalidade além da análise fatorial clássica, como a análise

fatorial tetracórica para itens dicotômicos, a policórica, para itens politômicos e os métodos

de máxima verossimilhança (Andrade, Tavares & Valle, 2000). Apesar disso, ainda há

contradições entre os autores sobre o que seja a unidimensionalidade e como ela deve

estimada (Pasquali & Primi, 2003).

A suposição sobre a independência local postula que, se o traço latente é

constante, as respostas do indivíduo aos itens são independentes (Andrade, Tavares &

Valle, 2000, Hambleton & Swaminathan, 1991, Reeve & Fayers, 2005) e dependem

somente do nível do traço latente do indivíduo. Esta suposição é fundamental para a

adequada estimação dos parâmetros dos itens e sua violação pode implicar em erro ao

escolher os itens melhor estimados para a construção final do instrumento (Reeve & Fayers,

2005).

Segundo Hambleton, Swaminathan e Rogers (1991), a TRI, traz ao menos cinco

(30)

cálculo do nível de traço latente do sujeito que independe da amostra de itens utilizados. Ao

contrário do que ocorria na psicometria clássica, em que o escore do sujeito dependia e

variava segundo o grau de dificuldade e precisão do instrumento aplicado, a TRI considera

que o indivíduo possui um traço latente verdadeiro específico que não irá variar segundo os

itens utilizados, desde que os itens estejam medindo o mesmo traço latente. Da mesma

forma, na TRI o cálculo dos parâmetros dos itens também independe da amostra de sujeitos

utilizada, enquanto que na teoria clássica os parâmetros dependiam dos indivíduos da

amostra possuírem maior ou menor nível no traço latente. Isto significa que mesmo que a

amostra não seja representativa, os parâmetros dos itens serão estimados corretamente

pela TRI (Embretson & Reise, 2000). A TRI permite ainda emparelhar itens com o traço

latente do sujeito, o que ocorre porque os itens e os indivíduos são posicionados numa

mesma escala do traço latente que está sendo avaliado, tornando possível que os itens de

um mesmo instrumento avaliem diferentes níveis do traço. Assim, itens mais fáceis de

serem respondidos avaliam sujeitos com níveis menores do traço e itens mais difíceis

avaliam sujeitos com níveis maiores. Na TCT, sempre era aplicado o mesmo instrumento

para todos os sujeitos, de maneira que se o instrumento total fosse mais fácil avaliaria bem

sujeitos com níveis menores no traço e se fosse mais difícil ocorreria o contrário. Outro

avanço refere/se ao fato de que a TRI constitui um modelo que não precisa fazer

suposições que aparentam ser improváveis, tais como a de que os erros de medida são

iguais para todos os indivíduos. A TRI não necessita também de trabalhar com instrumentos

estritamente paralelos para avaliar a confiabilidade, como exige a teoria clássica. Além

desses cinco avanços citados por Hambleton, Swaminathan e Rogers (1991), na TRI,

respostas que não se aplicam a alguns entrevistados são consideradas de modo diferente à

0, sendo, portanto, distinta dos testes clássicos.

Em vários países, a TRI tem sido amplamente utilizada na avaliação de testes

educacionais padronizados aplicados em grande escala, dentre os quais o NAEP (National

Assessment of Educational Progress) e o GMAT (Graduate Management Admission Test)

nos Estados Unidos, além de instituições como o ETS (Educational Testing Service) nos

(31)

habilidades e conhecimentos em testes de múltipla escolha (Wikipédia, 2010). Mais

recentemente, a TRI tem sido adotada por diversos pesquisadores para avaliação de

instrumentos da área de saúde. Dentre os principais propósitos da utilização da TRI nesta

área destacam/se: a avaliação das propriedades psicométricas dos itens; o estudo da

equivalência de grupos com diferentes características sociodemográficas, por meio do

Funcionamento Diferencial do Item (Differential Item Functioning / DIF); o desenvolvimento

de versões reduzidas dos instrumentos selecionando os itens que apresentam melhores

propriedades psicométricas, e ainda o desenvolvimento de testes adaptativos

computadorizados (Computerized Adaptative Testing – CAT), que direcionam a

apresentação dos itens a partir da identificação do nível de habilidade do indivíduo

determinado pelas respostas aos itens anteriormente apresentados (Alterman, et al., 2009,

Cook et al., 2008, Jiang & Hesser, 2009, Kopec, et al., 2008, Orlando et al., 2006, Reise &

Waller, 2009, Teresi & Fleishman, 2007, Wainer, 2000). Nos dois últimos casos, a vantagem

da utilização dos modelos da TRI baseia/se na avaliação individual de cada item e na

independência entre eles, para que um conjunto menor de itens possa ser utilizado, sem

que a confiabilidade dos escores seja sacrificada (Wainer, 2000).

No Brasil, sua principal utilização tem sido na área educacional, por exemplo, para

avaliação do Sistema de Avaliação do Rendimento Escolar do Estado de São Paulo

(SARESP) e doSistema Nacional de Educação Básica(SAEB). Desde a criação do SAEB,

em 1990, a TRI tem sido utilizada para estimar as habilidades e conhecimentos dos alunos

do Ensino Básico e Médio das escolas públicas e particulares brasileiras. Isto é feito

utilizando/se amostragem do universo desses alunos. Também oExame Nacional do Ensino

Médio(ENEM) a tem utilizado, desde 2009, principalmente para garantir a comparabilidade

das notas em diferentes edições. Além desses, outros trabalhos têm utilizado a TRI para

avaliação de testes educacionais, testes relacionados à gestão pela qualidade, para

avaliação demarketing, assim como nas áreas de nutrição, qualidade de vida e psiquiátrica

(Alexandre et al., 2002, Andrade, 2001, Andrade, Tavares & Valle, 2000, Andrade & Valle,

1998, Bayley, 2001, Chachamovich et al., 2008, Cúri, Singer & Andrade, 2010, Gabriel et

(32)

1.4. Adaptação Transcultural dos Instrumentos

Grande parte dos instrumentos de medida psicológica e psiquiátrica utilizados em

todo o mundo são traduções e adaptações de instrumentos desenvolvidos em outros países.

Uma das explicações para este fato foi a necessidade de padronização diagnóstica, uma

vez que a pesquisa na área da Psiquiatria Clínica vinha sofrendo atrasos e desencontros,

devido à utilização de diferentes critérios diagnósticos por profissionais de diferentes países

e, até mesmo dentro de um mesmo país. Além disso, a utilização de instrumentos

equivalentes permite uma linguagem comum aos clínicos e pesquisadores de todas as

partes do mundo. Entretanto, uma importante questão que envolve o uso desses

instrumentos se refere às diferenças entre as culturas nas quais foram criados e aquelas em

que estão sendo usados. Não se pode ignorar que os próprios fenômenos mentais não são

universais, mas muito influenciados pela cultura. Fatores socioculturais estão presentes não

apenas em indivíduos considerados normais, mas também naqueles com problemas

psiquiátricos. Neste contexto, nas adaptações transculturais dos instrumentos devem ser

observados fatores como a linguagem utilizada no instrumento, as relações interpessoais

envolvidas durante a coleta dos dados, a técnica da coleta, as questões formuladas, as

tarefas requeridas, as normas, as escalas e os conceitos investigados (Jorge, 2000). Essas

adaptações devem adotar um processo rigoroso que garanta os resultados fornecidos pelo

instrumento. É necessário que pesquisadores ou clínicos interessados em utilizar um

instrumento elaborado em outro país sigam algumas etapas (Duarte & Bordin, 2000).

Na primeira etapa deste processo, deve ser realizada a tradução para língua

utilizada no país, feita da forma mais fiel possível ao instrumento original. Entretanto,

adaptações podem e devem ser realizadas levando/se em conta, os diferentes aspectos da

cultura local e particularidades da linguagem. Na segunda etapa, deve ser realizada aretro+

tradução (ou back translation), em que a tradução do instrumento é re/traduzida para a

língua original, por um tradutor bilíngüe. Em seguida, esta versão retro/traduzida é

(33)

detectada modificação no sentido dos itens. Após estas etapas, o instrumento deve

submetido à avaliação de suas propriedades psicométricas.

1. 5. Instrumentos de avaliação do uso de substâncias no Brasil e o

Addiction Severity Index (ASI)

Ainda que nos países desenvolvidos existam vários instrumentos padronizados

para diagnóstico do uso, abuso ou dependência de drogas, no Brasil a situação é um pouco

diferente, sendo raros os instrumentos validados, e em muitos casos, restritos para uso em

populações específicas (Formigoni & Castel, 2000). Considerando os diferentes objetivos

propostos para utilização desses instrumentos, no Brasil podem ser encontrados alguns

instrumentos traduzidos e/ou validados que abrangem diferentes aspectos, entre eles: o

ASSIST (Alcohol, Smoking and Substance Involvement Screening Test, Henrique, 2002) e o

DUSI (Drug Use Screening Inventory, De Micheli & Formigoni, 2000), utilizados para triagem

do uso de substâncias em adultos e adolescentes, respectivamente; o CIDI (Composite

International Diagnostic Interview / Quintana, et al., 2004, Miranda, et al., 1990), utilizado

para fornecer o diagnóstico de acordo com os critérios do DSM/IV e CID/10; o ADS (Alcohol

Dependence Scalee o SADD (Short Alcohol Dependence Data) para avaliar a dependência

de álcool (Jorge et al., 1986, Jorge & Masur, 1985,1986); a FES (Family Environment Scale,

Vianna, Silva & Formigoni, 2007), a FAM (Family Assessment Measure / Skinner,

Steinhauer & Santa/Barbara, 1983, Silva, Noto & Formigoni / dados não publicados)

utilizados para avaliação do funcionamento familiar, o T/ASI (Teen Addiction Severity Index,

Sartes, De Micheli & Formigoni, 2009), para avaliação de adolescentes em relação a

problemas em várias áreas; a ESA (Escala de Severidade de Alcoolismo, Andrade, 1991,

Andrade et al., 1988), escala brasileira, desenvolvida para avaliação de resultado do

tratamento em cinco áreas; além de uma versão do IDS (Inventory of Drinking Situations,

(34)

Para que seja realizada uma avaliação adequada do uso, abuso ou dependência

de drogas é importante que, além do consumo, várias áreas da vida da pessoa sejam

avaliadas. Isto é particularmente importante para planejar adequadamente o tratamento e

também para avaliar sua efetividade, dado que transtornos decorrentes do uso de

substâncias em geral estão associados a problemas em diversas áreas.

O Addiction Severity Index(ASI) é um instrumento que permite colher informações

sobre vários aspectos da vida de pessoas com problemas associados ao abuso e

dependência de drogas, como problemas médicos, situação ocupacional, aspectos legais,

sociofamiliares, psiquiátricos, além do uso de álcool e uso de outras drogas. O ASI foi

desenvolvido em 1979 por A. Thomas McLellan e colegas do Center for Studies of Addiction,

na Filadélfia, USA, inicialmente para propósitos de pesquisa. A partir de então, diversas

versões do instrumento foram desenvolvidas, sendo amplamente aceito e utilizado em

diversas partes do mundo. Uma versão não validada da sua quinta versão (ASI 5) tem sido

utilizada no Brasil com o nome de Escala de Severidade de Dependência, porém sem uma

validação formal (Kessler & Pechansky, 2006). Neste contexto, o ASI tem sido utilizado

principalmente com quatro propósitos: planejamento do tratamento e avaliação do

comprometimento de outras áreas da vida do indivíduo, quando aplicado no início da

intervenção, acompanhamento do tratamento, quando aplicado durante a intervenção,

avaliação da efetividade do tratamento, quando aplicado no final da intervenção e/ou no

seguimento (follow+up).

Trata/se de uma entrevista semi/estruturada, que deve ser realizada por

entrevistadores treinados, dividida nas sete áreas de avaliação acima citadas, cujo tempo de

aplicação é relativamente breve (entre 45 a 90 minutos) considerando a amplitude de

informações que fornece. Cada área é formada por questões objetivas sobre o número, a

intensidade e a duração dos sintomas ocorridos durante toda a vida do indivíduo, nos

últimos 6 meses e nos últimos 30 dias que antecedem a avaliação. Além disso, duas

questões são feitas no final de cada área para que o paciente faça uma avaliação subjetiva

do grau de preocupação com os problemas e sintomas atuais e a necessidade de

(35)

Escore de Gravidade do Entrevistador (Interviewer Severity Ratings) variando de 0 a 10, que

determina o nível de gravidade em cada área e a necessidade de tratamento adicional. O

Escore de Gravidade do Entrevistador tem sido mais comumente utilizado para o

planejamento do tratamento, levando em consideração suas informações subjetivas,

surgindo a necessidade de se criar outro índice apropriado para fins de pesquisa. O Escore

Composto (Composite Score) é obtido a partir dos dados objetivos, incluindo apenas os

itens passíveis de mudança: problemas ocorridos nos últimos 30 dias ou no período de

seguimento. Devido à sua ampla utilização, este instrumento já foi traduzido para diversas

línguas (McLellan et al., 1992), além de ter sido alvo de estudos de validade e confiabilidade

em diferentes contextos (Hendricks et al., 1989, Kosten, Rousaville & Kleber, 1983, Liang et

al., 2008, McLellan et al., 1985, Rogalski, 1987, Zanis et al., 1994), culturas e países

(Holanda: DeJong et al.,1995, Hendricks et al., 1989) (Costa Rica: Sandi/Esquivel & Ávila

Corrales, 1990), (Kwait: Bilal, 1988), (Suíça: Daeppen et al., 1996), (França: Krenz et al.,

2004), (Hungria: Gerevich et al., 2005), (Japão: Senoo et al., 2006); (China: Luo, Wu & Wei,

2010), variando também quanto às formas de aplicação (Butler et al., 2009, Butler et al.,

2001, Petry, 2003).

Com o objetivo de avaliar as propriedades psicométricas do ASI, Mäkelä (2004) fez

uma revisão de 37 estudos e encontrou grande variação na confiabilidade dos Escores de

Gravidade e Escores Compostos entre entrevistadores e após teste/reteste que atribui

principalmente ao uso em diferentes populações e países, assim como aos diferentes níveis

de treinamento dos entrevistadores. De fato, conforme dados da literatura, a validade e a

confiabilidade dos Escores de Gravidade do Entrevistador são melhores quando a escala é

aplicada por entrevistadores melhor treinados e periodicamente supervisionados em seu

trabalho (Kessler & Pechansky, 2006). Entretanto, outros autores sugerem que avaliações

objetivas como os Escores Compostos não sofrem significativa redução na confiabilidade,

quando realizadas por indivíduos menos treinados (Alterman, Mulvaney & Cacciola, 2001).

Para desenvolver os escores mais consistentes para a quinta versão do ASI,

(36)

que tem sido amplamente utilizada nos últimos anos para avaliação de inúmeros

instrumentos e com diferentes objetivos, inclusive para determinar as propriedades de

instrumentos que avaliam o uso de substâncias psicotrópicas (Baillie & Teesson, 2010,

Hagman et al., 2009, Harford, et al., 2009, 2006, Kahler et al., 2003, Kirisci, et al., 2006,

Kirisci, Tarter & Hsu, 1994, Krueger et al., 2004, MacPherson, Strong & Myers, 2008, Morey

& Hopwood, 2009). Alterman et al. (2007) avaliaram respostas provenientes de 2142

pacientes em início de tratamento para dependência de substâncias. Foram utilizados dois

modelos não paramétricos da TRI: a escala Mokken e as técnicas de covariância

condicional. Os autores apresentaram diversas estratégias da teoria clássica empregadas

em estudos anteriores para viabilizar índices resumo, ou escores, especialmente para serem

utilizados em settings de pesquisa. Nestes estudos anteriores, foram utilizados métodos

empíricos e racionais gerando combinações aritméticas não padronizadas para o

desenvolvimento dos Escores Compostos (McLellan et al, 1985), uma análise fatorial

confirmatória para a seleção de itens, formando doisÍndices Clínicos (Clinical Indexes para

avaliação de problemas recentes e relativos à história de vida de cada área do ASI

(McDermott et al., 1996), além de análises fatoriais exploratórias na tentativa de desenvolver

índices resumo padronizados para problemas recentes de cada área do ASI, denominados

Índices de Avaliação (Evaluation Indexes (McDermott & Alterman, 2002). Entretanto, os

autores discutem as diversas limitações relativas às técnicas da psicometria clássica

(Alterman et al., 2007, Hodgins & El/Guebaly, 1992, Mäkelä, 2004, McDermott et al., 1996,

McLellan, Cacciola, & Alterman, 2006), já apresentadas anteriormente. No estudo de 2007,

Alterman et al., propuseram a utilização da TRI não paramétrica para gerar “índices/resumo”

de problemas recentes e de história de vida das sete áreas do ASI 5. Foram criados nove

índices confiáveis e dimensionalmente homogêneos relacionados a problemas recentes das

sete áreas do ASI 5 e cinco índices relacionados a problemas de história de vida, exceto das

áreas “Emprego/Sustento” e “Família/Social”. O número de itens incluídos para formação

destes índices variou entre as áreas. Por exemplo, três itens da área “Médica” e sete da

área “Drogas” formaram os índices de problemas recentes, cujos valores foram

(37)

problemas de cada área, cinco itens foram incluídos da área Álcool ( =0,67) e dez da

Psiquiátrica ( =0,49).

Embora no estudo de Alterman et al. (2007) a TRI não paramétrica tenha sido bem

empregada para os propósitos do estudo, fornecendo informações sobre a consistência dos

itens e a consistência de cada área através do índice , ela apresenta algumas limitações

não fornecendo, por exemplo, parâmetros que representem as propriedades dos itens, como

dificuldade e discriminação. Os modelos paramétricos, além de serem mais bem estudados,

estimam os parâmetros de cada item permitindo a seleção de itens que formam uma escala

final mais consistente diminuindo o tamanho do instrumento; posicionam os itens nos

diferentes níveis da escala do traço latente, indicando a probabilidade de resposta a cada

item pelos indivíduos com diferentes níveis do traço; e ainda permitem a interpretação dos

diferentes níveis. Neste estudo, os autores discutem a necessidade de modificações para a

próxima versão do instrumento.

Visando minimizar as limitações apresentadas pelas versões anteriores do ASI,

atualizar e expandir suas áreas de avaliação, foi desenvolvida a sexta versão do

instrumento. O ASI 6 é composto por 252 questões, também agrupadas nas mesmas sete

áreas de avaliação. Os itens objetivos relativos à problemas ocorridos nos últimos 30 dias,

nos últimos 6 meses e na vida, foram mantidos, assim como os itens subjetivos, sendo

mantidos também o formato dos itens que geram respostas numéricas, dicotômicas e

ordinais que utilizam uma escala do tipo Likert para resposta dos indivíduos. Foram

acrescentados à sexta versão, alguns itens relacionados ao uso do tempo livre e histórico de

traumas. Além disso, foi retirada a avaliação subjetiva de problemas feita pelo entrevistador,

que costumava ser ponderada com a do paciente nas versões anteriores, tornando os

Escores de Gravidade do Entrevistador baseados apenas na avaliação do paciente,

denominado agora deEscores de Gravidade do Entrevistado. OsEscores Compostosforam

substituídos pelos Summary Scores for Recent Functioning (SS+Rs + Escores Resumo de

Funcionamento Recente, em português), que tem por base as questões sobre problemas