ELABORAÇÃO DE UM CONJUNTO DE ITENS - Avaliação de desempenho logístico no serviço ao cliente ba

A TRI procura medir um traço latente, para tanto, utiliza testes (questionários, instrumentos de medida) compostos por um conjunto de itens. Conforme Motta (1999) e Gil (1994), o conjunto de itens, ou ques- tionários, é composto por uma quantidade razoavelmente elevada de questões apresentadas às pessoas, e uma forma de registrar a resposta. O objetivo é conhecer opiniões, atitudes, desempenhos, podendo ser composto por perguntas abertas ou fechadas.

Desta forma, o que se deseja medir é um traço latente, um construto, ou seja, uma variável que não pode ser medida diretamente, no caso do estudo, o desempenho logístico no serviço ao cliente. De acor- do com Schuman e Kalton (1985), a elaboração do instrumento de medida parte da definição dos objetivos da pesquisa, os quais levam neces-

sariamente em consideração a relação conceito/item e a relação popula- ção-alvo/amostra, como demonstra a figura 28.

Figura 28 - Principais estágios de um levantamento Fonte: Adaptado de Schuman e Kalton (1985)

O modelo proposto indica também uma relação direta entre popu- lação-alvo e amostra, bem como entre conceito e item, atrelados ao objetivo da pesquisa. Os dois binômios são correspondentes: item e amostra constituem a parte prática dos termos abstratos conceito e população respectivamente. Sendo assim, dependendo do objetivo da pesquisa e da população-alvo, definir-se-ão diferentes tipos de amostra, o mesmo ocorre entre conceito e item (SCHUMAN; KALTON, 1985).

Fowler (1998) define um bom item como aquele que gera respos- tas fidedignas e válidas. Para o autor existem nesse caso cinco caracte- rísticas básicas:

• A pergunta precisa ser compreendida consistentemente; • A pergunta precisa ser comunicada consistentemente;

• As expectativas quanto à resposta adequada precisam ser cla- ras para o respondente;

• A menos que se esteja verificando conhecimento, os respondentes devem ter toda informação necessária e

• Os respondentes precisam estar dispostos a responder. O processo de construção de um instrumento de medida é importante para o sucesso da pesquisa. Sendo assim, segundo Nunnally (1970) e Pasquali (1997), o conjunto de itens utilizado no instrumento de medida para medir um traço latente tem que apresentar os princípios funda- mentais de validade e fidedignidade.

135 2.5.1 Validade

A validação da representação comportamental do traço latente, is- to é, do construto, embora constitua o ponto crucial da psicometria, apresenta dificuldades importantes que se situam em três níveis ou mo- mentos do processo de elaboração do instrumento, a saber, ao nível da teoria, da coleta empírica da informação e da própria análise estatística da informação (PASQUALI, 2009).

Na concepção de Hill e Hill (2008), validade e confiabilidade de uma medida não são a mesma coisa e possuem uma relação curiosa. Uma medida pode ter boa confiabilidade e ter pouca validade, mas, sem confiabilidade adequada, a medida não pode ter validade adequada. Em termos práticos entende-se que a existência de confiabilidade adequada é necessária, mas não suficiente para garantir validade adequada. Uma medida tem validade se for uma medida do traço latente que o pesquisa- dor pretende medir. No juízo de Nunnaly (1970), uma medida pode ser confiável, entretanto, pode não ser uma medida válida para o que se deseja medir.

Pasquali (2001) afirma que um instrumento é considerado válido quando de fato mede o construto que se propõe, sendo assim, ao medir comportamentos, que são representações de traços latentes, estará me- dindo o próprio traço latente. É uma tarefa difícil, não havendo estudos que evidenciem a validade do instrumento não haverá o seu reconheci- mento científico. Segundo Anastasi e Urbina (2000), as qualidades psi- cométricas dos testes devem ser avaliadas constantemente, sendo que, quanto mais informações sobre tais propriedades, maior será a credibili- dade do teste.

Assim, o termo validade é geralmente utilizado para a capacidade do instrumento em realmente medir aquilo que ele se propõe a medir. Pasquali (2004) comenta que a validade de um item refere-se ao fato do mesmo estar relacionado com aquilo que almeja medir. Nunnaly (1978) ressalta que as medidas do traço latente cumprem três funções:

• A afirmação de uma relação funcional com uma variável es- pecífica;

• A representação de um universo específico de conteúdo; e • A medida dos domínios dos traços latentes.

Devido às dificuldades encontradas para validação de construtos os pesquisadores recorrem a uma série de técnicas para viabilizar a de- monstração da validade dos seus instrumentos. Fundamentalmente, estas

técnicas podem ser reduzidas a três grandes classes: técnicas de validade de critério, de conteúdo e de validade de construto (PASQUALI, 2009).

2.5.1.1 Validade de critério

A validade de critério de um teste consiste no grau de eficácia que ele possui em predizer um desempenho específico de um sujeito. O desempenho do sujeito torna-se, assim, o critério contra o qual a medida obtida pelo teste é avaliada. Evidentemente que o desempenho do sujei- to deve ser medido/avaliado por meio de técnicas que são independentes do próprio teste que se quer validar (PASQUALI, 2004).

A validade de critério divide-se em dois tipos: validade preditiva e validade concorrente, diferenciando-se apenas na dimensão do tempo. Segundo Richardson (2010), a validade preditiva acontece quando a informação sobre o critério é obtida após a informação sobre o conjunto de itens, já na validade concorrente é considerada como validez de pre- dição imediata, pois ocorre quando as coletas de informações sobre o critério e sobre o conjunto de itens são obtidas quase que simultanea- mente.

Pasquali (2004) salienta que este enfoque teve seu auge nas déca- das de 50 a 70 do século passado, os testes eram concebidos como uma amostra de comportamentos tendo como função predizer outros comportamentos ou comportamentos futuros. O teste era válido se predizia com precisão comportamentos futuros, tornando-se desta forma critério de validade do teste. Apesar de ainda ser usado atualmente, o autor considera o teste de pouca relevância, tornando-se apenas uma etapa, junta- mente com a validade de conteúdo, no processo de elaboração de testes. Reforça o autor que a preocupação atual na validação dos testes é com a validade de construto ou dos traços latentes.

2.5.1.2 Validade de conteúdo

A validade de conteúdo refere-se ao julgamento do instrumento para se verificar se ele realmente cobre os diferentes aspectos do seu objeto. Conforme Pasquali (2005), a validade de conteúdo de um teste consiste em verificar se o conjunto de itens constitui uma amostra repre- sentativa do conjunto de interesse, em caso positivo é dito ter validade de conteúdo. É aplicável quando se pode delimitar a priori e com clare- za um universo de comportamentos.

Na elaboração de um conjunto de itens é necessário, segundo Pasquali (1997), fazer algumas especificações:

137 • Definição do conteúdo e subdivisões dos tópicos;

• Evidenciar os objetivos; e

• Definir a proporção relativa de representação no conjunto de itens de cada tópico de conteúdo.

Não existe um método estatístico para avaliar o conteúdo do questionário, o que depende essencialmente de um consenso entre especialistas. Por esse motivo, Pasquali (1997) recomenda uma sequência de passos a serem seguidos para demonstrar a validade de conteúdo, conforme apresentado no quadro 21.

Passos Descrição

Definição do domínio cogni- tivo

Definir os objetivos gerais e específicos ou os processos que se quer avaliar.

Definição do universo de conteúdo

Definir e delimitar o universo do conteúdo em divisões e subdivisões.

Definição da representativida- de de conteúdo

Definir a proporção com que cada tópico e subtópico devem ser representados no conjunto de itens.

Elaboração da tabela de espe- cificação

Relacionar os conteúdos com os processos cognitivos a avaliar e a importância relativa a ser dada a cada unidade.

Construção do conjunto de itens

Elaborar os itens que irão representar o instrumento (seguindo os critérios de cons- trução de itens, apresentados no Quadro 22).

Análise teórica dos itens

Verificar a compreensão das tarefas pro- postas no conjunto de itens (análise semân- tica) e a pertinência do item a determinada unidade, associado ao objetivo ou ao processo que se quer avaliar (análise de juízes, especialistas).

Análise empírica dos itens

Determinar os níveis de dificuldade e dis- criminação dos itens por meio da

TRI.

Quadro 21 - Passos para demonstrar a validade de conteúdo Fonte: Adaptado de Pasquali (1997).

Dentro do raciocínio de Pasquali (1998), os estudos que buscam o grau de evidências de validade baseado no conteúdo do teste necessitam da colaboração de especialistas ou juízes, conhecedores do construto em questão e de técnicas para construção de itens, para duas tarefas: elaborar e revisar as questões do teste orientado pela teoria e compor o teste,

organizando-o de forma equilibrada quanto ao domínio do conteúdo previsto pela teoria.

2.5.1.3 Validade de construto

Pode-se dizer que a validade de construto é a expressão mais re- cente no estudo da validade dos testes e também aquela que, no presen- te, tem merecido maior consideração nos estudos. Os estudos e pesqui- sas atualmente publicados sempre a incluem no conjunto das análises realizadas. Nesse sentido, Pasquali (2004) reforça que a preocupação atual na validação dos testes é com a validade de construto ou dos traços latentes.

De acordo com Magnusson (1967), o conceito de validade de construto é útil para explicar a natureza dos instrumentos que medem traços para os quais não se possuem critérios externos. Assim sendo, é necessário partir de uma variável logicamente definida. A variável, como um construto lógico, é inserida num sistema de conceitos, cujas relações são explicadas por uma teoria e a partir da qual certas conse- qüências práticas, sob determinadas condições, podem ser extraídas e testadas.

No pensamento de Nunnally (1978), a validade de construto é a extensão para qual o conjunto de itens mede um traço latente teórico. De acordo com Pasquali (2004), a validade de construto está em descobrir se o teste constitui uma representação legítima do construto. O mesmo autor (1999) considera a validade de construto como primordial, já que confirma ou rejeita os pressupostos teóricos eleitos para a construção do instrumento. Para Richardson (2010), a validade de construto diz respei- to à validação de uma teoria que está refletida em um determinado instrumento. Cronbach e Meehl (1955) consideram um processo de valida- ção da própria teoria subjacente às dimensões avaliadas.

A validade de construto não se expressa sob a forma simples de coeficientes de correlação. Trata-se, antes, de um julgamento com base em diferentes tipos de informação, por exemplo, os procedimentos seguidos na construção dos testes, a análise dos resultados no teste em condições experimentais específicas, a estrutura fatorial dos resultados em grupos de testes ou os padrões de correlação dos seus resultados com outras medidas (GUION, 1974).

A validade de construto pode ser trabalhada sob vários ângulos da TCT e da TRI. Algumas dificuldades têm sido encontradas na avaliação da validade de construto na TCT, a qual utiliza o erro de estimação, análise de consistência interna, análise fatorial e análise por hipótese

139 para validação de construtos. Mas nem por isso se justifica o simples abandono dessas técnicas utilizadas na TCT. Sempre é recomendável o uso de mais de uma das técnicas citadas na validação de construtos, constituindo-se uma garantia no processo de validação (PASQUALI, 2004).

Anastasi e Urbina (2000) também relacionam alguns procedimentos que identificam o traço latente, como análise fatorial, correlação com outros testes, consistência interna, validação convergente e discriminan- te.

A análise fatorial é uma ferramenta multivariada de análise de dados, que permite a identificação de fatores dentro do conjunto dos itens do instrumento de avaliação, indicando os mais relacionados entre si. Estes fatores são variáveis latentes, ou seja, variáveis não observá- veis, construídas a partir das variáveis originais. São interpretados na ordem do mais explicativo para o menos explicativo, ou seja, segundo a proporção da variabilidade geral dos dados originais por eles explicada. As cargas fatoriais, obtidas da análise, identificam o quanto cada fator está associado a cada item do instrumento e o quanto o conjunto de fatores explica a variabilidade geral dos dados originais. Os autovalores, também gerados pela análise fatorial, são números que refletem a impor- tância do fator (ARTES, 1998).

A análise fatorial procura analisar a homogeneidade do conjunto de itens. Na TRI, a análise fatorial é uma ferramenta importante para se escolher o modelo mais apropriado. Vianna (1983) destaca que este teste auxilia na definição do construto, especialmente ao indicar se o teste mede um único construto (traço latente) ou se, ao contrário, mede diver- sos traços latentes. Porém para Pasquali (2004) e Embretson e Reise (2000) a análise fatorial apresenta alguns problemas. As correlações com outros testes dependem de existirem outros testes semelhantes e validados. A consistência interna para Pasquali (2004) consiste em determinar a correlação que existe entre cada item do teste e o restante dos itens, destacando que a mesma não constitui prova plena de validade de construto do teste.

Por outro lado, de acordo com Pasquali (2004), a TRI têm sido u- tilizada na validação de testes através da sua curva de informação, utili- zando métodos chamados funções de informação e, função de eficiência relativa, a qual permite comparar a relativa eficiência de um teste em relação a outro em sua capacidade de estimar o θ (desempenho, opinião, performance). Reforça que a TRI possui como elemento central o item, e não, o instrumento de medida em sua plenitude como ocorre na TCT.

Porém, Anastasi e Urbina (2000) acrescentam que a validade re- lacionada ao construto envolve também a de conteúdo e critério, pois estes últimos são necessários para validar o construto, não correspon- dendo a categorias distintas ou logicamente coordenadas.

2.5.2 Fidedignidade

Um teste deve possuir uma característica importante, a de medir sem erros. E quando um teste possui esta característica diz que ele possui fidedignidade ou precisão. Segundo Pasquali (1998), Anastasi e Urbina (2000), a precisão ou fidedignidade de um teste refere-se à con- sistência dos escores obtidos pelas mesmas pessoas em ocasiões diferentes. Isso quer dizer que o traço medido pelo teste deve manter-se cons- tante independentemente da ocasião. Fidedignidade é medir com baixo grau de erro.

Richardson (2010) entende que alguns fatores podem comprome- ter a fidedignidade de um teste tais como: o número de itens, a natureza da amostra de indivíduos e a forma de aplicação. Porém, menciona que outros fatores melhoram a fidedignidade de um teste: maior número de itens, itens com maior número de alternativas, itens com a dificuldade ótima, os itens devem discriminar entre posições extremas, evitar frases vagas e imprecisas, tempo amplo para realização do teste e ser aplicado em um ambiente apropriado.

De acordo com Nunnaly (1978), a fidedignidade ou confiabilidade está interessada na extensão para a qual as medidas são repetíveis, isto é, projetadas para serem estáveis sobre uma variedade de condições em que essencialmente os mesmos resultados sejam obtidos. A fidedignidade pode ser apurada através de diferentes técnicas, envolvendo tra- tamentos estatísticos diferenciados.

Nesse aspecto, Pasquali (2004) cita duas técnicas apropriadas: correlação simples e técnicas alfa. O autor salienta que a primeira apre- senta dificuldades em demonstrar sua aplicação. As técnicas alfa α são aplicadas para verificar a consistência interna de um conjunto de itens, sendo que o mais usualmente conhecido é o coeficiente α de Crombach.

O coeficiente α de Crombach é um dos indicadores psicométricos mais utilizados para verificar a fidedignidade ou validade interna do instrumento, o qual deverá apresentar um escore perto ou igual a 1. As- sim, quanto mais próximo desse número, melhor será sua precisão, o que significa que os itens são homogêneos em sua mensuração, produ- zindo a mesma variância (KLINE, 1994; PASQUALI, 1997; PASQUA- LI, 2001).

141 Anastasi e Urbina (2000) afirmam que os coeficientes de fidedignidade são indicados para comparar confiabilidade de diferentes conjun- tos de itens, porém para interpretar os escores individuais é mais apro- priada a utilização do erro padrão de medida (EPM). Porém alertam que os erros padrões e coeficientes de fidedignidade podem não ser constan- tes para todos os níveis da escala de medição. Segundo Cronbach (1996), o erro padrão de medida diz o quão amplamente as medidas de uma mesma pessoa tendem a se distribuir.

Quanto à utilização da TRI para avaliar a fidedignidade de um teste, Urbina (2007) ressalta que a TRI fornece métodos mais sofistica- dos para estimar fidedignidade dos resultados de uma testagem. As van- tagens que esses métodos oferecem especialmente para a testagem em larga escala e a testagem adaptativa computadorizada, têm estimulado seu desenvolvimento e aplicação nas últimas décadas. A TRI oferece um meio de expressar a exatidão de medida de um teste, como uma função de informação do teste (FIT). Para a autora, os métodos da TRI, a fidedignidade e o erro de medida são abordados sob o ponto de vista da função de informação de itens individuais do teste.

Hambleton et al. (1991) destacam que a função de informação do teste nada mais é que a soma das funções de informação do itens que compõem o teste. Para os autores o poder de informação do teste influ- encia na precisão da habilidade estimada, de forma que quanto maior o nível de informação, mais acurada é a estimativa da habilidade.

Ante o exposto verifica-se que os recursos da TRI podem auxiliar na verificação da fidedignidade de um teste. Um dos recursos é a função de informação do item (FII), a qual indica o grau de precisão da estimativa da habilidade de um determinado item. A FII pode ser muito útil para identificar os itens que são realmente relevantes. Por outro lado, a função de informação do teste faz o mesmo, porém para o teste como um todo.

2.6 ETAPAS PARA ELABORAR UM INSTRUMENTO DE MEDI-

No documento Avaliação de desempenho logístico no serviço ao cliente baseada na teoria da resposta ao item (páginas 135-143)