Teste de confiabilidade interavaliadores - COLETA E CODIFICAÇÃO DOS DADOS

APÊNDICE I – SCRIPT 9 322 APÊNDICE J – SCRIPT 10

2) Relação: Entrevistador(a), convidado(a)(s) e público (implícito); 3) Tópico: Temas atuais voltados à Jurisprudência (Direito).

3.4 COLETA E CODIFICAÇÃO DOS DADOS

3.5.1 Teste de confiabilidade interavaliadores

Em alguns estudos – que passaram por uma coleta de palavras específicas (com proeminências secundárias, por exemplo) – o resultado da coleta com base perceptual passou por testes (NADEU E HUALDE, 2012; BRENIER ET AL., 2005). Para testar a confiabilidade da coleta realizada nesta pesquisa, foi solicitado para um voluntário brasileiro bilíngue (espanhol-português)34, em uma primeira etapa, a avaliação das proeminências nas palavras- alvo (em contexto), com sessão treino e feedback; e em uma segunda etapa, foi realizada uma sessão de julgamento de proeminências secundárias. Por último, realizamos um teste de confiabilidade interavaliadores (Coeficiente Kappa de Cohen) com os dados coletamos para o trabalho. A seguir, apresentamos com mais detalhes cada uma dessas etapas.

Na primeira etapa, elaboramos uma tarefa no programa de computador PsychoPy3/v.3.2.4 (PEIRCE, 2007), um software multifacetado que permite criar experimentos de percepção, gerando no final de cada tarefa as respostas em arquivos (Excel, por exemplo).

O objetivo dessa tarefa foi contrastar a percepção de proeminência secundária entre dois avaliadores: da pesquisadora deste trabalho e de um voluntário bilíngue treinado. Testamos, desse modo, a nossa capacidade em coletar palavras com o fenômeno pretendido. Por isso, o teste não deve ser encarado como um experimento de percepção do acento secundário do espanhol, pois, para isso, precisaríamos contar com participantes nativos.

Antes da avaliação (propriamente dita) das palavras, o segundo avaliador, além de receber uma instrução explícita sobre o acento secundário, passou por uma seção de treinamento com feedback em que podia esclarecer suas dúvidas durante a tarefa. Nas duas seções (treinamento e avaliação), o voluntário podia escutar as palavras até cinco vezes (se necessário) e era forçado a dar uma resposta quanto à presença ou ausência de proeminência secundária para dar continuidade às outras avaliações da tarefa.

Com relação à tarefa do PsychoPy, elaboramos três “rotinas” para desenvolver a atividade: as instruções, a avaliação (composta por uma série de palavras a serem julgadas quanto à proeminência secundária) e o encerramento. Na Figura 17, podemos observar as rotinas por meio dos balões vermelhos na parte inferior da figura. Na parte superior, há um espaço onde podemos inserir áudios, imagens e textos em cada rotina.

Figura 17 – Exemplo das rotinas no PsychoPy

Como podemos visualizar, configuramos o som, a imagem, os códigos de controle da tarefa, o texto que aparece na tela e as teclas do computador (para as respostas do juiz), que foram repetidos a cada nova avaliação da palavra na frase. Na Figura 18, fornecemos o frame inicial do teste, que consistiu nas instruções preliminares da atividade.

Figura 18 – Instruções da tarefa de percepção no PsychoPy

Fonte: autora (2020)

Durante a avaliação, as palavras (no seu contexto: sintagma ou frase), além de serem reproduzidas em áudio de forma automática a cada nova avaliação, apareciam graficamente na tela, conforme vemos na Figura 19. Além disso, o áudio podia ser repetido (até 5 vezes), por meio da tecla “space” do computador. A palavra-alvo era representada na parte superior da tela e ressaltada com letras em vermelho. As únicas opções de resposta foram ‘y’ (yes) para proeminente e ‘n’ (no) para não proeminente.

Figura 19 – Exemplo da avaliação de proeminência secundária no PsychoPy

Fonte: autora (2020)

Além disso, essa série de palavras (a serem julgadas) apareceu na mesma ordem para os dois avaliadores, que realizaram o teste individualmente e sem a presença do outro. Após a avaliação de todas as palavras, o juiz recebeu uma mensagem de agradecimento na tela, que sinalizou a finalização do teste. O programa salvou automaticamente os resultados dos avaliadores em uma pasta do computador. Posteriormente, as respostas foram transferidas ao programa SPSS para a realização do teste de confiabilidade interavaliador.

Cabe ressaltar que, nesta etapa da pesquisa, o propósito era basicamente verificar o grau de concordância sobre as palavras manifestarem ou não a proeminência secundária e, com isso, o grau de confiabilidade da nossa coleta de dados. Desse modo, poderíamos contrastar a nossa opinião sobre a proeminência secundária nos dados com a de outra pessoa.

Com relação ao teste, conforme Hallgren (2012), um dos erros mais comuns cometidos por pesquisadores é usar porcentagens para testar a concordância entre avaliadores/codificadores, já que até mesmo altas taxas de concordância podem ocorrer ao acaso. Segundo o autor, a confiabilidade interavaliadores (em inglês, IRR) é importante para desenhos de pesquisa em que os dados são coletados por meio das avaliações feitas por codificadores treinados ou não. A seleção de uma parte dos dados para a avaliação torna a análise mais prática e essa parte selecionada pode ser usada para generalizar os resultados à amostra (totalidade dos dados).

No desenho do teste, devemos decidir se o mesmo número de avaliadores julgará o mesmo número de casos (respostas) ou se os diferentes conjuntos de casos (respostas) serão avaliados por diferentes subconjuntos de avaliadores. Quando o mesmo conjunto de respostas é avaliado pelo mesmo conjunto de avaliadores – desenho completamente cruzado – há necessidade de um número maior de avaliações a fim de melhorar as estimativas do teste (HALLGREN, 2012).

Para a nossa pesquisa, decidimos incluir o número total de palavras prosódicas com proeminência secundária (da amostra) e ao menos 10% de palavras prosódicas sem proeminência, usadas como distratoras. Assim, garantiríamos respostas binárias no teste: quanto à ausência (no) e presença (yes) de proeminência secundária. A partir disso, as respostas da autora deste trabalho foram contrastadas com as do avaliador treinado por meio de um teste de tabulação cruzada, gerando uma estimativa do grau de concordância.

O Coeficiente Kappa de Cohen é uma estatística que determina a proporção de concordância entre avaliadores. Para tanto, as variáveis correspondentes às respostas devem ser nominais; o julgamento das ocorrências deve ter sido feito por apenas dois sujeitos, que avaliaram as mesmas ocorrências. Além disso, o coeficiente corresponde a uma escala de 0 a 1 que diz respeito à concordância interavaliadores. Quanto maior a concordância entre os sujeitos, maior o valor do coeficiente. No Quadro 11, com base em Altman (1990), apresentamos uma interpretação dos escores do teste de confiabilidade:

Quadro 11 – Interpretação do coeficiente Kappa

Valor de Kappa (k) Força da concordância

< 0,20 Ruim

0,21 – 0,40 Razoável

0,41 – 0,60 Moderado

0,61 – 0,80 Bom

0,81 – 1,00 Muito bom

Fonte: autora (2020), adaptação de Altman (1990)

Segundo Altman (1990), o teste de Kappa deve ser interpretado como uma concordância proporcional corrigida. O autor afirma que um valor aceitável depende das circunstâncias, já que não há valores universais para indicar uma concordância boa entre os juízes. Neste trabalho,

o teste de confiabilidade nos apontaria a nossa capacidade em coletar palavras com proeminência secundária, contrastando a nossa opinião com a de outra pessoa (treinada).

No documento Correlatos acústicos do acento secundário no espanhol mexicano : estudo baseado em um corpus de transmissões radiofônicas (páginas 131-136)