Interfaces Pessoa-Máquina
Marielba Silva de zacarias Fct I, Gab. 2.69
http://w3.ualg.pt/mzacaria
Recolha e Análise de dados
Referências:
Sumário
• Recolha de dados
– Observação – Interrogação
– Monitorização Fisiológica
• Análise estatística de dados
Recolha de dados
• Observação
– Think Aloud (Pensar em voz alta)
– Cooperative evaluation (avaliação cooperativa) – Post-task walkthroughs (recorridos após tarefa)
• Interrogação – Entrevistas – Questionários • Monitorização fisiológica – Eye tracking – Medidas fisiológicas 4
Think aloud
Think Aloud
• O utilizador é observado a fazer a tarefa
• O utilizador descreve o que está a fazer e porquê, o que pensa ele que está a acontecer, etc.
• Vantagens
– simplicidade - requer pouca perícia – Fornece informação valiosa
– Mostra como é realmente usado o sistema
• Desvantagens
– Subjetivo (cada utilizador pode
interpretar de forma diferente) – O acto de descrição altera a eficiência
Avaliação cooperativa
• Variante do think aloud
• O utilizador colabora com a avaliação
• Tanto o utilizador como o avaliador fazem-se
perguntas e dão-se respostas ao longo da avaliação • Vantagens adicionais
– Menos restritivo – Mais fácil de usar
– O utilizador é encorajado a criticar o sistema
Post-task walkthroughs
• Transcrição reproduzida ao utilizador para
comentar
– imediatamente ainda fresca
– Depois avaliador tem tempo de identificar questões
• Útil para identificar as razões para as acções e
alternativas consideradas
• Necessária quando o think aloud não é possível
• Evita interrupções (ao contrario dos dois
Observação: técnicas de registo
• Papel e lápis:
– barato + limitado velocidade de escrita
• Audio:
– bom, difícil de combinar com outros métodos
• Video:
– preciso e realista, precisa equipamentos especiais, intrusivo
Observação: técnicas de registo
• Computer logging:
– automáticos e não intrusivos, produz grandes volumes de dados que podem ser mais difíceis de analisar
• Cadernos de utilizador:
– pouco detalhados e subjetivos, informação valiosa, bons para estudos prolongados
Alguns comentários:
– Utilização combinada na prática
– A transcrição de aúdio/vídeo é difícil e requer aptidão
Observação directa
• Observador está presente
– Regista o comportamento e – Desempenho do utilizador
• Técnica intrusiva e subjectiva
• Dificuldades
– Observador decide o que é relevante (subjectivo) – Observador precisa compreender bem o contexto
físico, cognitivo e social 11
Observação indirecta
• Registo com dispositivos de
– Vídeo – Aúdio
– Própria aplicação
• Análise complexa e demorada
• Distanciamento dos utilizadores e
consequente perda de informação
• Requer planeamento prévio
– ex. Colocação de camaras 12
Usability lab with observers
watching a user & assistant
Câmaras de vídeo
• Várias cámaras de vídeo
+ registo directo das aplicações
• Problemas:
– sincronização
– muito volume de dados!
• Uma solução
Entrevistas
• Analista faz perguntas ao utilizador de forma individual tipicamente baseado em perguntas preparadas
previamente
– informal, subjetiva e relativamente barato
• Vantagens
– Pode ser adaptada ao contexto
– Questões exploradas em profundidade – Promove distintas visões dos utilizadores – Identifica problemas não antecipados
• Desvantagens
– Muito subjetivo
Entrevistas: recomendações
• Tornar entrevista agradável
• Perguntas curtas, directas e não excessivas
• Percebam do trabalho tanto quanto possível
• Construam interpretações e cenários e
envolvam os utilizadores na discusão
• Peçam para rever as respostas
Questionários
• Conjunto de perguntas fixas dadas a muitos utilizadores • Vantagens
– Rápido e abrange grandes volumes de utilizadores
– Pode ser analisado quantitativamente (estatísitcamente como vamos ver)
• Desvantagens
– Menos flexível (na entrevista podem-se fazer questões dependendo das respostas anteriores)
– Não aprofunda tanto
• Devem ser desenhados com cuidado
– Quais perguntas? Como analisar as respostas?
“Eye tracking”
• Dispositivos colocados na cabeça ou secretária seguem a posição do olho
• Os movimentos do olho reflectem a quantidade de processamento cognitivo requerido por um ecrã • As medidas incluem:
– fixações: olho mantém posição estável. O número e
duração de fixações indica o nível de dificuldade do ecrã – sacadas: movimentos rápidos do olho entre pontos de
interesse
– caminhos seguidos até o alvo: movimentos direito a um alvo com uma fixação curta no alvo, é o óptimo
“Eye tracker”
20
Leitura de páginas web:
Vermelho -> + tempo de fixação Amarelo -> - tempo de fixação Azul -> ainda – menos
Medidas fisiológicas
• Respostas emocionais ligadas a reacções físicas
• Ajudam determinar a reacção de um utilizador à IU • Tipos de medida
– Actividade cardíaca, ex. Pressão arterial, pulso.
– Actividade das glándulas sudoríparas: Galvanic Skin Response (GSR)
– Actividade eléctrica dos musculos: electromiograma (EMG) – Actividade eléctrica do cérebro: electroencefalograma (EEG)
• Dificuldades na interpretação destas respostas, é preciso mais investigação
Actividade electrica dos músculos
Selecção do método e técnicas de
avaliação
Quando?: desenho vs. implementação
Local de avaliação: laboratório vs. campo objectividade: subjetiva vs. objectiva
Tipo de medição: qualitativa vs. quantitativa
Nível de detalhe: muito detalhe vs. pouco detalhe Nível of interferência: intrusivo vs. não intrusivo
Recursos disponíveis: tempo, sujeitos,
Exemplo: Avaliação do desenho de um
sistema móvel de recenseamento
• Objetivo: Registo de informação básica:
identificação de grupo familiar, cabeça de
família, nº de membros, idade e história
médica, etc.
• Pretende-se: Substituição de sistema manual
• Estudo de campo utilizado observações e
entrevistas para refinar requisitos
• Fácil de utilizar em ambientes rurais
Avaliação de telemóveis noutros
mercados
• Um produto já existente foi utilizado como
protótipo
Desafio & envolvimento num
jogo colaborativo
• Medidas fisiológicas • Jogadores + envolvidos
quando jogavam com outra pessoa que com um
Conclusão
• Vimos a importância, métodos, técnicas e ferramentas da avaliação com utilizadores
• Dependendo do caso podem-se escolher alternativas Para concluir incluímos o que o Bruce Tognazzini diz…
“O desenho iterativo, com o seu ciclo repetido de desenho e avaliação, é o único método validado disponível que produz
bons resultados de forma consistente. A não inclusão de testes como parte integral do processo de desenho implica deitar muito dinheiro no lixo”
ANÁLISE ESTATÍSTICA DE DADOS
Estimadores estatísticos
• Média
– Valor médio
• Soma dos quadrados das diferenças
– Ajuste de valores a uma curva
• Graus de liberdade
– Nº de observações independentes
• Variança
• Desvio padrão
– Dispersão do valor médio
Significado do desvio padrão
O quê indicam estes dados?
high values indicate more variation
Playing against computer
Playing against friend
Mean St. Dev. Mean St. Dev. Boring 2.3 0.949 1.7 0.949 Challenging 3.6 1.08 3.9 0.994 Easy 2.7 0.823 2.5 0.850 Engaging 3.8 0.422 4.3 0.675 Exciting 3.5 0.527 4.1 0.568 Frustrating 2.8 1.14 2.5 0.850 Fun 3.9 0.738 4.6 0.699
Mediana e moda
Mediana• 1, 1, 2, 2, 2, 2,
3
, 4, 8,
9, 9, 12, 15
• Média = 5
• Mediana = 3
Moda• 1, 1, 1,
2, 2, 2, 2
, 3,
4, 4, 8, 9, 9, 12, 15
• Média = 4,8
• Moda = 2
35O quê quando?
• Votos em categorias: moda
– “Quantos preferem A, B ou C”
• Média sempre com desvio padrão
– “Tempo médio para fazer a tarefa”
No Excel..
• AVERAGE(range)
• VAR(range)
• STDEV(range)
• MEDIAN(range)
• MODE(range)
37Não chega
Tipos de estatística
Descritiva
• Apresentação de factos • Descrição de amostras
Indutiva (ou Inferêncial)
• Proposição generalizadas à população toda a partir de amostras
• Implica pressupostos sobre natureza da população • Infere – Valores estimados – Intervalos de confiança – Rejeição de hipóteses 39
Como responder a?
• Solução A melhor que B?
– Alteração no tipo de Menús (Pulldown vs Pie) – Interface caligráfica vs Menús
• Solução cumpre os objectivos?
• Tempo execução tarefa < limite superior • Nº erros < limite superior
Com a Média?
• Métrica de desempenho: execução ≤ 30 min
• Teste com 6 utilizadores
– Teste dá: 20, 15, 40, 90, 10, 5 – Média = 30
– Desvio padrão = 32 – Parece ok!?
– Errado, nada se pode afirmar, amostra mt dispersa
• Factores que contribuem para a incerteza
– Resultados muito variáveis (desv. Pad = 32) – Pequeno nº de utilizadores
Resultados muito variáveis
Poucos utilizadores
Nem aumentando resolve-se..
Mesmo assim não chega!
Universo vs amostra
• O problema é que só temos uma amostra…
Procedimento
• Escolha da população “significativa”
– Público alvo
• Formulação de hipótese experimental
– O que quero provar
• Formulação da hipótese nula (?)
– O contrário
• Realização dos testes
– Recolher os dados
• Conclusão
– Aplicar tratamento estatístico – Analisar os resultados
Hipótese nula
• Hipótese H1 – Hipótese Experimental
– Diz o que queremos verificar
• Ex. Os novos menus (pie) melhoram o desempenho
• Hipótese H0 – Hipótese Nula
– Indica que não há diferença estatística significativa – Diz o contrário do que pretendemos
• Ex. A mudança de menús não afecta o desempenho 48
Grau de confiança
• Objectivo da experiencia:
– rejeitar H0 e aceitar H1 i.e demonstrar que H0 é falsa com um grau de confiança determinado
• α = Probabilidade de parecer que H1 se
verifica, mas afinal estamos errados
(“apanhámos esquisitos”)
• Grau de confiança = 1 – α
– α = 0.05 aceitável – α = 0.01 melhor
Comparar duas alternativas
• Experiencia inter-grupos
– Dois grupos de teste
– Cada grupo usa apenas um dos sistemas
• Experiencia intra-grupos
– Cada pessoa usa ambos sistemas
– Não podem realizar as mesmas tarefas ou pela mesma ordem (problema de aprendizagem)
– Melhor para técnicas de interacção básicos – Requer + participantes
• Determinar se diferenças são estatísticamente significativas
Objectivo: Médias iguais?
• Atalhos é melhor que menús? • Não sabemos
– Valores próximos
– Desvio padrão grande
• H0: as médias são iguais
(ñ há diferença estatística significativa)
– Probabilidade de não parecerem iguais e serem iguais < α
• Rejeitar H0 -> São diferentes com probabilidade 1 - α
Três testes estatísticos
1
t-student para médias
2
intervalos de confiança
3
chi-quadrado
Teste de t-student
• Testa a média de populações para amostras pequenas
– Não se conhecem μ,σ da população
– As populações têm uma distribuição normal
• Testa se dois conjuntos de dados ou amostras provém ou não da mesma população (H0)
– ie:
Testa se dois conjuntos de dados têm ou não diferenças significativas (H0)
Distribuição normal
• Distribuição de
probabilidade contínua que descreve grupos de dados em termos de uma média (μ) e um desvio padrão (σ) • Como sabemos se uma
população é normal?
O Universo é porreiro
• Valores medidos na
natureza tendem para a normalidade..
• ..para amostras de pelo menos 20 indivíduos
Exemplo teste de t-bilheteira
• Objectivo:
– comparar bilheteira com máquina
• Hipótese nula:
– A forma de aquisição do bilhete não tem influência no tempo da tarefa • Medidas
:
– Bilheteira: 28,25,33,26,30,32 segundos – Máquina: 32,41,37,40,30 segundos • Médias – Bilheteira: 29 segundos – Máquina: 36 segundos 58Contas a fazer no t-test
• Calcular a média e variança de cada amostra
– Média X = Σ x / n
– Variança S2=Σ (x – X)2 / (n-1),
• n = tamanho da amostra
• Calcular t = X
1– X
2/
S
12/n
1
+ S
22/n
2• Calcular graus de liberdade gl = (N-1)
– N = tamanho das amostras combinadas
• Buscar t na tabela para gl e grau de confiança
– Se t > valor da tabela, rejeita-se a hipótese nula 59
Contas do exemplo da bilheteira
• n1 = 6 • n2 = 5 • N = 11 • Gl (N-1) = 10 • α = 0.05 • grau de confiança: (1 – α)*100% = 95% • X1 = 29 • X2 = 36 • S12 = 10.4 • S22= 23.5 • t = 2.76 • Valor t 10,0.05 = 2.228 • t > valor crítico 60 Bilheteira: 28,25,33,26,30,32 segundos Máquina: 32,41,37,40,30 segundosT-stud
en
t
table
62 t 10,95% = 2.228Teste de t bilheteira com excel
Resultados test t-bilheteira
• Constata-se que
– Rejeita-se a hipotese nula com um grau de confiança de 95%
• Conclusão
– Trabalhando com as médias, pois referem-se a populações diferentes, em média:
• A compra em máquina é 24% + lenta (36/29)
Objectivo: atingimos um valor?
• O tempo para usar
atalhos é < 3 segundos? • Não sabemos porque o
desvio padrão é muito grande
Intervalos de confiança
• 2 valores entre os quais uma população esta
compreendida com uma dada probabilidade
• Uso:
– testar uma amostra contra um valor limite
– Ex.: Uma operação não deve demorar mais do que 25 segundos
• Neste caso o intervalo é (0-25)
Intervalos de confiança
• Intervalos de confiança numa população
normal:
– 68% dos dados estão à 1σ de μ,
– 95% à 2σ e 99.7 à 3σ
Intervalos de confiança: contas
• Calcular variança (S
2)
• Desvio padrão da média (S
em)
• Determinar t unicaudal para grau de confiança
pretendido e graus de liberdade da amostra
• Intervalo de confiança estará compreendido
entre:
– Xmin = X - (tp,gl x sem) – Xmax = X + (tp,gl x sem)
Exemplo intervalos de confiança
• Métrica: Nº de erros
• Objetivo: Nº de erros ≤ 15
• Amostra: 13, 6, 8, 11
• gl = 4-1 = 3
• X = 9,5
• S
2= 9,67
• S
em=√ 9,67/4 = 1,55
71Exemplo Intervalos de Confiança
• H
0: Nº de erros > 15
• Buscar valor de t unicaudal para p = 0,025 e 3 gl
• T
0.025,3= 3,182
• X
min= 9,5 - 3,182 x 1,55 = 4,54
• X
max= 9,5 + 3,182 x 1,55 = 14,43
• Resultado:
– intervalo abaixo de 15• Conclusão: Rejeitar H
0– Nº erros < 15 com 97,5% certeza 72
T-stud
en
t
table
73 t 3,95% = 2.228Objectivo:
Frequências esperadas = observadas
• Achamos que
– 40% usa atalhos – 60% usa menús• Medimos
– 45% usa atalhos – 55% usa menús• Afinal é 40/60 ou 45/55?
– Não sabemos 74Teste Chi Quadrado
• H0: frequências esperadas = observadas
• Para dados nominais ou categoriais
– Análise de preferências entre várias escolhas
• Procedimento:
– Cálculo da diferença entre as frequências observadas e as esperadas
– X2 = Σ(f
0 - fe)2/fe
– Se X2 > X2 H0 (da tabela), rejeitamos H0 para α 75
Exemplo Teste X Quadrado
Opção f esperada f observada diferença (Diferença)2 /f esperada
A 10 5 -5 25 2,5
B 10 16 6 36 3,6
C 10 9 -1 1 0,1
• Objectivo:
– Qual é a opção preferida? – H0: preferência igual pelas 3 – 30 utilizadores – Graus de liberdade N = 3-1 = 2 76 – X2 = 6,2 (2.5+3.6+0.1) – Da tabela obtemos 5,99 para p = 0,05
– Rejeita-se a hipótese nula (5,99 < 6,2)
Tabela do Chi Quadrado
Chi Quadrado
• O resultado devolve a probabilidade da hipótese nula (4,5%)
• Dado que 4,5% < 5% (grau de confiança definido para o teste), rejeitamos H0
• Uma das opções é preferida relativamente às outras, com 95% de certeza
Chi Quadrado
• O resultado devolve a probabilidade da hipótese nula (4,5%)
• Dado que 4,5% < 5% (grau de confiança definido para o teste), rejeitamos H0
• Uma das opções é preferida relativamente às outras, com 95% de certeza 79 10 9 10 12 10 9 0.740818
Tipos de dados
na Selecção de testes
Var. Independente Var. Dependente
Tipo Categórica Continua
Categórica X2 T-student, outros
Continua outros regressão
Tamanho das amostras
na selecção de testes
• T-student
– N < 30• X
2 – N < 1000 – Frequência x categoria > 5 81Escolha de testes
• Todas as funções estatísticas encontram-se em
bibliotecas
– SPSS, MATLAB, e como vimos até em Excel
• Portanto, o quê é preciso saber é seleccionar o
teste apropriado para cada caso
– O tipo de dados e tamanho das a mostras é crítico nesta selecção