Interfaces Pessoa-Máquina

(1)

Interfaces Pessoa-Máquina

Marielba Silva de zacarias Fct I, Gab. 2.69

[email protected]

http://w3.ualg.pt/mzacaria

Recolha e Análise de dados

Referências:

(2)

Sumário

• Recolha de dados

– Observação – Interrogação

– Monitorização Fisiológica

• Análise estatística de dados

(3)

(4)

Recolha de dados

• Observação

– Think Aloud (Pensar em voz alta)

– Cooperative evaluation (avaliação cooperativa) – Post-task walkthroughs (recorridos após tarefa)

• Interrogação – Entrevistas – Questionários • Monitorização fisiológica – Eye tracking – Medidas fisiológicas 4

(5)

Think aloud

(6)

Think Aloud

• O utilizador é observado a fazer a tarefa

• O utilizador descreve o que está a fazer e porquê, o que pensa ele que está a acontecer, etc.

• Vantagens

– simplicidade - requer pouca perícia – Fornece informação valiosa

– Mostra como é realmente usado o sistema

• Desvantagens

– Subjetivo (cada utilizador pode

interpretar de forma diferente) – O acto de descrição altera a eficiência

(7)

Avaliação cooperativa

• Variante do think aloud

• O utilizador colabora com a avaliação

• Tanto o utilizador como o avaliador fazem-se

perguntas e dão-se respostas ao longo da avaliação • Vantagens adicionais

– Menos restritivo – Mais fácil de usar

– O utilizador é encorajado a criticar o sistema

(8)

Post-task walkthroughs

• Transcrição reproduzida ao utilizador para

comentar

– imediatamente  ainda fresca

– Depois  avaliador tem tempo de identificar questões

• Útil para identificar as razões para as acções e

alternativas consideradas

• Necessária quando o think aloud não é possível

• Evita interrupções (ao contrario dos dois

(9)

Observação: técnicas de registo

• Papel e lápis:

– barato + limitado velocidade de escrita

• Audio:

– bom, difícil de combinar com outros métodos

• Video:

– preciso e realista, precisa equipamentos especiais, intrusivo

(10)

Observação: técnicas de registo

• Computer logging:

– automáticos e não intrusivos, produz grandes volumes de dados que podem ser mais difíceis de analisar

• Cadernos de utilizador:

– pouco detalhados e subjetivos, informação valiosa, bons para estudos prolongados

Alguns comentários:

– Utilização combinada na prática

– A transcrição de aúdio/vídeo é difícil e requer aptidão

(11)

Observação directa

• Observador está presente

– Regista o comportamento e – Desempenho do utilizador

• Técnica intrusiva e subjectiva

• Dificuldades

– Observador decide o que é relevante (subjectivo) – Observador precisa compreender bem o contexto

físico, cognitivo e social 11

(12)

Observação indirecta

• Registo com dispositivos de

– Vídeo – Aúdio

– Própria aplicação

• Análise complexa e demorada

• Distanciamento dos utilizadores e

consequente perda de informação

• Requer planeamento prévio

– ex. Colocação de camaras 12

(13)

Usability lab with observers

watching a user & assistant

(14)

(15)

Câmaras de vídeo

• Várias cámaras de vídeo

+ registo directo das aplicações

• Problemas:

– sincronização

– muito volume de dados!

• Uma solução

(16)

Entrevistas

• Analista faz perguntas ao utilizador de forma individual tipicamente baseado em perguntas preparadas

previamente

– informal, subjetiva e relativamente barato

• Vantagens

– Pode ser adaptada ao contexto

– Questões exploradas em profundidade – Promove distintas visões dos utilizadores – Identifica problemas não antecipados

• Desvantagens

– Muito subjetivo

(17)

Entrevistas: recomendações

• Tornar entrevista agradável

• Perguntas curtas, directas e não excessivas

• Percebam do trabalho tanto quanto possível

• Construam interpretações e cenários e

envolvam os utilizadores na discusão

• Peçam para rever as respostas

(18)

Questionários

• Conjunto de perguntas fixas dadas a muitos utilizadores • Vantagens

– Rápido e abrange grandes volumes de utilizadores

– Pode ser analisado quantitativamente (estatísitcamente como vamos ver)

• Desvantagens

– Menos flexível (na entrevista podem-se fazer questões dependendo das respostas anteriores)

– Não aprofunda tanto

• Devem ser desenhados com cuidado

– Quais perguntas? Como analisar as respostas?

(19)

“Eye tracking”

• Dispositivos colocados na cabeça ou secretária seguem a posição do olho

• Os movimentos do olho reflectem a quantidade de processamento cognitivo requerido por um ecrã • As medidas incluem:

– fixações: olho mantém posição estável. O número e

duração de fixações indica o nível de dificuldade do ecrã – sacadas: movimentos rápidos do olho entre pontos de

interesse

– caminhos seguidos até o alvo: movimentos direito a um alvo com uma fixação curta no alvo, é o óptimo

(20)

“Eye tracker”

20

Leitura de páginas web:

Vermelho -> + tempo de fixação Amarelo -> - tempo de fixação Azul -> ainda – menos

(21)

Medidas fisiológicas

• Respostas emocionais ligadas a reacções físicas

• Ajudam determinar a reacção de um utilizador à IU • Tipos de medida

– Actividade cardíaca, ex. Pressão arterial, pulso.

– Actividade das glándulas sudoríparas: Galvanic Skin Response (GSR)

– Actividade eléctrica dos musculos: electromiograma (EMG) – Actividade eléctrica do cérebro: electroencefalograma (EEG)

• Dificuldades na interpretação destas respostas, é preciso mais investigação

(22)

Actividade electrica dos músculos

(23)

Selecção do método e técnicas de

avaliação

Quando?: desenho vs. implementação

Local de avaliação: laboratório vs. campo objectividade: subjetiva vs. objectiva

Tipo de medição: qualitativa vs. quantitativa

Nível de detalhe: muito detalhe vs. pouco detalhe Nível of interferência: intrusivo vs. não intrusivo

Recursos disponíveis: tempo, sujeitos,

(24)

Exemplo: Avaliação do desenho de um

sistema móvel de recenseamento

• Objetivo: Registo de informação básica:

identificação de grupo familiar, cabeça de

família, nº de membros, idade e história

médica, etc.

• Pretende-se: Substituição de sistema manual

• Estudo de campo utilizado observações e

entrevistas para refinar requisitos

• Fácil de utilizar em ambientes rurais

(25)

Avaliação de telemóveis noutros

mercados

• Um produto já existente foi utilizado como

protótipo

(26)

Desafio & envolvimento num

jogo colaborativo

• Medidas fisiológicas • Jogadores + envolvidos

quando jogavam com outra pessoa que com um

(27)

Conclusão

• Vimos a importância, métodos, técnicas e ferramentas da avaliação com utilizadores

• Dependendo do caso podem-se escolher alternativas Para concluir incluímos o que o Bruce Tognazzini diz…

“O desenho iterativo, com o seu ciclo repetido de desenho e avaliação, é o único método validado disponível que produz

bons resultados de forma consistente. A não inclusão de testes como parte integral do processo de desenho implica deitar muito dinheiro no lixo”

(28)

ANÁLISE ESTATÍSTICA DE DADOS

(29)

Estimadores estatísticos

• Média

– Valor médio

• Soma dos quadrados das diferenças

– Ajuste de valores a uma curva

• Graus de liberdade

– Nº de observações independentes

• Variança

• Desvio padrão

– Dispersão do valor médio

(30)

Significado do desvio padrão

(31)

O quê indicam estes dados?

high values indicate more variation

Playing against computer

Playing against friend

Mean St. Dev. Mean St. Dev. Boring 2.3 0.949 1.7 0.949 Challenging 3.6 1.08 3.9 0.994 Easy 2.7 0.823 2.5 0.850 Engaging 3.8 0.422 4.3 0.675 Exciting 3.5 0.527 4.1 0.568 Frustrating 2.8 1.14 2.5 0.850 Fun 3.9 0.738 4.6 0.699

(32)

Mediana e moda

Mediana

• 1, 1, 2, 2, 2, 2,

3 , 4, 8,

9, 9, 12, 15

• Média = 5

• Mediana = 3

Moda

• 1, 1, 1,

2, 2, 2, 2

, 3,

4, 4, 8, 9, 9, 12, 15

• Média = 4,8

• Moda = 2

35

(33)

O quê quando?

• Votos em categorias: moda

– “Quantos preferem A, B ou C”

• Média sempre com desvio padrão

– “Tempo médio para fazer a tarefa”

(34)

No Excel..

• AVERAGE(range)

• VAR(range)

• STDEV(range)

• MEDIAN(range)

• MODE(range)

37

(35)

Não chega 

(36)

Tipos de estatística

Descritiva

• Apresentação de factos • Descrição de amostras

Indutiva (ou Inferêncial)

• Proposição generalizadas à população toda a partir de amostras

• Implica pressupostos sobre natureza da população • Infere – Valores estimados – Intervalos de confiança – Rejeição de hipóteses 39

(37)

Como responder a?

• Solução A melhor que B?

– Alteração no tipo de Menús (Pulldown vs Pie) – Interface caligráfica vs Menús

• Solução cumpre os objectivos?

• Tempo execução tarefa < limite superior • Nº erros < limite superior

(38)

Com a Média?

• Métrica de desempenho: execução ≤ 30 min

• Teste com 6 utilizadores

– Teste dá: 20, 15, 40, 90, 10, 5 – Média = 30

– Desvio padrão = 32 – Parece ok!?

– Errado, nada se pode afirmar, amostra mt dispersa

• Factores que contribuem para a incerteza

– Resultados muito variáveis (desv. Pad = 32) – Pequeno nº de utilizadores

(39)

Resultados muito variáveis

(40)

Poucos utilizadores

(41)

Nem aumentando resolve-se..

(42)

Mesmo assim não chega!

(43)

Universo vs amostra

• O problema é que só temos uma amostra…

(44)

Procedimento

• Escolha da população “significativa”

– Público alvo

• Formulação de hipótese experimental

– O que quero provar

• Formulação da hipótese nula (?)

– O contrário

• Realização dos testes

– Recolher os dados

• Conclusão

– Aplicar tratamento estatístico – Analisar os resultados

(45)

Hipótese nula

• Hipótese H1 – Hipótese Experimental

– Diz o que queremos verificar

• Ex. Os novos menus (pie) melhoram o desempenho

• Hipótese H0 – Hipótese Nula

– Indica que não há diferença estatística significativa – Diz o contrário do que pretendemos

• Ex. A mudança de menús não afecta o desempenho 48

(46)

Grau de confiança

• Objectivo da experiencia:

– rejeitar H0 e aceitar H1 i.e demonstrar que H0 é falsa com um grau de confiança determinado

• α = Probabilidade de parecer que H1 se

verifica, mas afinal estamos errados

(“apanhámos esquisitos”)

• Grau de confiança = 1 – α

– α = 0.05 aceitável – α = 0.01 melhor

(47)

Comparar duas alternativas

• Experiencia inter-grupos

– Dois grupos de teste

– Cada grupo usa apenas um dos sistemas

• Experiencia intra-grupos

– Cada pessoa usa ambos sistemas

– Não podem realizar as mesmas tarefas ou pela mesma ordem (problema de aprendizagem)

– Melhor para técnicas de interacção básicos – Requer + participantes

• Determinar se diferenças são estatísticamente significativas

(48)

Objectivo: Médias iguais?

• Atalhos é melhor que menús? • Não sabemos

– Valores próximos

– Desvio padrão grande

• H0: as médias são iguais

(ñ há diferença estatística significativa)

– Probabilidade de não parecerem iguais e serem iguais < α

• Rejeitar H0 -> São diferentes com probabilidade 1 - α

(49)

Três testes estatísticos

1 t-student para médias

2 intervalos de confiança

3 chi-quadrado

(50)

Teste de t-student

• Testa a média de populações para amostras pequenas

– Não se conhecem μ,σ da população

– As populações têm uma distribuição normal

• Testa se dois conjuntos de dados ou amostras provém ou não da mesma população (H0)

– ie:

Testa se dois conjuntos de dados têm ou não diferenças significativas (H0)

(51)

Distribuição normal

• Distribuição de

probabilidade contínua que descreve grupos de dados em termos de uma média (μ) e um desvio padrão (σ) • Como sabemos se uma

população é normal?

(52)

O Universo é porreiro

• Valores medidos na

natureza tendem para a normalidade..

• ..para amostras de pelo menos 20 indivíduos

(53)

Exemplo teste de t-bilheteira

• Objectivo:

– comparar bilheteira com máquina

• Hipótese nula:

– A forma de aquisição do bilhete não tem influência no tempo da tarefa • Medidas

:

– Bilheteira: 28,25,33,26,30,32 segundos – Máquina: 32,41,37,40,30 segundos • Médias – Bilheteira: 29 segundos – Máquina: 36 segundos 58

(54)

Contas a fazer no t-test

• Calcular a média e variança de cada amostra

– Média X = Σ x / n

– Variança S2_{=Σ (x – X)}2 _{/ (n-1),}

• n = tamanho da amostra

• Calcular t = X

₁

– X

₂

/

S

₁2

_/n

1

+ S

22

/n

2

• Calcular graus de liberdade gl = (N-1)

– N = tamanho das amostras combinadas

• Buscar t na tabela para gl e grau de confiança

– Se t > valor da tabela, rejeita-se a hipótese nula 59

(55)

Contas do exemplo da bilheteira

• n₁ = 6 • n₂ = 5 • N = 11 • Gl (N-1) = 10 • α = 0.05 • grau de confiança: (1 – α)*100% = 95% • X₁ = 29 • X₂ = 36 • S₁2_{= 10.4} • S₂2_{= 23.5} • t = 2.76 • Valor t _10,0.05= 2.228 • t > valor crítico 60 Bilheteira: 28,25,33,26,30,32 segundos Máquina: 32,41,37,40,30 segundos

(56)

T-stud

en

t

table

62 t _10,95%= 2.228

(57)

Teste de t bilheteira com excel

(58)

Resultados test t-bilheteira

• Constata-se que

– Rejeita-se a hipotese nula com um grau de confiança de 95%

• Conclusão

– Trabalhando com as médias, pois referem-se a populações diferentes, em média:

• A compra em máquina é 24% + lenta (36/29)

(59)

Objectivo: atingimos um valor?

• O tempo para usar

atalhos é < 3 segundos? • Não sabemos porque o

desvio padrão é muito grande

(60)

Intervalos de confiança

• 2 valores entre os quais uma população esta

compreendida com uma dada probabilidade

• Uso:

– testar uma amostra contra um valor limite

– Ex.: Uma operação não deve demorar mais do que 25 segundos

• Neste caso o intervalo é (0-25)

(61)

Intervalos de confiança

• Intervalos de confiança numa população

normal:

– 68% dos dados estão à 1σ de μ,

– 95% à 2σ e 99.7 à 3σ

(62)

Intervalos de confiança: contas

• Calcular variança (S

2

₎

• Desvio padrão da média (S

_em

)

• Determinar t unicaudal para grau de confiança

pretendido e graus de liberdade da amostra

• Intervalo de confiança estará compreendido

entre:

– X_min = X - (t_p,gl x s_em) – X_max = X + (t_p,gl x s_em)

(63)

Exemplo intervalos de confiança

• Métrica: Nº de erros

• Objetivo: Nº de erros ≤ 15

• Amostra: 13, 6, 8, 11

• gl = 4-1 = 3

• X = 9,5

• S

2

_{= 9,67}

• S

_em

=√ 9,67/4 = 1,55

71

(64)

Exemplo Intervalos de Confiança

• H

₀

: Nº de erros > 15

• Buscar valor de t unicaudal para p = 0,025 e 3 gl

• T

_0.025,3

= 3,182

• X

_min

= 9,5 - 3,182 x 1,55 = 4,54

• X

_max

= 9,5 + 3,182 x 1,55 = 14,43

• Resultado:

– intervalo abaixo de 15

• Conclusão: Rejeitar H

₀

– Nº erros < 15 com 97,5% certeza 72

(65)

T-stud

en

t

table

73 t _3,95%= 2.228

(66)

Objectivo:

Frequências esperadas = observadas

• Achamos que

– 40% usa atalhos – 60% usa menús

• Medimos

– 45% usa atalhos – 55% usa menús

• Afinal é 40/60 ou 45/55?

– Não sabemos 74

(67)

Teste Chi Quadrado

• H0: frequências esperadas = observadas

• Para dados nominais ou categoriais

– Análise de preferências entre várias escolhas

• Procedimento:

– Cálculo da diferença entre as frequências observadas e as esperadas

– X2_{= Σ(f}

0 - fe)2/fe

– Se X2_{> X}2 _{H0 (da tabela), rejeitamos H0 para α} 75

(68)

Exemplo Teste X Quadrado

Opção f esperada f observada diferença (Diferença)2 _{/f esperada}

A 10 5 -5 25 2,5

B 10 16 6 36 3,6

C 10 9 -1 1 0,1

• Objectivo:

– Qual é a opção preferida? – H0: preferência igual pelas 3 – 30 utilizadores – Graus de liberdade N = 3-1 = 2 76 – X2_{= 6,2 (2.5+3.6+0.1)} – Da tabela obtemos 5,99 para p = 0,05

– Rejeita-se a hipótese nula (5,99 < 6,2)

(69)

Tabela do Chi Quadrado

(70)

Chi Quadrado

• O resultado devolve a probabilidade da hipótese nula (4,5%)

• Dado que 4,5% < 5% (grau de confiança definido para o teste), rejeitamos H0

• Uma das opções é preferida relativamente às outras, com 95% de certeza

(71)

Chi Quadrado

• O resultado devolve a probabilidade da hipótese nula (4,5%)

• Dado que 4,5% < 5% (grau de confiança definido para o teste), rejeitamos H0

• Uma das opções é preferida relativamente às outras, com 95% de certeza 79 10 9 10 12 10 9 0.740818

(72)

Tipos de dados

na Selecção de testes

Var. Independente Var. Dependente

Tipo Categórica Continua

Categórica X2 _{T-student, outros}

Continua outros regressão

(73)

Tamanho das amostras

na selecção de testes

• T-student

– N < 30

• X

2 – N < 1000 – Frequência x categoria > 5 81

(74)

Escolha de testes

• Todas as funções estatísticas encontram-se em

bibliotecas

– SPSS, MATLAB, e como vimos até em Excel

• Portanto, o quê é preciso saber é seleccionar o

teste apropriado para cada caso

– O tipo de dados e tamanho das a mostras é crítico nesta selecção