Teorema Central do Limite para avaliar a precisão do modelo

5. Avaliação do Modelo

5.6. O modelo gera estimativas adequadas para 95% dos casos reais?

5.6.1 Teorema Central do Limite para avaliar a precisão do modelo

Pelo Teorema Central do Limite, conforme vai aumentando o tamanho da amostra (ocorrências reais), a distribuição amostral da média aproxima-se de uma distribuição Normal, e neste caso 95% dos dados amostrais ficam entre µ-2σ e µ+2σ, onde µ é a média populacional e σ é o desvio padrão populacional, como ilustrado na Figura 37. Para usar o intervalo de confiança de 95% , usa-se a área entre µ-2σ e µ+2σ.

Figura 37. Teorema Central do Limite 95,4%

Cada ponto da curva de participação obtida do modelo corresponde à estimativa da média de mensagens enviadas numa amostra (x) em função do tamanho do grupo de participantes. Falta definir o desvio padrão dessa média de mensagens produzidas na amostra (s). Se a distribuição amostral da produção de mensagens puder ser caracterizada como uma distribuição Poisson, o desvio padrão é calculado como sendo σ =  (na distribuição de Poisson, a média µ é representada pela letra grega  [lambda]). Portanto, deseja-se verificar se o processo real de produção de mensagens nas turmas TIAE pode ser aproximado por uma Poisson. Para caracterizar o processo de produção de mensagens foram analisados todos os logs das sessões de debate das turmas TIAE. As análises realizadas são apresentadas a seguir, sendo exemplificadas com os dados especificamente da turma TIAE 2007.1. Ao final desta seção são apresentados os resultados das análises feitas para as demais turmas.

Para caracterizar a função de distribuição de probabilidade da produção de mensagem por grupo de participantes, é preciso realizar testes para verificar se os dados observados podem ser adequadamente aproximados por alguma função de distribuição conhecida. Em particular, deseja-se investigar se a Poisson é uma boa aproximação para os dados. Para realizar essa verificação, deve-se caracterizar a frequência relativa de mensagens produzidas por intervalo de tempo – o histograma apresentado na Figura 38 ilustra a frequência relativa de mensagens produzidas por minuto naquela sessão de bate-papo. Em média foram enviadas 4,3 mensagens por minuto. Como ilustrado na Figura 38, a curva da distribuição Poisson com  = 4,3 parece, visualmente, uma boa aproximação dos valores observados.

Figura 38. Histograma da segunda sessão de bate-papo da turma 2007.1 representado a frequência de produção de mensagens pelos participantes

Outra análise que pode ser feita para verificar se a distribuição de probabilidade de Poisson parece adequada é comparando a média com a variância. Na distribuição de Poisson, a variância é igual a média. Nos dados reais da turma em questão, a média e a variância foram aproximadamente iguais: em média foram enviadas 4,3 mensagens por minuto, e a variância foi de 4,1 mensagens. Esta “coincidência” reforça a suspeita que a Poisson é uma boa candidata para representar os dados observados.

Para confirmar se Poisson é de fato uma boa aproximação, é preciso realizar um teste de aderência (que é um caso particular do teste de hipótese em que se testa se a amostra segue uma determinada distribuição). A hipótese a ser testada é que a distribuição Poisson é uma boa aproximação para a distribuição que representa o envio de mensagens daquela sessão de bate-papo. Ao se testar a hipótese, tenta-se primeiro rejeitar a hipótese nula de que a distribuição em questão não é uma boa aproximação.

Caso não seja possível rejeitar a hipótese nula, então a hipótese alternativa é aceita.

0 1 2 3 4 5 6 7 8 9 10

0 0,05 0,1 0,15 0,2 0,25

0 1 2 3 4 5 6 7 8 9

Número de mensagens produzidas no intervalo de 1 minuto Frequência relativa de ocorrências durante o debate

HISTOGRAMA DO NÚMERO DE MENSAGENS PRODUZIDAS POR MINUTO (2º debate da turma TIAE 2007.1)

curva Poisson (λ = 4,3) média de produção de mensagens durante o debate

Para concluir sobre a hipótese, aplicou-se o teste não paramétrico chi-quadrado (²) de Person¹³. Veriﬁca-se nesse teste a adequabilidade de um modelo probabilístico de uma variável X a um conjunto de dados observados, que serão divididos em categorias. Neste caso específico, cada categoria representa a frequência de mensagens produzidas no intervalo de um minuto. O teste foi aplicado com o auxílio do software estatístico R (GENTLEMAN e IHAKA, 2013). A hipótese nula será rejeitada para os casos em que o valor-p do teste for maior que o valor α = 0,05 (nível de significância), que é um dos mais comumente adotados. Nos casos em que o valor-p for muito próximo do valor α, o resultado é dito marginal e pode ser considerado tanto positivo quanto negativo.

Os resultados para os testes das 8 sessões de debate da turma TIAE 2007.1 são listados na Tabela 12. A hipótese de que Poisson é uma boa aproximação para representar o envio de mensagens é aceita em 6 sessões, rejeitada em 1 sessão (sessão 7) e marginal em outra (sessão 6).

13A fórmula do chi-quadrado é:  ∑ , onde fo é a frequência observada e fe a frequência esperada. No R, chisq.test (do pacote stats) faz o teste do chi-quadrado. <http://stat.ethz.ch/R-manual/R-patched/library/stats/html/chisq.test.html>

Tabela 12. Valor-p para os testes de aderência chi-quadrado Produção de Mensagens por Minuto

Turma TIAE 2007.1

sessão média variância valor-p Poisson

1 3,6 3,5 0,773 

2 4,3 4,1 0,539 

3 5,6 6,0 0,152 

4 4,8 5,7 0,179 

5 3,8 4,0 0,740 

6 5,5 5,1 0,047 ? 

7 4,5 4,3 0,003 

8 4,3 3,3 0,324 

A distribuição exponencial é uma distribuição contínua utilizada para modelar o tempo entre ocorrências de eventos num processo de Poisson. Então, como estratégia alternativa para verificar se a produção de mensagens é Poisson, pode-se testar se os intervalos de tempo entre os envios das mensagens é uma distribuição Exponencial. Para concluir sobre esta hipótese, aplicou-se o teste Kolmogorov-Smirnov¹⁴, recomendado por Nicholls (1989) e Rousseau (1993) para avaliar o ajuste da distribuição teórica à distribuição observada. O resultado para a turma 2007.1 foi que o intervalo entre chegadas de todas as sessões testadas são aderentes à distribuição Exponencial (valor-p

> 0,05) conforme apresentado na Tabela 13.

14 o teste Kolmogorov-Smirnov é usado para determinar se duas distribuições de probabilidade subjacentes diferem uma da outra ou se uma das distribuições de probabilidade subjacentes difere da distribuição em hipótese, em qualquer dos casos com base em amostras finitas. No R, a função ks.test (do pacote stats) faz o teste de Kolmogorov Smirnov. < http://stat.ethz.ch/R-manual/R-patched/library/stats/html/ks.test.html >

Tabela 13. Valor-p para os testes de aderência Kolmogorov-Smirnov Intervalo Entre Produção de Mensagens (min)

Turma TIAE 2007.1

sessão média variância valor-p Poisson

1 0,308 0,116 0,702 

2 0,255 0,079 0,082 

3 0,193 0,043 0,109 

4 0,221 0,068 0,179 

5 0,272 0,079 0,328 

6 0,193 0,063 0,181 

7 0,243 0,104 0,220 

8 0,258 0,080 0,309 

Para concluir sobre a função de distribuição de probabilidade da produção de mensagem nas demais sessões das turmas TIAE, somente o teste de Kolmogorov-Smirnov foi aplicado. Foi escolhida esta estratégia (testar se a distribuição pode ser aproximada por uma Exponencial) por ser um teste mais direto uma vez que são usados os intervalos entre as chegadas das mensagens, enquanto no teste do Chi-quadrado é contabilizada a quantidade de mensagens que chegam a cada minuto, o que representa um arredondamento e, por conseguinte, uma perda de precisão. Em ambas as estratégias (testar Poisson ou Exponencial), é preciso que no log esteja registrado o horário de publicação de cada mensagem, e esta informação só encontra-se registrada a partir da sessão 5 da turma TIAE 2002.2. As sessões precedentes deste curso não puderam ser testadas.

Como apresentado na Tabela 14, a hipótese de que Exponencial representa a distribuição da produção de mensagens foi aceita em 62 das 88 sessões de debate (70,5%). Também foram testadas outras distribuições – Normal, Log-normal, Weibull e Gamma – visando determinar se há outra distribuição (que não a Exponencial) que representa melhor todo o conjunto de amostras. Dos testes realizados, a distribuição Exponencial é a única que aproximou a maioria das amostras (70% das sessões), e todas as demais distribuições testadas mostraram-se menos adequadas.

Tabela 14. Valor-p para o testes de aderência Kolmogorov-Smirnov¹⁵

Turma

Sessão de Debate EXPONENCIAL NORMAL LOGNORMAL WEIBULL GAMMA

2002.2

15 Não era registrado o horário de publicação da mensagem nos logs anteriores à 5ª sessão da turma TIAE 2002.2, o que impossibilita a aplicação do teste. O cálculo dos parâmetros das distribuições é apresentado no Apêndice B.

7 0,167  0,000  0,000  0,056  0,048 

Na Tabela 14, é possível observar que as quatro primeiras sessões de bate-papo da turma 2004.1 são aceitas como exponencial e as quatro últimas não. Uma evidência para esse resultado é que nesta turma, para a realização dos quatro últimos debates, foi usado um sistema de bate-papo (Mediated Chat 3.0 – Figura 34.c) que possuía uma fila de publicação de mensagens (PIMENTEL, 2006, pag. 69). Outro ponto também observável na Tabela 14 é que nas turmas anteriores a 2004.2 foram aprovadas como distribuição exponencial apenas 11 das 26 sessões de bate-papo (42%) enquanto que nas turmas de 2004.2 em diante tiveram 51 das 62 sessões de bate-papo aprovadas no teste (82%). Em PIMENTEL (2006), é dito que para as turmas posteriores a 2004.1 foram usados sistemas de bate-papo mais parecidos com os sistemas típicos. Essas informações contribuem para a interpretação de que o sistema usado no bate-papo interfere na dinâmica de conversação.

Com esses resultados, conclui-se que a distribuição exponencial é a que melhor representa o intervalo entre geração de mensagens em sessões de bate-papo educacional.

Sendo assim, considera-se que o processo de produção de mensagens é um processo Poisson e, por isso, pode-se considerar o desvio padrão como sendo a raiz quadrada da média (σ =  ). A partir desse parâmetro, é possível realizar a avaliação da precisão da estimativa do modelo, como explicado na próxima seção.

No documento UNIVERSIDADE FEDERAL DO ESTADO DO RIO DE JANEIRO CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA (páginas 85-93)