• Nenhum resultado encontrado

A definição de nível de significância

3.4 O experimento

3.4.4 A definição de nível de significância

161 Os dados correspondem a um total de 791 textos do CoCLI resultante da aplicação dos métodos 1 e 2 de

construção. O conjunto de dados apresenta o ETCT de cada um dos métodos.

162 Utilizamos o SSPS porque a ferramenta realiza os cálculos estatísticos de forma automática. Disponível em: https://www.ibm.com/br-pt/products/spss-statistics. Acesso em: 23 fev. 2019.

163 Escolhemos os registros que compuseram o conjunto de dados criado de forma automática e aleatória pelo SSPS.

223 IN-CO-IF-AT-IN-14Jul2017-223.txt 433 303 238 IN-CO-IF-AT-IN-17Jul2017-238.txt 1621 1487 242 IN-CO-IS-GU-IN-18Jul2017-242.txt 832 697 244 IN-CO-IF-AT-IN-18Jul2017-244.txt 444 312 246 IN-CO-IF-AT-IN-18Jul2017-246.txt 2177 2056 249 IN-CO-IF-AT-IN-18Jul2017-249.txt 1396 1259 292 IN-CO-IF-AT-IN-25Jul2017-292.txt 935 809 298 IN-CO-IF-AT-IN-25Jul2017-298.txt 641 510 313 IN-CO-IF-AT-IN-26Jul2017-313.txt 578 452 344 IN-CO-IF-AT-IN-27Jul2017-344.txt 528 401 389 IN-CO-IS-CL-LI-28Jul2017-389.txt 1117 985 391 IN-CO-IS-CL-LI-28Jul2017-391.txt 1497 1361 408 IN-CO-IS-CL-LI-29Jul2017-408.txt 2199 2069 428 IN-CO-IS-DC-IN-31Jul2017-428.txt 659 524 437 IN-CO-IF-AT-IN-31Jul2017-437.txt 572 444 440 IN-CO-IF-AT-IN-31Jul2017-440.txt 1151 1023 469 IN-CO-IS-CL-LI-31Jul2017-469.txt 724 591 479 IN-CO-IS-CL-LI-01Aug2017-479.txt 1885 1745 557 IN-CO-IS-CL-LI-04Aug2017-557.txt 2106 1973 560 IN-CO-IF-AT-IN-06Aug2017-560.txt 761 626 595 IN-CO-IF-AT-IN-09Aug2017-595.txt 414 286 604 IN-CO-IS-CL-LI-11Aug2017-604.txt 2531 2398 610 IN-CO-IS-CL-LI-11Aug2017-610.txt 1338 1212 613 IN-CO-IS-CL-LI-11Aug2017-613.txt 1545 1416 625 IN-CO-IS-CL-LI-14Aug2017-625.txt 2064 1942 641 IN-CO-IS-CL-LI-15Aug2017-641.txt 2233 2104 679 IN-CO-IS-AT-LI-15Aug2017-679.txt 1143 1010 683 IN-CO-IS-CL-LI-15Aug2017-683.txt 347 217

689 IN-CO-IS-CL-LI-16Aug2017-689.txt 1937 1807 695 IN-CO-IS-CL-LI-16Aug2017-695.txt 934 799 713 IN-CO-IS-DC-IN-21Aug2017-713.txt 12541 12416 714 IN-CO-IS-LV-LI-22Aug2017-714.txt 18860 18727 726 IN-CO-IF-AT-IN-01Sep2017-726.txt 831 706 744 IN-CO-IF-AT-IN-01Sep2017-744.txt 2851 2721 768 IN-CO-IF-AT-IN-05Sep2017-768.txt 769 641 780 IN-CO-IF-AT-IN-05Sep2017-780.txt 498 358 781 IN-CO-IF-AT-IN-05Sep2017-781.txt 527 394 783 IN-CO-IF-AT-IN-05Sep2017-783.txt 493 362 787 IN-CO-IF-AT-IN-05Sep2017-787.txt 441 310 Fonte: SSPS.

A coluna “ETCT – Método 1” contém o ETCT resultante da aplicação do Método 1 (que abreviamos como ETCT – Método 1) e a coluna “ETCT – Método 2” apresenta o ETCT resultante da aplicação do Método 2 (que passamos a chamar de ETCT – Método 2). Os dados referentes ao ETCT – Método 1 constituem o Grupo de Controle165 (control group) da nossa pesquisa e os dados relativos ao ETCT – Método 2 formam o Grupo Experimental (treatment group). O tratamento que diferenciou o Grupo de Controle do Grupo Experimental foi a manipulação dos EAs automatizados pelo ToGatherUp no Método 2.

3.4.3 A definição das hipóteses do teste

A nossa hipótese de pesquisa parte da ideia de que a incorporação do ToGatherUp em projetos de construção manual de corpora reduz o tempo e o esforço despendidos pelo pesquisador para a elaboração deles. Para expressarmos essa hipótese na linguagem estatística, usamos os conceitos de hipótese nula166 (null hypothesis) e hipótese alternativa (alternate hypothesis).

165 De acordo com Rumsey (2010), as amostras que são expostas a condições normais (não recebem tratamento ou recebem um tratamento falso, também chamado de placebo) denominam-se Grupo de Controle. Já as amostras sujeitas a tratamento que afeta seus atributos são chamadas de Grupo Experimental.

Segundo Charles Brase e Corrine Brase (2011, p. 411), a hipótese nula ou “hipótese estatística”167 é a declaração que está sob teste e, geralmente, associa-se a resultados como “não houve efeito”, “não houve diferença” ou “nada foi alterado” entre a média calculada para o Grupo de Controle e a média calculada para o Grupo Experimental. A hipótese alternativa168 é definida pelos autores como qualquer declaração diferente da hipótese nula. De acordo com os conceitos de hipótese nula e alternativa, podemos representar a nossa hipótese de pesquisa, na linguagem estatística, conforme ilustra a Figura 39.

Figura 39 – Hipótese da pesquisa expressa na linguagem estatística

Fonte: o autor.

A interpretação da Figura 39 pode ser feita da seguinte maneira: nossa hipótese de pesquisa deve ser rejeitada caso o resultado do T-Test revele que o ETCT do método que utiliza o ToGatherUp é igual ou maior do que o ETCT do método que não utiliza a ferramenta. Se a hipótese nula for rejeitada, ou seja, se o T-Test mostrar que o ETCT do método que utiliza o ToGatherUp é menor do que o ETCT do método que não utiliza a ferramenta, a hipótese alternativa deve ser aceita e a nossa hipótese de pesquisa confirmada.

3.4.4 A definição de nível de significância

O resultado de um teste de hipótese é estatisticamente significativo quando a probabilidade de que ele tenha ocorrido por acaso seja muito improvável. Para Rumsey (2010), o nível de significância de um teste de hipótese, também conhecido como alpha level (α), é dado pelo p-value (probability value) que, geralmente, é definido em 0.05169 ou 0.01.

167 Para Correia (2003), a hipótese estatística “trata-se de [i.e. trata de] uma suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional” (CORREIA, 2003, p. 100).

168 Autores como Rumsey (2010) também usam a expressão “hipótese de pesquisa” para referenciar a hipótese alternativa.

169 De acordo com Rumsey (2010), um p-value de 0.05 e um p-value de 0.01 indicam, respectivamente, que em 95% e 99% das vezes os resultados da amostra poderão se repetir caso o experimento seja realizado novamente com outras amostras aleatórias da mesma população sob as mesmas condições. Para Rumsey (2010), outros valores podem ser assumidos para o p-value e essa determinação depende de cada pesquisador.

Segundo a referida autora, se o p-value é maior ou igual a α, a hipótese nula deve ser aceita e, se o p-value é menor que α, a hipótese nula deve ser rejeitada. Em outras palavras, o resultado de um teste de hipótese é estatisticamente significativo quando, a partir do seu p- value, é possível rejeitar a hipótese nula devido à improbabilidade de que ela ocorra.

A consequência da rejeição da hipótese nula leva-nos a acreditar que a hipótese alternativa pode ser verdadeira. Levando em consideração os conceitos apresentados, definimos que o p-value do nosso teste seria de 0.05 por julgarmos esse nível de significância bastante aceitável para o propósito da nossa pesquisa.

4 RESULTADOS

Neste capítulo, apresentamos os resultados do trabalho desenvolvido nesta pesquisa. Inicialmente, no tópico 4.1, descrevemos e interpretamos os resultados do experimento. Em um segundo momento, no tópico 4.2, discutimos os resultados, procurando justificá-los em consonância com a perspectiva do trabalho de construção manual de corpora oportunizada pelo ToGatherUp e, ainda, esclarecendo o porquê de, em alguns casos, sermos favoráveis à escolha de corpora construídos de forma automática em detrimento de corpora elaborados manualmente. No tópico 4.2, também, destacamos os aspectos não quantificáveis que, embora não tenham sido contemplados na pesquisa, a nosso olhar, favorecem a utilização do ToGatherUp.