• Nenhum resultado encontrado

4 RESULTADOS E DISCUSSÃO

4.6 Teste estatístico para um descritor selecionado

Nos gráficos da Fig. 62 vimos um comportamento claramente distinto para as α- hélices e as folhas-β quando comparadas entre si e comparadas com o seu nano-ambiente.

Entretanto, a análise visual tem um caráter subjetivo, porque depende do olhar de quem o analisa. Para confirmar estatisticamente o que foi observado visualmente, aplicamos o teste de Kolmogorov-Smirnov ao inteiro conjunto de dados. Neste teste univariado, trabalhamos com as proteínas agrupadas em all-α, all-β, α em (α+β)+(α/β) e β em (α+β)+(α/β). Para cada um desses conjuntos, testamos os 69 descritores (um de cada vez - univariado) apresentados na Tabela 4 para cada tamanho do EES existente. A Tabela 25 mostra os resultados desses testes.

Datamarts Total de testes p-value <= 10-6 10-6 > p-value <= 10-3 p-value > 10-3

all-α 3165 125 (3,9%) 301 (9,5%) 2739 (86,6%)

all-β 1173 28 (2,4%) 115 (9,8%) 1030 (87,8%)

α em α+β 3704 298 (8,0%) 468 (12,6%) 2938 (79,4%) β em α+β 1860 207 (11,1%) 315 (16,9%) 1338 (72,0%) Tabela 25. Avaliação do p-value para o teste de Kolmogorov-Smirnov aplicado ao conjunto de descritores para cada tipo de EES, alinhados por tamanho.

Começando pelas estruturas do tipo all-α, existem 46 tamanhos diferentes de α- hélices (Tabela 18). Usando os 69 descritores apresentados na Tabela 5, foram feitos 3165 testes (46 x 69 = 3174; 9 testes foram excluídos porque apresentaram inconsistência nos dados de entrada). Destes, 125 testes apresentaram p-valor igual ou inferior a 10-6 (3,9%), e 301 testes tiveram p-value entre 10-6 e 10-3 (9,5%). Isso significa que apenas 13,4% dos testes analisados mostram valores de p-value compatíveis com a conclusão de que a região helicoidal (em termos de nano-ambiente) é estatisticamente diferente das regiões fora da hélice, considerando um nível de significância de 0,1%.

No caso das folhas-β nas estruturas do tipo all-β, foram realizados 1173 testes (17 tamanhos diferentes x 69 descritores = 1173). Apenas 28 testes (2,4%) apresentaram p-value menor que 10-6, e 115 testes (9,8%) tiveram p-value entre 10-6 e 10-3. Isso significa que apenas 12,2% dos testes indicam que a região das folhas-β é estatisticamente diferente da região ao seu redor, considerando um nível de significância de 0,1%. É um resultado ainda mais baixo do que aquele obtido para as α-hélices do tipo all-α.

Para as α-hélices nas proteínas do tipo (α+β)+(α/β), nós encontramos 54 tamanhos diferentes, totalizando 3704 testes (54 tamanhos x 69 descritores = 3726; 22 testes não foram realizados com sucesso porque apresentaram problema com os dados de entrada). Destes testes, 298 (8,0%) apresentam valor de p-value menor que 10-6, e 468 (12,6%) apresentaram valor de p-value entre 10-6 e 10-3. Assim, em 20,6% dos casos a região helicoidal (em termos

de nano-ambiente) é estatisticamente diferente das regiões fora da hélice, considerando um nível de significância de 0,1%.

Finalmente, para as folhas-β proteínas do tipo (α+β)+(α/β) nós encontramos 28 tamanhos diferentes, totalizando 1932 testes (28 tamanhos x 69 descritores = 1932; 72 testes não foram realizados com sucesso porque apresentaram problema com os dados de entrada). Destes testes, 207 (11,1%) apresentam valor de p-value menor que 10-6, e 315 (16,9%) apresentaram valor de p-value entre 10-6 e 10-3. Assim, em 28,0% dos casos a região das folhas-β é estatisticamente diferente das regiões ao seu redor, no mesmo nano-ambiente, considerando um nível de significância de 0,1%.

Essas análises usando um único descritor em cada teste e agrupando os EES por tamanho, resultaram, em média, em uma taxa de p-value menor que 10-3 de aproximadamente 20%. Na tentativa de melhorar esse valor, aplicamos o mesmo teste, mas dessa vez alinhamos as estruturas pelo seu C-Terminal e N-Terminal, ao invés de alinha-las pelo tamanho do EES. Desse modo, para cada grupo nós fizemos um único teste utilizando cada descritor, totalizando 69 testes. Os resultados são apresentados nas Tabelas 26 e 27.

Datamarts Total de testes p-value <= 10-6 10-6 > p-value <= 10-3 p-value > 10-3

all-α 69 49 (71,0%) 14 (20,3%) 6 (8,7%)

all-β 69 15 (21,7%) 15 (21,7%) 39 (56,6%)

α em α+β 69 54 (78,2%) 12 (17,4%) 3 (4,4%)

β em α+β 69 31 (44,9%) 33 (47,8%) 5 (7,2%)

Tabela 26. Avaliação do p-value para o teste de Kolmogorov-Smirnov aplicado ao conjunto de descritores para cada tipo de EES, alinhados pelo C-Terminal das estruturas.

O resultado dos testes usando as estruturas alinhadas pelo C-Terminal foi melhor do que aqueles realizados usando as estruturas alinhadas pelo tamanho das α-hélices ou folhas-β. Por exemplo, para as proteínas do tipo all-α a taxa de testes com p-value menor que 10-3 foi 91,3%; para as proteínas do tipo all-β a taxa de testes com p-value menor que 10-3 foi 43,4%; para as α-hélices nas proteínas do tipo (α+β)+(α/β) a taxa de testes com p-value menor que 10-3 foi 95,6%; para as folhas-β nas proteínas do tipo (α+β)+(α/β) a taxa de testes com p- value menor que 10-3 foi 92,8%.

A Tabela 27 mostar o resultado dos testes aplicados nas estruturas alinhadas pelo N-Terminal. No caso das proteínas do tipo all-α a taxa de testes com p-value menor que 10-3 foi 91,3%; para as proteínas do tipo all-β a taxa de testes com p-value menor que 10-3 foi

36,2%; para as α-hélices nas proteínas do tipo (α+β)+(α/β) a taxa de testes com p-value menor que 10-3 foi 95,6%; para as folhas-β nas proteínas do tipo (α+β)+(α/β) a taxa de testes com p- value menor que 10-3 foi 76,8%.

Datamarts Total de testes p-value <= 10-6 10-6 > p-value <= 10-3 p-value > 10-3

all-α 69 40 (58,0%) 23 (33,3%) 6 (8,7%)

all-β 69 12 (17,4%) 13 (18,8%) 44 (63,8%)

α em α+β 69 55 (79,7%) 11 (15,9%) 3 (4,4%)

β em α+β 69 22 (31,9%) 31 (44,9%) 16 (23,2%)

Tabela 27. Avaliação do p-value para o teste de Kolmogorov-Smirnov aplicado ao conjunto de descritores para cada tipo de EES, alinhados pelo N-Terminal das estruturas.

As Tabelas 26 e 27 demonstraram que os resultados obtidos alinhando as estruturas pelo C-Terminal e N-Terminal foram melhores que os resultados obtidos pelo alinhamento por tamanho. Comparando as duas tabelas, concluímos o seguinte: para as proteínas do tipo all-α e α em (α+β)+(α/β) a taxa de testes com p-value menor que 10-3 foi igual (91,3% e 95,6% respectivamente) para C-Terminal e N-Terminal, embora quando dividimos esse limiar em p-value ≤ 10-6 e 10-6 > p-value ≤ 10-3 cada teste resultou em taxas diferentes. No caso das proteínas do tipo all-β, os testes aplicados nas estruturas alinhadas pelo C-Terminal teve uma taxa de p-value menor que 10-3 de 43,4% enquanto os testes aplicados nas estruturas alinhadas pelo N-Terminal tiveram uma taxa de p-value menor que 10-3 de 36,2%. Os testes aplicados nas estruturas do tipo β em (α+β)+(α/β) alinhadas pelo C- Terminal teve uma taxa de 92,8% com p-value menor que 10-3, enquanto os testes aplicados nas estruturas alinhadas pelo N-Terminal tiveram uma taxa de p-value menor que 10-3 de 76,8%. A Fig. 64 apresenta um gráfico comparativo entre os resultados obtidos com os alinhamentos por tamanho, C-Terminal e N-Terminal.

Figura 64. Taxa de p-value < 10-3 para a análise univariada (um descritor de cada vez) usando o teste de Kolmogorov- Smirnov aplicado nas proteínas dos tipos all-α, all-β, α em (α+β)+(α/β) e β em (α+β)+(α/β) alinhados por tamanho, C- Terminal e N-Terminal.

Documentos relacionados