• Nenhum resultado encontrado

5.2 Dados Cancro da Bexiga  Dyrskjot et al (2004)

5.2.2 Análise da qualidade dos dados

De acordo com o capítulo 2, o primeiro passo a realizar quando se tem os dados em bruto é uma análise da qualidade dos arrays. Iniciou-se esta análise vericando se existiam valores omissos a partir da aplicação da função table(is.na(.)) do R, tendo-se concluído que não. De modo a vericar se se encontravam artefactos que revelassem a necessidade de se remover algum array, procedeu-se à análise das imagens dos 60 arrays, tendo-se optado por colocá-las no CD na pasta Capítulo 5 (image1cancro.png, image2cancro.png, image3cancro.png e image4cancro.png). Pela análise das imagens não há nenhum array que apresente algum tipo de artefacto que justique a sua remoção.

A partir da análise das densidades (Figura 5.9) e dos box plots (Figura 5.10) dos logaritmos dos níveis de intensidade PM dos 60 arrays, verica-se que estes devem de ser submetidos a um processo de normalização, destacando-se o array C9 apresentando um comportamento mais diferenciado dos restantes.

Figura 5.9: Densidades dos logaritmos dos níveis de intensidade PM em bruto.

Pela análise do degradation plot (Figura 5.11) pode concluir-se que o material genético é de boa qualidade, uma vez que as linhas representativas dos arrays são paralelas e com declive positivo.

Figura 5.10: Box plot dos logaritmos dos níveis de intensidade PM dos arrays relativos ao estudo do Cancro da Bexiga. Array C9 a rosa.

Na Figura 5.12 estão representados os grácos MA dos arrays C1 a C6 (não se justicando a necessidade de apresentar os grácos MA para todos os arrays), vericando-se um desvio do ajustamento da curva lowess, que revela a necessidade de se proceder à normalização dos arrays.

Os grácos NUSE e RLE representados nas Figuras 5.13 e 5.14 respetivamente, revelam que o array C9 encontra-se mais afastado dos restantes, indicando má qualidade.

Da análise do gráco QC (Figura 5.15), destacam-se os arrays C9 e E45, revelando a necessidade de se proceder à sua remoção.

Assim, procedeu-se em primeiro lugar à remoção do array C9, uma vez que foi o que mais se destacou pela análise anterior. No apêndice B.2 apresenta-se o gráco QC dos dados em bruto após remoção do array C9, e pelo que se pode observar não há mais nenhum array que revele necessidade de ser removido.

5.2. Dados Cancro da Bexiga  Dyrskjot et al. (2004)

5.2. Dados Cancro da Bexiga  Dyrskjot et al. (2004)

5.2. Dados Cancro da Bexiga  Dyrskjot et al. (2004)

5.2.3 Pré-processamento

Da análise anterior concluiu-se que os arrays devem de ser submetidos a uma análise de pré-processamento. Para o efeito foram aplicados os métodos de pré-processamento RMA, GC-RMA, FARMS, MAS5, PLIER e MBEI. Nas Figuras 5.16, 5.17 e 5.18 estão representados os logaritmos dos níveis de expressão dos 60 arrays após pré-processamento. Pela sua análise, os métodos RMA e FARMS revelam ter o melhor comportamento. Com o objetivo de vericar qual dos dois métodos se vai considerar na análise subsequente, apresenta-se na Figura 5.19 as densidades dos logaritmos dos níveis de expressão dos arrays após pré-processamento RMA e FARMS, e, da sua análise verica-se que o método FARMS é o que produz densidades mais semelhantes.

Figura 5.16: Box plots dos logaritmos dos níveis de expressão dos arrays após pré-processamento RMA e GCRMA.

5.2. Dados Cancro da Bexiga  Dyrskjot et al. (2004)

Figura 5.17: Box plots dos logaritmos dos níveis de expressão dos arrays após pré-processamento PLIER e FARMS.

Na Figura 5.20 apresenta-se o gráco MA após pré-processamento FARMS e verica-se um ajustamento em torno de M=0.

Em resumo, da análise da qualidade dos dados e da análise pré-processamento, removeu-se o array C9 da base de dados e os dados foram submetidos ao método de pré-processamento FARMS.

5.2.4 Seleção de genes DE e mistos

Na Figura 5.21 apresenta-se o Arrow plot para os 22283 genes e 59 arrays, onde a AUC foi estimada pelo método do núcleo.

Figura 5.18: Box plots dos logaritmos dos níveis de expressão dos arrays após pré-processamento MAS5 e MBEI.

Pela análise da Figura 5.21 selecionaram-se os seguintes pontos de corte para o OVL e AUC: OVL<= 0.4; para selecionar genes com regulação positiva considerou-se AUC> 0.9; para selecionar genes com regulação negativa considerou-se AUC< 0.1 e para selecionar genes mistos considerou-se 0.4<AUC<0.6 (Figura 5.22). Após uma análise da bimodalidade dos genes candidatos a mistos, apenas um não revelou bimodalidade em ambos os grupos.

De acordo com os pontos de corte acima denidos, selecionaram-se 10 genes mistos, 20 genes com regulação positiva e 52 genes com regulação negativa. Na Tabela 5.3 apresentam-se os genes mistos e os valores da AUC e OVL. Procedeu-se a uma comparação dos resultados aqui obtidos com os resultados obtidos no estudo de Dyrskjot et al. (2004). No entanto, há que salientar que

5.2. Dados Cancro da Bexiga  Dyrskjot et al. (2004)

Figura 5.19: Comparação das densidades dos logaritmos dos níveis de expressão dos arrays após RMA (A) e FARMS (B). Escala logarítmica.

Figura 5.20: Gráco MA após pré-processamento FARMS considerando a base de dados sem o array C9.

os dados foram sujeitos a um processo de ltragem, foram pré-processados com o método RMA e não houve indicação de remoção de algum array. Aplicaram um teste de permutações com base na estatística-t e selecionaram os primeiros 50 genes com regulação positiva e 50 genes com regulação negativa. Comparando os resultados com os obtidos por Dyrskjot et al. (2004), nenhum dos genes mistos foram referidos no estudo, i.e., não foram selecionados nem como tendo regulação positiva nem negativa. Os genes

Figura 5.21: Arrow plot  Dados Cancro da Bexiga. AUC estimada pelo método do núcleo.

selecionados com regulação positiva e negativa pelo Arrow plot também foram selecionados no estudo de Dyrskjot et al. (2004).

Conclui-se que os genes mistos foram selecionados apenas pelo Arrow plot.