• Nenhum resultado encontrado

5.3 An´alise de discrimina¸c˜ao

5.3.4 Outros m´etodos de classifica¸c˜ao

Outros m´etodos de classifica¸c˜ao ainda podem ser empregados al´em dos que foram descritos acima, como os m´etodos de ´arvores de decis˜ao, m´axima verossimilhan¸ca e aggregating, entre outros. Por´em, como este trabalho n˜ao se baseia em an´alises de classificadores, n˜ao discutimos estes outros m´etodos de classifica¸c˜ao em detalhes. Uma importante referˆencia sobre a an´alise de classificadores voltados para a explora¸c˜ao de dados provenientes de experimentos de microarray ´e dada por Speed (2003, Cap. 3). Al´em disso, v´arios trabalhos recentes tˆem mostrado a for¸ca e a importˆancia deste tipo de an´alise (Baker & Kramer, 2006; Braga-Neto & Dougherty, 2004; Lee et al., 2005; Stolf et al., 2006).

5.4

Implementa¸c˜ao

Todos os m´etodos de an´alise discutidos neste cap´ıtulo foram implementados no pacote de an´alise apresentado no Cap´ıtulo 3. Para as an´alises de agrupamentos, as fun¸c˜oes Mhierarquical, Mkm e Msom foram implementadas para atuar sobre objetos de classes maiges, maigesRaw e maigesA- NOVA, para fazer a constru¸c˜ao de agrupamentos hier´arquicos, k-m´edias e por SOM, respecti- vamente. O m´etodo de agrupamento hier´arquico usa fun¸c˜oes definidas na instala¸c˜ao padr˜ao do R, enquanto os m´etodos para a constru¸c˜ao de agrupamentos k-m´edias e SOM usam algoritmos implementados nos pacotes amap (Lucas, 2006) e som (Yan, 2004), ambos do R. ´E importante lembrar que fun¸c˜oes similares (MhierarquicalDE, MkmDE e MsomDE) foram desenvolvidas para atuar sobre objetos de classe maigesDEcluster que armazenam resultados de genes DE.

Para as buscas de genes diferencialmente expressos pelo teste t e de Wilcox, foram imple- mentadas as fun¸c˜oes DEgenes2by2.ttest e DEgenes2by2.wilcox, usando fun¸c˜oes j´a implementa- das no pacote stats do R. Note que este pacote faz parte da instala¸c˜ao padr˜ao do R. Para os testes baseados em reamostragem da estat´ıstica t, implementamos um c´odigo em linguagem C Gustavo H. Esteves 96 Bioinform´atica-USP

e importamos o c´odigo compilado na fun¸c˜ao DEgenes2by2.bootT para a execu¸c˜ao mais eficiente destes testes, que s˜ao de alto custo computacional. Para as an´alises de modelos de ANOVA, utilizamos toda a estrutura desenvolvida no pacote limma que ´e especialmente voltado para a an´alise de modelos lineares em dados de microarray, tendo inclusive a op¸c˜ao de utiliza¸c˜ao de m´etodos bayesianos emp´ıricos. Para estas an´alises foram criadas as fun¸c˜oes designANOVA, que cria objetos de classe maigesANOVA a partir de objetos de classe maiges incorporando as matrizes de planejamento e contrastes, e DEgenesANOVA que ajusta o modelo e estima os parˆametros de interesse.

Nas an´alises de classifica¸c˜ao foram constru´ıdos m´etodos, chamados classify.lda, clas- sify.svm e classify.knn, que utilizam os pacotes MASS, e1071 e class do R que j´a implementam fun¸c˜oes para as abordagens do discriminante linear de Fisher, SVM e k-vizinhos, respectiva- mente. ´E importante enfatizar que tamb´em foram incorporadas fun¸c˜oes similares que buscam os melhores classificadores pelo m´etodo de busca e escolha, implementado em Cristo (2003). Como a busca exaustiva de classificadores ´e um processo muito custoso computacionalmente, este m´etodo otimiza o processo buscando apenas por um n´umero predeterminado de classifica- dores.

Cap´ıtulo 6

Classifica¸c˜ao funcional de grupos

gˆenicos

Nos cap´ıtulos iniciais deste trabalho, foi detalhado todo procedimento experimental utilizado para medir os n´ıveis de express˜ao gˆenica em v´arias condi¸c˜oes de interesse atrav´es da t´ecnica de microarray e um ambiente computacional para a an´alise desses dados foi apresentado. Al´em disso, discutimos o processamento inicial que tais dados exigem incluindo a an´alise explorat´oria e alguns m´etodos matem´aticos necess´arios para compensar efeitos sistem´aticos importantes. No ´ultimo cap´ıtulo, foram apresentados os principais m´etodos de an´alise estat´ıstica dos dados transformados. Entretanto, esses procedimentos envolvem basicamente a compara¸c˜ao indivi- dual dos n´ıveis de express˜ao dos genes estudados nos casos de an´alises DE ou a avalia¸c˜ao do perfil de separa¸c˜ao de observa¸c˜oes diferentes usando grupos de poucos genes na an´alise de discrimina¸c˜ao. Estas abordagens s˜ao, sem d´uvida, interessantes para a avalia¸c˜ao do compor- tamento de cada gene ou grupos de poucos genes nas condi¸c˜oes biol´ogicas que est˜ao sendo estudadas, mas sabe-se que todos os genes de um organismo agem de forma integrada, onde a maioria dos fenˆomenos biol´ogicos ´e conseq¨uˆencia da atividade conjunta de v´arios grupos de genes. Assim, vˆe-se a necessidade da utiliza¸c˜ao de modelos de an´alise que busquem por dife- ren¸cas significativas na atividade coordenada de v´arios genes ao inv´es da avalia¸c˜ao individual tradicionalmente aplicada, o que enriquece sobremaneira a produ¸c˜ao de conhecimento biol´ogico a partir da grande quantidade de dados obtidos atrav´es de experimentos de express˜ao gˆenica em larga escala.

6.1

O modelo de classifica¸c˜ao de grupos de genes

Dentro do contexto citado anteriormente, uma op¸c˜ao de an´alise bastante interessante ´e a clas- sifica¸c˜ao funcional de grupos gˆenicos, tamb´em conhecida como an´alise de m´odulos ativos, pro- posta originalmente por Segal et al. (2004). Neste trabalho, os autores prop˜oem um modelo estat´ıstico para a classifica¸c˜ao funcional de 2849 grupos gˆenicos em diferentes tipos de tumo- res usando 26 conjuntos de dados de microarray diferentes, que podem ser divididos em 263 condi¸c˜oes cl´ınicas ou biol´ogicas distintas. Esta se¸c˜ao se dedica a descrever, a partir da nota¸c˜ao adotada nesta tese, o modelo utilizado por Segal et al. (2004) para a classifica¸c˜ao funcional de grupos gˆenicos.