Outros métodos de classifica¸cão - Análise de discrimina¸cão

5.3 An´alise de discrimina¸c˜ao

5.3.4 Outros m´etodos de classifica¸c˜ao

Outros métodos de classifica¸cão ainda podem ser empregados além dos que foram descritos acima, como os métodos de árvores de decisão, máxima verossimilhan¸ca e aggregating, entre outros. Porém, como este trabalho não se baseia em análises de classificadores, não discutimos estes outros métodos de classifica¸cão em detalhes. Uma importante referência sobre a análise de classificadores voltados para a explora¸cão de dados provenientes de experimentos de microarray é dada por Speed (2003, Cap. 3). Além disso, vários trabalhos recentes têm mostrado a for¸ca e a importância deste tipo de análise (Baker & Kramer, 2006; Braga-Neto & Dougherty, 2004; Lee et al., 2005; Stolf et al., 2006).

5.4 Implementa¸c˜ao

Todos os métodos de análise discutidos neste cap´ıtulo foram implementados no pacote de análise apresentado no Cap´ıtulo 3. Para as análises de agrupamentos, as fun¸cões Mhierarquical, Mkm e Msom foram implementadas para atuar sobre objetos de classes maiges, maigesRaw e maigesA- NOVA, para fazer a constru¸cão de agrupamentos hierárquicos, k-médias e por SOM, respecti- vamente. O método de agrupamento hierárquico usa fun¸cões definidas na instala¸cão padrão do R, enquanto os métodos para a constru¸cão de agrupamentos k-médias e SOM usam algoritmos implementados nos pacotes amap (Lucas, 2006) e som (Yan, 2004), ambos do R. É importante lembrar que fun¸cões similares (MhierarquicalDE, MkmDE e MsomDE) foram desenvolvidas para atuar sobre objetos de classe maigesDEcluster que armazenam resultados de genes DE.

Para as buscas de genes diferencialmente expressos pelo teste t e de Wilcox, foram implementadas as fun¸cões DEgenes2by2.ttest e DEgenes2by2.wilcox, usando fun¸cões já implementadas no pacote stats do R. Note que este pacote faz parte da instala¸cão padrão do R. Para os testes baseados em reamostragem da estat´ıstica t, implementamos um código em linguagem C Gustavo H. Esteves 96 Bioinformática-USP

e importamos o código compilado na fun¸cão DEgenes2by2.bootT para a execu¸cão mais eficiente destes testes, que são de alto custo computacional. Para as análises de modelos de ANOVA, utilizamos toda a estrutura desenvolvida no pacote limma que é especialmente voltado para a análise de modelos lineares em dados de microarray, tendo inclusive a op¸cão de utiliza¸cão de métodos bayesianos emp´ıricos. Para estas análises foram criadas as fun¸cões designANOVA, que cria objetos de classe maigesANOVA a partir de objetos de classe maiges incorporando as matrizes de planejamento e contrastes, e DEgenesANOVA que ajusta o modelo e estima os parâmetros de interesse.

Nas análises de classifica¸cão foram constru´ıdos métodos, chamados classify.lda, classify.svm e classify.knn, que utilizam os pacotes MASS, e1071 e class do R que já implementam fun¸cões para as abordagens do discriminante linear de Fisher, SVM e k-vizinhos, respectiva- mente. É importante enfatizar que também foram incorporadas fun¸cões similares que buscam os melhores classificadores pelo método de busca e escolha, implementado em Cristo (2003). Como a busca exaustiva de classificadores é um processo muito custoso computacionalmente, este método otimiza o processo buscando apenas por um número predeterminado de classificadores.

Cap´ıtulo 6

Classifica¸c˜ao funcional de grupos

gˆenicos

Nos cap´ıtulos iniciais deste trabalho, foi detalhado todo procedimento experimental utilizado para medir os n´ıveis de expressão gênica em várias condi¸cões de interesse através da técnica de microarray e um ambiente computacional para a análise desses dados foi apresentado. Além disso, discutimos o processamento inicial que tais dados exigem incluindo a análise exploratória e alguns métodos matemáticos necessários para compensar efeitos sistemáticos importantes. No último cap´ıtulo, foram apresentados os principais métodos de análise estat´ıstica dos dados transformados. Entretanto, esses procedimentos envolvem basicamente a compara¸cão individual dos n´ıveis de expressão dos genes estudados nos casos de análises DE ou a avalia¸cão do perfil de separa¸cão de observa¸cões diferentes usando grupos de poucos genes na análise de discrimina¸cão. Estas abordagens são, sem dúvida, interessantes para a avalia¸cão do compor- tamento de cada gene ou grupos de poucos genes nas condi¸cões biológicas que estão sendo estudadas, mas sabe-se que todos os genes de um organismo agem de forma integrada, onde a maioria dos fenômenos biológicos é conseqüência da atividade conjunta de vários grupos de genes. Assim, vê-se a necessidade da utiliza¸cão de modelos de análise que busquem por dife- ren¸cas significativas na atividade coordenada de vários genes ao invés da avalia¸cão individual tradicionalmente aplicada, o que enriquece sobremaneira a produ¸cão de conhecimento biológico a partir da grande quantidade de dados obtidos através de experimentos de expressão gênica em larga escala.

6.1 O modelo de classifica¸c˜ao de grupos de genes

Dentro do contexto citado anteriormente, uma op¸cão de análise bastante interessante é a classifica¸cão funcional de grupos gênicos, também conhecida como análise de módulos ativos, pro- posta originalmente por Segal et al. (2004). Neste trabalho, os autores propõem um modelo estat´ıstico para a classifica¸cão funcional de 2849 grupos gênicos em diferentes tipos de tumo- res usando 26 conjuntos de dados de microarray diferentes, que podem ser divididos em 263 condi¸cões cl´ınicas ou biológicas distintas. Esta se¸cão se dedica a descrever, a partir da nota¸cão adotada nesta tese, o modelo utilizado por Segal et al. (2004) para a classifica¸cão funcional de grupos gênicos.

No documento Métodos estatísticos para a análise de dados de cDNA microarray em um ambiente computacional... (páginas 113-116)