UNIVERSIDADE DE SÃO PAULO

(1)

UNIVERSIDADE DE SÃO PAULO

Instituto de Ciências Matemáticas

e

de Computação

ISSN 0103-2569

Análise de Dados de Expressão Gênica

Katti Faceli André C PLF deCanalha

MarcilioCarlos Pereirade Souto

Nº 250

RELATÓRIOS TÉCNICOS

São Carlos —SP Jan./2005

(2)

Análise de Dados de

_Expressão

Gênica

Katti

Faceli

André

C.P.L.F.

de

Carvalho

Universidade de São Paulo

Institutode Ciências Matemáticas e de Computação

Departamento de Ciências de Computação e Estatística

Laboratório de Inteligência Computacional Caixa Postal 668, 13560-970 - São Carlos, SP, Brasil

c-mail: [katti,andre]©icmc.usp,br

Marcílio Carlos

Pereira

de Souto

Universidade Federal do Rio Grande do Norte

Departamento de Informática e Matemática Aplicada —DIMAp

Campus Universitario 590727970— Natal, RN, Brazil

e—rnail: _{marcilio©dirnap.ufrn.br}

Resumo

A análisededados de_{expressão gênica}ébastanteútil _paradiversasaplicações

na biologia. Por exemplo, esse tipo de _{análise pode fornecer informações}im—

portantes sobre as funções de uma célula, os mecanismos de regulação dos genes e as diferenças moleculares entre Vários_tipos de células ou tecido.

A _expressãode _um_gene _{consiste da conversão das instruções genéticas}presen—

tes no gene7 em uma proteína, responsável por uma funçãoespecífica dentro de _uma célula.

A _{mensuração da expressão gênica} a _partir dos _{transcritos (mRNAs)} de _um

organismo pode ser feita por meio de diversastécnicas7 que geram dados em

larga escala., tais como SAGE (Serial Analysis of Gene _Expression) e micro?

army.

A _partir desses dados de _expressão _{dos genes,} faz«se _{necessária uma analise}

criteriosa _paraa extração de_{informaçõesúteis. Essa análise pode} _ser realizada

em diferentesníveis ede diferentesformas, variando deanálisesde baixonível7

como filtragense normalizações, até análises estatísticas _paraidentificaçãode

expressão diferenteem diversascondições, identificaçãode_padrõesemineração

de dados.

Palavras-Chave; _Expressão gênica, Microarray,SAGE, RT—PCR, MPSS.

Janeiro

2005

(3)

Sumário

4

5

Introdução

1

Processo

de

Expressão

Gênica 2

Técnicas

_{para Medir}

a

Expressão

Gênica 6

3.1 Mlcmarray de DNA

...

7

3.2 SAGE - Serial Analysis ofGene Expression

...

9

3,3 MPSS- Massiwely Parallel Signature Sequencmg

...

10

3.4 RT—PCR.- Reverse Transcription — Polymemse Chain Reaction

...

11

3.5 Comparação das Técnicas de Mediçãoda Expressão Gênica

...

12

Processamento

e Análise

Computacional

dos

Dados

de

Expressão Gênica

14

Conclusão 17

(4)

(5)

.

Lista de

Figuras

1 _Elementos, estrutura _e_{representação} _do DNA

...

3 2 Genes em um cromossomo

...

4 3 Processo de produção de uma proteínaem eucariotos

...

. , 5

Lista de Tabelas

1 Comparação entre _as técnicas de _mediçãodaexpressão gênica

...

₁₂

2 _Exemplo de _{uma matriz} de _expressão

...

14

(6)

1

_Introdução

A _{bioinformática ou biologia computacional, área} de _pesquisaem grande expansão,diz

respeito à _utilização de técnicase ferramentas da computação _paraa resoluçãode proble—

masda biologia (Baldi & Brunak 1998). Uma área importante dabiologia, que necessita da aplicação da computação e_a_{biologia molecular (Setúbal}&Meidanis1997),englobando a resolução de _problemas em tópicos que vão desde a comparação de _sequências e mon—

tagem de _{fragmentos até a identificação}e análise da expressão de genes e determinação da estrutura de _proteínas.

A análise de dados de _{expressão gênica} é bastante útil _para diversas aplicações na biologia. Por exemplo, esse tipo de _{analise pode fornecer informações importantes} sobre as funções de uma célula, uma vez que as mudanças na fisiologia de um organismo são

acompanhadas por mudanças nos padrões de _expressão _{de seus genes} _{(Chan, Hontzeas,}

& Park 2000), os mecanismos de regulação dos genes e as diferenças moleculares entre vários tipos de célulasou tecido.

A _expressão de _um _gene _{consiste da conversão das instruções genéticas presentes} no gene, em uma proteína, responsável por uma função específica dentro de uma célula.

Existem duas abordagens_paraaavaliação da expressãogênica: aanalisedo_{transcriptoma}

e a analise do _proteoma. A _primeira se baseia na análise dos _{produtos da transcrição,}

mRNA (RNA mensageiro), intermediários no _processode _produção de _{uma proteína, ou}

expressãogênica. A _segunda_{se refere a}analisediretadas proteínas produzida noprocesso

de _{expressão. Uma proteína} é _produzida _a _partir de _{um mRNA, porém,} _a _quantidade de _{mRNA presente} em uma célula, _apesar de _{relacionada, nem sempre corresponde à}

quantidade de _{proteína produzida.}

Apesar de analisar diretamente o produto final _{da expressão} de _um _{gene, que são as}

proteínas, a analise do _proteoma é muito mais trabalhosa_{do que} a analise do transcrip—

toma. Com os _avanços nas tecnologias relacionadas às análises de _proteína, as análises

baseadas no proteoma vêm crescendo rapidamente. Apesar disso, a análise da expressão gênica tem sido feita em sua grande maioria, pela análise do _{transcriptoma.}

A _{mensuração da expressão gênica}a partirdos transcritos (mRNAs)de _{um organismo}

pode ser feita por meio de diversas técnicas, que geram dados em larga escala, tais como

SAGE (Serial Analysis of Gene _Expression) (Velculescu, Zhang, Vogelstein, & Kinzler

1995) e microarmy (Schena, Shalon, Davis, & Brown 1995).

A _partir dos dados sobre expressãode genes, faz—se _{necessária uma analise criteriosa}

paraa extração de _{informações}úteis. Essa analise pode ser realizada em diferentes níveis e de diferentes formas.

Este relatório contém uma descriçãode vários _{aspectos relacionados} a análise de ex—

pressão gênica. Na Seção 2 é descrito o _processode expressãogênica, de formabastante

simplificada. A Seção 3 contém uma descrição resumidade _{algumas das técnicas} existen—

tes atualmente para a medição da expressão gênica. Essas técnicas também são

breve-mente comparadas e a formados _{dados gerados por} elas é _apresentada. O _{processamento}

necessário e algumas possíveis análises dos dados de _{expressão gênica} são brevemente discutidos na Seção 4.

(7)

2 Processo

de Expressão Gênica

Colocado de maneira simplificada, o funcionamento de um organismo é _{baseado na}

produção de _{proteínas, que ocorre} _em _suas células. A maioria das _{substâncias presentes} em um organismo são proteínas. Proteínas sao _{moléculas grandes compostas} de _{uma ou}

mais cadeias de _{moléculas menores chamadas aminoácidos. Existem diferentes tipos} de

proteínas, com tamanho variando de _{dezenas a centenas} de _{aminoácidos, desempenhando}

papel estruturalou funcionalno organismo. O _{organismo humano possui cerca}de 30.000

tipos de _{proteínas, desempenhando papéis específicos Por}_{exemplo. a} _hemoglobinaé_uma

proteína que transportaoxigênio no _sangue,ocolágeno euma proteínaestruturalpresente

nos tendões e nos lóbulos das orelhas, a actina e a miosina são _proteínas _que _interagem

parapromover a contração muscular e a insulina é _{um hormônio protéico} _que controla o

transportede _{açúcar do sangue} _parao interior das células,

Toda a variedade de _proteínas _que _{um organismo pode produzir, bem} _como outras informações necessárias _para a produção dessas proteínas, esta codificadaem moléculas chamadas _{acidos nucléicos. As regiões dos ácidos nucléicos que} contém os códigos nee

cessários _para a produção das proteínas são chamadas _{genes. Os genes} e todas as demais

informações contidas nessas moléculas constituem a informação genética. Existem dois

tipos de ácidos nucléicos, oDNA (acido desoxirribonucléico)eoRNA (acido ribonucléico). O DNA é _{uma molécula composta} de duas fitas _estruturadasna.forma. de uma dupla— hélice. Cada fita consiste de _{uma cadeia} de nucleotídeos. UHl nucleotídeoé _{formado por}

um grupo fosfato, um açúcar (desoxirribose)euma base nitrogenada. A _{base nitrogenada}

podeser uma adenina (A), uma guanina (G), uma citosina (C) ouumatimina(T), dando origem a quatro nucleotídeos diferentes. As duas cadeias de nucleotídeossão _{unidas por}

pontes de hidrogênio entre as bases nitrogenadas, As _reações de _ponte de _hidrogênio que ocorrem entre as bases nitrogenadas são chamadas de _pareamento de bases. Esse

pareamento só _{ocorre entre} _{bases específicas, que são} _{ditas complementares.} A base A

deve _parear com a base T e a base G' deve _parear com a base 0. Embora nucleotídeos

e bases sejam coisas _{distintas, por simplicidade,} o nucleotídeo e' identificado pela base

que ele possui, e o termo base é utilizado como sinônimode _{nucleotídco,} dizendo—se, _por

exemplo, que uma molécula possui 200 bases ou 200 nucleotídeos. Urna molécula de DNA _costuma ser representada simplesmente pela sequência. de nucleotídeosde _uma Hta específica. A _Figura 1 ilustra_os elementos,_a estrutura dupla-hélice_e _a _{representação} de

uma moléculade DNA.

O RNA também é _{uma molécula composta por uma cadeia} de _{nucleotídeos, assim} como o DNA. Porém, o RNA possui uma única fita, não apresentando a forma de dupla;

hélice. O _açúcardos nucleotídeosdo RNAé a riboseenãoa desoxirribose,como no DNA. Além disso, o RNA não contém a base nigrogenada tirnina, que é substituídapela base uracila (U), _{que também pareia} com a base adenina.

Na maioria dos _organismos, a informação genética está. codificada em moléculasde DNA, emboraem _{alguns vírus, por} exemplo, _{esta informação esteja codificada}em molé-culas de RNA. _{Neste trabalho,} as descrições se referemao primeiro caso. Cada molécula de DNA _presente em uma célula constitui um cromossomo. O _conjunto _{dos cromossomos}

(8)

(

N : Fosmo Açúcar ! l l . i 1 l l l l i E E [ Estrutura dupla-helice l l ª , ,

AGTACGTGGAC

! Nuclenndeo , ' ' Representaçãopela

' Composxçáo doDNA sequêncxadenucleotídeos

!

&

)

Figura 1: _Elementos, _estrutura_e _{representação do DNA,}

A _Figura 2 _{mostra uma representação} _{dos genes em} _{um cromossomo.}

Ern resumo7 “o DNA codiâca todas as proteínas que a(s) célula(s) do organismo deve(m) sintetizar e as _{proteínas, por sua} vez7 são responsáveis (direta ou indiretamente)

pelas funções necessárias_para a sobrevivência”Lewin (2001). A _seguiré descrito ()

pro-cesso de síntesede _{uma proteína} a partir do código presente no DNA, ouseja, o _processo

de _expressãode _um _gene.

A _produção de _{uma proteína a}_partirde _um_gene também échamada de _{expressão do} gene. A expressão de um gene é mais complexa nos organismos eucariotos* do que nos

procariotosl, mas o _{processo básico}é o mesmo. A informação genética é _representada no DNA _{pela sequencia das}bases (ounucleotídeos) nas suasHtas. A _{relação entre} asequencia

de bases do DNA e asequenciade aminoácidosdaproteína correspondente e chamada de código genético. Cada sequênciade 3 _{bases ao longo} da fitade DNA é _umcódigo químico

para um dos 20 aminoácidos que compõem as proteínas. Com raríssimas exceções, o

código genético e' universal, sendo basicamente _o _mesmo_para todos _os animais, plantas

e microrganismos. A síntese de _{uma proteína} se baseia no código genético e se divide em duas etapas: transcrição e tradução. A _Figura 3 _apresenta _as _{etapas do processo}de

expressãode _um _gene,

Simplificadamente, a trancrição é a _etapade _formaçãode _{uma fita} de RNA

comple-mentar a uma região do DNA, ou seja, uma Eta de _{RNA cujas} bases _{nitrogenadas da}

“Organismos cujas células possuem núcleo. O _{genoma desses organismos} é _{composto de várias} moléculas de DNAe estásituado no núcleo.

lOrganismos cujas células não possuem núcleo. Seu _{genoma consiste de uma única molécula de DNA} livrenacélula,

(9)

Gene 1

Gene 2

Cromossomo

Figura 2: _{Genes em um cromossomo.}

sequênciasão complementares às _{bases da sequência}do DNA. Três tipos de RNA podem

ser formados durante a transcrição: oRNA mensageiro (mRNA).que contéma sequência

que codifica uma proteína; o RNAtransportador(tRNA), que transportaosaminoácidos até umaestruturacelular chamada ribossomoepossibilitaa leitura da informação contida no mRNA durante a tradução e o RNA ribossômico (rRNA), _{que faz} _{parte da} estrutura dos ribossomos. Na produção do mRNA, o início do gene que codifica a proteína é re—

conhecido na molécula de DNA. _{Essa região} do DNA é desenrolada e suas as fitas são

separadas. Em seguida, a sequência do gene é utilizada para gerar uma fita de RNA, complementar à sequência do gene. Nos eucariotos, esse RNAprecisa._{passar por algumas}

transformações_paraque represente a sequência exata paraa produçãodaproteína. Nesses

organismos, essaetapa ocorre no interior do núcleo. Esse RNA _“pronto“ é o mRNA.

A _tradução é _a _etapa _{em que o} mRNA é utilizado como molde _{para a fabricação} de

proteína. A _tradução é realizada nos ribossomos. Nos eucariotos. os ribossomos estão

lo-calizadas nocitoplasma. Neste caso, o mRNA sai do núcleo _{para participar da tradução.} O código do mRNAélido conformeele _{passa pelo interior} do ribossomo. Os aminoácidos

são adicionadosà _{proteína, um} a _um, conforme são trazidos aos _{ribossomos por tRNAs.} Os tRNAsfazem aconexão entre uma trinca denucleotídeos& um aminoácido, permitindo

que a sequencia doRNA _sejatraduzidana sequencia da proteína. de acordocom o código genético. A cada três nucleotídeos do mRNA_que _passam _{pelo ribossomo. um tRNA7 com} uma trinca denucleotídeoscom código complementarao mRNA.se liga ao ribossomo tra-zendo oaminoácido adequado. Esse aminoácidoé_{ligado a}cadeiade aminoácidosque está sendo construída e que corresponderá a proteína. Após a tradução, as proteínas,

geral-mente, ainda passam por algumas modificações _paraque possam exercer adequadamente suasfunções.

(10)

'

É

mmscmçâu

5 K ' Xª— mRNA

WWW

"ºº'"

/

citoplasma TRADUÇÃO

Proteína

Figura 3: Processo de _{produção de uma} _proteínaem eucariotos.

Uma visão resumida do _processode _{expressão gênica pode} ser encontrada em diversos livros eartigos sobre bioinformáticaou que abordem algum aspecto da análisedeexpressão

gênica, como Setúbal & Meidanis (1997) eValafar (2002). Umavisão _{detalhada pode} ser

encontrada em Lewin (2001).

Como _já foi _dito, o _genoma de um organismo está presente em todas as suas células.

Em outras palavras., toda a informação genética necessária ao desenvolvimento e ma—

nutenção do organismo sob _{uma gama enorme} de condições ambientais distintas está presente em todas as suas células. Mas, a _{cada momento, uma célula emprega apenas}

uma fração consideravelmente reduzida de toda esta informação genética. Isso significa que cada célula produz diferentes tipos de proteínas em diferentes quantidades, em um dado instante,

Todasas fases do _processode _expressãode _um _gene _{são controladas por uma} série de

mecanismos_{que são} ativados/desativados de acordocom informações presentes no DNA, com as proteínas e outras substâncias presentes na célulae com fatores ambientais como

temperatura. Esses mecanismos de _{controle determinam quando, onde} e em que quan-tidade as proteínas são sintetizadas. Dentre os fatores que influenciama atuação desses

mecanismos estã01 _mudanças no ambiente da célula, alterações na forma ou comporta—

mento da célula, idade da célula ou infecção.

Além disso, o _tipo equantidade de _{proteínas produzidas também dependem}do_{tipo da} célula. _{Células presentes} no _{sangue produzem proteínas diferentes daquelas produzidas}

pelas célulasde _{músculos, por} exemplo. Atualmente, estima—se _que oDNA de uma célula humana contenha aproximadamente 30.000 genes. Apenas cercade 20% desses genes estão ativos (produzindo proteínas) em umacélula, em um dado momento. Assim, _{observando a}

(11)

quantidade de _{proteínas presentes}em uma célulaem um dado momento,pode—seanalisar ocomportamento dacélulasob todosessesfatoreseentender melhor0seu comportamento

em diversascondições.

Embora o produto final da expressão de um gene seja a proteína, as técnicas mais

barataseutilizadas hoje em dia analisam a expressãode _um _{gene a} _partir _{da quantidade} de _{mRNA correspondente a proteína, presente na} célula. Embora a relação entre a quan—

tidade de _{um mRNA}e a respectiva proteína em uma célulanão _{seja direta,} a abundância de _{mRNA nas células constitui uma ferramenta importante} _para_os estudos de _expressão gênica. A _quantidade de mRNAem uma célula, ou conjuntode células, podeser chamada de nível de expressãodo gene Slonim, Tamayo, Mesirov, Golub, & Lander (2000).

A análise do nível de _expressão _{dos genes em} _{uma dada amostra pode fornecer} in-formações importantes _paradiversasaplicações na áreade biologia, Porexemplo, a análise da expressão gênica pode fornecer informações importantes sobre as funções de umacélula,

umavez que as mudanças na fisiologia do organismosão _{acompanhadas por mudanças}nos

padrõesde _expressão_{dos genes} Chan, Hontzeas, & Park (2000). Algumas das aplicações da análise da expressão gênicasão:

.

Descoberta _{de genes.}

.

Determinação de _quais _genes _{estão sendo expressos} em um determinado tipo de

célulaem um dado momentoe sob certas condições.

.

Comparação da expressão dos genes em dois tipos de células diferentes ou duas

amostras de _{tecido diferentes (por} exemplo, tecido saudável x tecido doente).

.

Observação das mudanças na expressãodos genes em diferentes estágiosno ciclo da

célulaou durante o desenvolvimentodo embrião.

.

Estudo dos mecanismosde _regulação_{dos genes.}

.

Identificaçãode _{doenças genéticas} complexas.

.

Descobertade medicamentos e estudos de toxicologia.

.

Detecçãode _mutação

/

polimorfismonos genes.

.

Análise de _{elemento patogênico.}

3 Técnicas

_para

_{Medir a Expressão}

Gênica

Atualmente, existem diversas técnicas que permitem identificar o nível de expressão

de_{um grande número} _{de genes} simultaneamente, gerandoa chamada analisede _expressão em larga escala. Dentre essas técnicas podemser citadas SAGE (Serial Analysis ofGene

Expression) Velculescu, Zhang, Vogelstein, & Kinzler (1995), MPSS (Massively Parallel Signature Sequencing Technology) Brenner, Johnson, Bridgham. Golda, Lloyd, Johnson,

Luo, McCurdy, Foy, Ewan, Roth., George, Eletr, Albrecht, Vermaas, Williams, Moon,

Burcham, Pallas, DuBridge, Kirchner, Fearon, i Mao. & Corcoran (2000). vários tipos

(12)

de micmm'ra'y de DNA (microarmys de _{oligonucleotídeos curtos, microarrays} de cDNA Schena, Shalon, Davis, & Brown (1995), microarmys de _{oligonucleotídeos}longos,

micro-armys de fibra ótica) e Real—time RT—PCR (Reverse Transcription » Polymemse Chain Reaction). Stanton (2001) faz uma breve revisãode _{algumas dessas técnicas. Algumas}

delas são brevemente discutidas a seguir. As pesquisas dos autores estão relacionadas a

dados obtidos com as técnicas de _microarmy _e_{SAGE. Assim,} _{algumas informações extras}

sobre os dados obtidos com essas técnicas são _{inseridas nas}seções seguintes.

3.1 Mícroarray de DNA

O_princípiobásico _portrásda tecnologiade _microarmyde DNA _(Harrington, Rosenow,

& Retief 2000; Murphy 2002) é _a _{hibridização. Um microarray consiste}de _{um conjunto} de _sequênciasde DNA _{conhecidas (sondas) imobilizadas}de _{forma organizada} _(com _uma

configuração conhecida)em uma superfíciesólida, em geral, de_{nylon ou}vidro. _Conjuntos de _{sondas correspondentes} _a cada gene que faz parte do microarmy são fixos em pontos

específicos da superfície, chamadosspots. Assim, cada spot representa umgene conhecido, que é _{identificado pela sua localização}no microarmy.

A _{escolha das sequências}de DNA _{a serem colocadas no microarmy determina quais} genes podem ser detectados. Paraorganismoscom _{genoma completamente sequenciados}

pode-se colocar no _{mtcroarmy todos} os seus genes conhecidos ou ORF (Open Reading

Frames) suspeitos.

A _utilização do _microarmy se da da seguinte maneira. Inicialmente, o mRNA da

amostra de interesse é _{extraído. Em seguida, cada molécula} de mRNA é transformada

em uma molécula de DNA complementar (cDNA) marcada de forma radioativa ou i'lu—

orescente. Um cDNA é _{uma molécula} de DNA construída em laboratório por meio de

transcrição reversaapartirde_{uma molécula}demRNA. Essa moléculaé_{utilizada no lugar}

do _{mRNA por} ser mais estável. O cDNA marcado é chamado de alvo. A amostra com os alvos é então hibridizada no microarmy. Cada alvo se ligaa uma sonda complementar

no spot correspondente a um gene específico. A abundância de cada mRNA na amostra é

capturadadigitalmente, de acordocom a quantidade de alvo que hibridizou em cada spot do _microarmy. A _partir do _microarmy com os alvos hibridizados é _{gerada uma imagem,}

que é então analisada por meio de um dos _{vários softwares disponiveis,}_para_quantificar as informações dessa imagem, Os níveis de _expressão são derivados de sinais analógicos

de _{absorvência ou}fluorescência.

Os dois _{tipos principais} de _microarmy são os de cDNA (Schena, Shalon, Davis, &

Brown 1995) e os de oligonucleotideos. Cada umdeles oferece _{diferentes possibilidades}de

analise e também diferentes vantagens e desvantagens. Claverie (1999), Stanton (2001),

Murphy (2002) e Nguyen, Arpat, Wang, & Carroll (2002) _{comparam alguns aspectos} desses dois _tipos de _microarmy.

O _microarmy de CDN A é _{construído pela impressão} de _{material genético} pré-sinteti-zado _{na superfície}sólida. Nestecaso, o DNA sonda vem de organismos naturais epodem

ser feitos de DNA genôrnico ou de cDNA.

Os _microarmys (le cDNA construídos em superfícies de _{vidro permitem} _que _sejam

realizados experimentos competitivos, em que alvos de duas amostras marcadas de forma

(13)

diferente, com corantes fluorescentes, sejam hibridizados simultaneamente em um mesmo microar'ray. Nesse caso, os níveis de expressãosão dados como a razão entre os níveis de

expressão nas duas amostras (Claverie 1999). Yang & _Speed (2002) discutem os vários

aspectos do projeto de _experimentos com microarrays de CDN A. _{Algumas das vantagens}

e desvantagens do microarmy de cDNAsão:

Vantagens:

.

Muito utilizado _paraquantificação relativa dos níveis de _expressão, com a

uti-lização de experimentos competitivos.

.

As _{sondas representam} _{genes de} identidade conhecida ou segmentosde DNA

funcional, conhecidos como ESTs (Ezpressed Sequence Tags). Pode também ser aplicada _paraa descoberta de genes, uma vez que não há a necessidadede se conhecera sequênciados cDNAs sonda.

.

Mede _{a expressão}de dezenasde milhares _{de genes} simultaneamente.

.

Capacidade de _{detectar um grande intervalo} de níveis de _expressão.

.

Tem alto custo inicial,tantoem termos financeiros, quanto detrabalho. Porém, depois de instalada é bastanteprodutiva.

Desvantagens:

.

Necessitade grande quantidade de RNA _{total para} _preparar o alvo (50 - 200

pgde RNA total).

.

Não é _capaz de detectar _{genes com} baixo nível de expressão.

.

Apresenta risco de fragmentosdo alvo hibridizarem com sondas complementa-res similares, produzindo detecçõesfalsas.

O _microarmy deoligonucleotídeosé_{construído pela síntese das sequências}deinteresse (ologinucleotídeos) insitu, nopróprio substrato, sendo cada ponto sintetizado, nucleotídeo por nucleotídeo, utilizando uma máscara de luz. Algumas das vantagens e desvantagens

do microa'r'ray de oligonucleotídeossão:

Vantagens:

.

Quantifica níveis absolutos de _{expressão, permitindo comparações} confiáveis dos valores obtidos em experimentos separados.

.

Mede _{a expressão}de dezenasde milhares_{de genes} simultaneamente.

.

Exige uma quantidade menor de RNA total do _que o microarmy de cDNA

(Sagde _{RNA total).}

Tem _{a capacidade de detectar um intervalo} de níveis de expressão maior do

que o microarray de cDNA.

Apresenta menor risco de fragmentos do alvo hibridizarem com sondas

com-plementares similares do que o microar'rayde cDNA, 8

(14)

Desvantagens:

'

E _{uma tecnologia proprietaria, desenvolvida}_e _{comercializada pela Affymetrix.}

.

É_menosflexível _queo microarmyde cDNA, pois o usuário não pode selecionar as sondas _paracompor o _microarmy. Os _microarrays são _{comprados prontos.}

Existe a possibilidadede _se _{especificar os} _{oligonucleotideos (sondas) desejados,} mas o custo é muito alto.

o As sondas são projetadas especificamente_para cada _{gene de} interesse, sendo

necessárioo conhecimento da sequênciados genes. e Não possibilita a descoberta de genes novos.

.

Tem alto custo.

3.2

SAGE — Serial Analysis

of

Gene Expression

O método SAGE (Velculescu, Zhang,Vogelstein, & Kinzler 1995) sebaseia nofato de que uma sequência curta, com 10 a 14 _pares de base, chamada tag, contém informações

suficientes_para identificar unicamente um transcrito (mRNA)7 desde _que a tag seja ob—

tida de _{uma única posição dentro} de cada mRNA. O método SAGE _captura os mRNA

da amostra de _interesse, reescreve—os na forma de cDNA (DNA complementar), e corta

uma pequena tag de cada um. Em seguida, essas tags são unidas em moléculaslongas,

chamadas concatemers,que são sequenciadas.

O resultado do _{sequenciamento} é _{analisado por um software}_que _conta ₀ número de tags eobtém uma lista dos genes a que elas pertencem. O nível de _expressãode _um_gene,

neste caso7 é dado pelo número de tags associadas ao gene que foram encontradas na

amostra. Algumas das vantagens e desvantagens desta técnica são:

Vantagens:

.

E _capaz de detectare quantificar o nivel de expressão absoluto de genes

co-nhecidos e desconhecidos. Não é necessárioo conhecimento da sequência dos

genes. Isso permite a descoberta _{de novos genes.}

.

Pode ser aplicada em qualquer laboratório que possui equipamento de

sequen-ciamento, o que é muito comum atualmente.

a Não_{requer repetição} epadronizaçãodo_experimento com uma mesma amostra, uma vez que estatísticas para dados de _contagem são bem modeladas pela distribuição de Poisson.

Desvantagens:

.

Precisa de _{uma quantidade grande} de mRNA (2,5 - Bug de mRNA). Porém,já

existea técnica microSAGEque utiliza menos mRNA (Sng de mRNA).

.

E _{uma técnica complexa,} _que _{requer muito sequenciamento.}

.

Precisa de um sequenciamento de _alta _qualidade _para a identificação correta

(15)

o Não émuito adequada _paradetectar transcritos raros. Transcritos identificados como tendo menos de20 _{cópias por célula não}são estatisticamente confiáveis. Isso _{signiíica que a técnica tem baixa sensibilidade.}

3.3 MPSS

- Massive/y Parallel

Signature Sequencíng

MPSS (Brenner, Johnson, Bridgham, Golda, Lloyd, Johnson, Luo, McCurdy, Foy,

Ewan, Roth, George, Eletr, Albrecht, Vermaas, Williams, Moon, Burcham, Pallas, Du-Bridge, Kirchner, Fearon, i _Mao, & Corcoran 2000; Lynx 2004) é _{uma tecnologia} pro—

prietariada Lynx Therapeutics, que é utilizada em conjunto com outra tecnologia pro—

prietária, Megaclone, _paraquantificar O nível de expressãogênica.

Para a aplicação dessa técnica são utilizadas moléculasde cDNA obtidas a partir da amostra de _{interesse, composta por moléculas}de mRNA. Inicialmente, a tecnologia Me-gaclone é _empregada _para_{transformar a amostra} de cDNA em micro—contas,cada uma representando uma moléculade cDNA econtendo cercade 100.000cópias desta molécula. Em seguida, em um processo paralelo, a MPSS identifica uma sequência curta com 17

a 20 _pares de _{base, a} _partir de _{uma posição definida dentro da molécula representada} em cada micro-conta. Essa sequência é chamada assinatura, Cada assinaturaidenti— fica _{um transcrito (mRNA) diferente. Num próximo} _{passo, as} assinaturas são contadas,

determinando—seonúmerode moléculasde mRNAdecadagene presente na amostra. Isso

é feito utilizando ferramentas de bioinformática. O nível de _expressãoé _representado _pelo

número de _{transcritos presentes por milhão}de _{moléculas (tpm). Algumas das vantagens}

e desvantagens desta técnica são:

Vantagens:

.

Quantiíica()nível deexpressão absoluto identificando_econtando quase todas _as

espécies de mRNAde _{uma amostra (tipicamente} mais de 20.000). Geralmente

conta—se 1 milhãode mRNAs_em um experimento.

.

Não _requer o conhecimento da sequência dos genes, sendo adequada _para a

descoberta _{de novos genes.}

.

Tem _{uma alta sensibilidade, sendo capaz} de detectarmRNAs com menos de 5

cópias por célula.

e Da mesma formaque a SAGE, não requer repetição e padronização dos

expe-rimentos.

.

Possui uma excelente escala dinâmica de _{quantificação.} É _capaz _de _detectar

desde 5 _{tpm até mais}de 50.000 tpm.

.

Pode detectar_{quase todos} os genes presentes na amostra. Exceções são _genes

que não possuem a sequência empregada por essa tecnologia _para criar as

assinaturas, genes com assinaturas difíceis de mapear no _genoma, genes cuja assinatura possui algum artefato que interfere no sequenciamento, genes cuja

assinatura apresenta erros de _{sequenciamento} e _{genes cujo} transcrito possui menos de 100 _pares de base. Todasessas exceções são bastanteraras.

(16)

Desvantagens:

:

Precisa de 100ug de RNAtotal, de _{preferência, ou 2ug} de mRNA.

.

É uma tecnologia proprietária da Lynx Therapeutics.

3.4 RT-PCR

— Reverse Transcript/bn - Polymerase Chain Reaction

Existem vários métodos _paraquantificar RNA através dePCR, permitindo a avaliação

dos níveis de mRNA a partir de _{amostras pequenas (até uma única célula) (Freeman,} Walker, & Vrana 1999: Bustin 2002). A análise dos níveis de _{expressão gênica}é _apenas

uma das aplicações dessas técnicas. O método básicoéo RT-PCR (Reverse Transcription

- Polymemse Chain Reaction).

Inicialmente, CDNA e' _produzido _a partir da amostra de mRNA7 _{por transcrição} re—

versa. Em seguida., o cDNA e' amplificado por PCR. Finalmente, _o produto da

ampli-ficação é detectado e quantificado. Existem duas classes principais de técnicas _para a

detecção do _{produto da} amplificação: medidas end-point, que analisam a reação depois de completa (RT-PCR convencional), e monitoramento em tempo real da formação do

produto da PCR, que monitora a reaçãoconforme ela vai ocorrendo (real timeRT—PCR).

A quantificação pode ser relativa ou absoluta. Uma quantificação relativa determina as

mudanças na expressão de _um _gene. Uma quantificação absoluta tenta determinar o

número de _cópias de _{um mRNA} específico _por célula. _{Este tipo} de _{quantificação requer} condições e tratamentosespeciais,não necessários_paraa quantilicação relativa,

Os _experimentos com os métodos que empregam RT—PCR são muito comuns _paraa

caracterização e confirmaçãode _padrõesde _{expressão gênica obtidos} com outras técnicas, sendo muito comum sua utilizaçãoparavalidaçãodos resultados de _{micraarmys. Algumas}

das vantagens e desvantagens desta técnica são:

Vantagens:

.

E _{um método naturalmente adequado} _para _{uma quantificação indireta}

(re-lativa) dos níveis de expressão, mas com condições e tratamentos especiais

pode—seobter uma quantificação absoluta.

.

Tem _{uma alta sensibilidade, sendo capaz} de detectar mRNAscom menosde 5

.

Trabalha muito bem com _{pequenas quantidades} de RNA _total, podendo ser

aplicada ao conteúdo de _{uma única}célula.

.

E sensível e preciso em uma escala dinâmica ampla.

.

Tem sido utilizada como complemento a analise de _{expressão realizada} com

outras técnicas, Desvantagens:

.

E apropriada _paramanipular apenas poucas dúzias degenes por experimento.

.

Não é apropriada _paraa descoberta de novos genes. 11

(17)

3.5

Comparação das Técnicas de Medição da Expressão Gênica

A Tabela 1 _{apresenta um resumo comparando algumas características das técnicas} de

medição da expressão gênica descritas. Os _{números na} tabelacorrespondem às _seguintes

características:

1 —Descoberta de genes. Indicase a técnicaé apropriada para a identificaçãode novos

genes.

2 - Escalade quantificação. Se refereao intervalo de valores dos níveis de _expressão que pode ser detectado.

3 - Sensibilidade. Indica a capacidade de detecção de _{mRNAs raros,} com _poucas

4 - Tamanho da amostra. Indica a quantidade de mRNA ou RNA total necessaria, inicialmente,_parase realizar a medição.

5 - Trabalho exigido_paraa realizaçãode _{um experimento.} 6 — Custo do set-up inicial.

Tabela 1: _{Comparação entre} _as técnicas_de _{medição da expressão}_gênica.

| Técnica [ 1 [ 2 ] 3 | 4 5 | 6 ]

Microarray sim amplo média 50-200ng de RNAtotal alto alto

de cDNA

Microarmy de não > que cDNA média ãpg de RNAtotal baixo alto oligonucleotídeos

SAGE sim - baixa 25—5pgde mRNA médio baixo

MPSS sim excelente alta 100,u.gde RNAtotal baixo alto

RT-PCR não amplo alta conteúdo de uma célula baixo médio

Algumas informações da tabela merecem comentários. A técnica de _microar'rayde cDNA _pode detectarnovos genes desdeque sejam empregadas bibliotecas de cDNA com

sequências desconhecidas. O custo inicial _paraa técnica SAGE cf baixo _se houver _equi— pamento de sequenciamento disponível no laboratório. O Trabalho ecusto do microaway

deoligonucleotídeosleva em _{consideração a compra}do _{microarray pronto.} No _microarmy de cDNA, o microar'ray deve _{ser construído.} Para a técnica MPSS, pode-se considerar

o trabalho necessário pequeno, pois toda a análise é feita pela Lynx: sendo necessário apenas o envio das amostras _paraa _empresa. O seu custo é alto pelo mesmo motivo.

Claverie (1999) resume os métodos de _obtenção de _{expressão gênica}em métodos ba—

seados em contagemde tags (SAGE, MPSS) emétodos baseados em hibridização (

micro-arrays de cDNA e de olígonucleotídeos).

Nos métodos de _contagem de tags, cada experimento diz _respeito _a _{uma amostra}

representando uma condição de interesse. Esse _tipo de método é _{estatisticamente} mais

robusto, Não é necessária a repetição nem a padronização dos _{experimentos, uma} vez que estatísticas paracontagemsão _{bem modeladas pela distribuição} de _{Poisson (Brenner.}

Johnson, Bridgham, Golda, Lloyd, Johnson, Luo, McCurdy. Foy, Ewan, Roth, George,

Eletr, Albrecht, Vermaas, Williams,Moon, Burcham, Pallas, DuBridge, Kirchner, Fearon,

(18)

i _Mao, & Corcoran 2000). O resultado de _{um experimento} é _{uma biblioteca contendo a}

frequênciade cada tag na amostra. O número totalde _{tags sequenciadas varia} de _poucas

centenas a várias dezenas de milhares.

Nos métodos baseados em hibridização, um experimento pode se referir a uma única

amostra da condiçãode interesseouà relação entre duas amostras de condições diferentes. Em geral, os valores de expressão têm medidas replicadas (internamente em um micro—

army, ou em mais de um vrwlcmarmy) e são normalizados de acordo com um controle interno.

Além _{da tecnologia empregada, outro aspecto importante} é _{a técnica experimental.}

Vingron & Hoheisel (199.9) fazem _{uma distinção das técnicas experimentais} possíveis de

acordocom os dados que elas produzem:

.

Técnicas que especificamente comparam duas amostras de _mRNA, _como o micro—

array de cDNA em experimento competitivo.

.

Técnicas_que contam o número de moléculas de cadaespécie de mRNA presente em

uma amostra, como a SAGE.

.

Técnicas _{que lêem} o conteúdo de mRNA de uma amostra a partir da intensidade

de _{um sinal}de _{hibridização,} como o microarmy de _{oligonucleotídeos.}

No _primeiro _caso, os níveis de expressão são relativos, isto é, são _{dados pela razão} dos valores de _{expressão nas duas} condições analisadas, A e B, _por exemplo. Genesmais

expressos na condição A do que em B são ditos hiper-expressos em A e genes menos

expressos são ditos hipo—expressos. Com os dados obtidos pelas duas últimas técnicas

também é possível fazer análises comparativas, mas não com um único _experimento.

A _partir_{da realização}de_{um conjunto}de_experimentoscom uma das técnicas descritas, pode-se construir perfis de expressãodos genes, caracterizando ofuncionamento dinâmico

de cada gene (Brazma & Vilo 2000). Cada perfil corresponde aos níveis de expressãode

todos _{os genes em} uma amostra. Umperfil de expressão pode ser baseado em:

.

Diferentes condiçõesa que se submeta as amostras.

.

Diferentes estágiosde desenvolvimentodo _organismo ou célulasde interesse.

.

Diferentes tecidos.

Isso _{depende das amostras empregadas.} As _{amostras podem} _ser, _por exemplo:

.

Tecidos de várias partes do _organismo.

-

Tecidos com diversas doenças.

:

Células submetidas a diferentestratamentoscom medicamentos.

(19)

0 Células submetidas a várias condições (por exemplo de alimentação ou tempera—

tura).

.

Amostras obtidas em vários pontos no tempo (para avaliar, por exemplo,o desen—

volvimento normal das células da amostra, seu desenvolvimentosob determinadas

condições ou após algum tipo de _tratamento).

4 Processamento

e Análise

Computacional

dos Dados de Expressão

Gênica

Os dados de _{expressão gênica}são _{geralmente representados} em uma matriz, com as linhas representando os genes e as colunas representando as amostras (diferentes tecidos, estágiosde desenvolvimentoou _{tratamentos, por exemplo). Essa matriz} é chamada ma—

triz de _{expressão. Cada posição da matriz contém um número representando} o nível de

expressão de _um _gene _particular em uma amostra. Como _já foi _dito, as amostras, em

geral, provêm de _{diferentes experimentos.} Devido ao alto custo dos _{experimentos, uma}

matrizde _expressãoé, geralmente, constituída de_{um grande número}_{de genes} _(milhares)e

poucas amostras (dezenas). A Tabela 2 _{mostra um exemplo}de _{uma matriz} de _expressão.

Tabela 2: _Exemplode _{uma matriz} de _expressao.

Gene

Amostra

1

Amostra

2

Amostra

_m

gene 1 ₁₀₀₉ ₃₄ ₅₀₀

gene 2 37 657 45

gene3 2 456 3512

gene n 0 5 1690

A _aplicação de _{qualquer uma das técnicas} de _{medição da expressão gênica produz}

grandes quantidades de _{dados, requerendo métodos computacionais} _paraauxiliar _nasua interpretação. A análise desses _{dados precisa} ser cuidadosa porque os sinais biológicos

podem ser obscurecidos por ruídos provenientes dos _experimentos ou outras influências

sistemáticas provenientes da metodologia experimental (Vingron& Hoheisel 1999).

Dependendo de como os niveis de expressão sejam obtidos, podem ser necessárias diferentes transformações _para adequar osdados _parautilização.

Paraosdados obtidoscom a técnica SAGE, emgeralsão necessários _ajustes _nos dados

pararemover errosde_{sequenciamento, adicionar}valores _ausentesembibliotecas truncadas

e transformar as frequências das tags de forma a fazer com que todas as bibliotecas representem o mesmo número totalde tags (Ng, Sander, & Sleunier2001).

Vários passos de normalização também são necessáriosnos dados obtidos com micro—

armys, uma vez que existem muitas fontes devariação sistemática nos experimentos com essas técnicasque afetam os níveis de expressão medidos (Dudoit. Yang, Callow, & Speed 2000;Schuchhardt, Beule, Malík, Wolski, Eickhoff, Lehrach,&_{Herzel 2000; Yang,} _Dudoit,

Luu, & Speed 2001; Irizarry, Hobbs, Collin, Beazer—Barclay, Antonellis, Scherf, & Speed

(20)

2003; Hariharan 2003). _{Alguns passos} se aplicam a cada microarmy, individualmente,

enquanto outros se aplicam a matriz de _expressão.

Depois dessas transformações, em geral, os dados estão prontos _para serem anali— sados. Porém, dependendo da. análise a ser feita, ainda podem ser necessárias outras

manipulações (Quackenbush 2001).

Os níveis de expressão dos genes podem ser convertidos _para _{um intervalo comum,}

por exemplo, [O, 1] _ou

H,

1] _(Dopazo, Zanders, Dragoni, Amphlett, & Falcianí _2001).

Esse _tipo de transformação é útil _paraidentificargenes que mostram um comportamento

similar, mas possuem níveis de _expressão _em _{diferentes intervalos. Essa transformação}

é sensível a anthem Alguns algoritmos de _aprendizado de _maquina fazem uso de dados

em determinados intervalos, sendo esta uma transformação necessária,se esses algoritmos

forem _empregados.

Outra transformação consiste na subtração da média dos valores e divisão pelo seu desvio _padrão. Com _{essa transformação,} osdados passam a ter médiazero evariância um.

Isso reduz o efeito de diferentes escalasnos dados, sendo menossensível a outliers doque

a conversão dos dados _paraum único intervalo. Algumas técnicas de análise dos _dados, como PCA (Principal Component Analysis), requerem que esse tipo de transformação seja aplicada aos dados,

Algumas técnicas de analise estatísticas dependem da distribuição dos dados. Embora existam técnicas_{que são}independentes da distribuição (testesnão—paramétricos), ostestes paramétricos apresentam maior poder estatístico. Porém, estes testes exigem _queosdados

tenham uma distribuição normal (Dopazo, Zanders, Dragoni, Amphlett, &Falciani2001). Os dados de _{expressão geralmente têm uma distribuição normal depois} de _uma trans—

formação logarítmica. Esse _tipo de_{transformação} é_{muito comum}nosdadosde_microarmy (Dopazo, Zanders, Dragoni, Amphlett, & Falciani 2001; Murphy 2002; Hariharan 2003). Além dadistribuição setornaraproximadamente normal após essetipo de transformação, ela auxilia na visualizaçãodos dadose faz com que os níveis de expressãodos genes hiper

e hipo—expressos,resultantes de _{experimentos competitivos, tenham mesma magnitude} e

sinais opostos (Quackenbush 2001).

Apesar das transformações nos dados serembastanteapropriadas _paradeterminadas situações, elas devem ser aplicadas de forma bastante criteriosa, e somente quando se

fizerem realmente necessárias, pois cada tipo de _{transformação} leva _{a perda} de algum tipo de informação contidanos dados (Sarle2002), Hariharan (2003) discute, entre outros aspectos, a aplicação da transformação logaritmica, incluindo algumas desvantagens de se aplicar essa transformação.

Existem inúmeras formas de _{análise que podem} ser aplicadas a dados de _expressão gênica, variando desde análisesdebaixonível, como filtragensenormalizações, até análises

estatísticas _paraidentificaçãode expressão diferente em diversas condições, identificação

de _padrões e mineração de dados. Dependendo do interesse do _{pesquisador, uma} ou mais dessas formas de analise podem ser aplicadas aos dados. Porém, é preciso ter em

mente que os métodos utilizados para análise têm profunda influência na interpretação

dos resultados. Assim, é_{necessário um entendimento} dos métodos utilizados_parase fazer

(21)

um projeto experimental adequado e uma analise significativados dados.

Segundo Quackenbush (2001), não existeconsenso sobreo melhor método_pararevelar

padrões de _expressão nos dados e fica cada vez mais claro que não existe uma técnica

superior. A _aplicação de _{várias técnicas permite explorar aspectos diferentes}dos dados. Sebastiani, Gussoní, Kohane,& Ramoni (2003) discutem algumas análisesque podem ser feitas, sob opontodevistaexperimental. A _{análise mais simples}_que _pode_serfeitacom

dados de_{expressão gênica}é _{a identificação}_{de genes} _expressosde forma diferente em duas condições. As condições podem ser níveis específicos de fatores ambientais controláveis

(temperaturas extremas ou falta de _{alimentação) ou a modificação}_ou _remoção de _uma

porçãoespecífica _{do genoma.}

Questões experimentais mais complexas envolvem o traçado do perfil molecular de

várias condições de uma só vez _para _{caracterizar, por} exemplo, a “impressão digital” genômicade _{diferentes tipos} de _{câncer (Alizadeh,} _{Eisen, Davis, Ma, Lossos,} _Rosenwald, Boldrick, Sabet, Tran, Yu, Powell, Yang, Marti, Moore, Hudson, Lu, Lewis, Tíbshirani,

Sherlock, Chan, Greiner, Weisenburger, Armitage, Warnke, Levy, Wilson, Grever, Byrd, Botstein, Brown, & Staudt 2000) ou o efeito da mudança simultânea de vários fatores

experimentais (Churchill & _{Oliver 2001).} Nestescasos, cada amostra consiste dos níveis de _{expressão obtidos} de célulasem uma condição particular.

Ainda outra questão se refere ao estudo da evolução temporal de perfis de expressão

gênica. Esse tipo de _{estudo está baseado na intuição} _{de que genes que} _{têm um} perfil de

expressão similar no decorrer do _{tempo estão agindo juntos por pertencerem a mesma}

categoria funcional,ou a categorias similares. Com esse tipo de dado é possível observar os mecanismos regulatórios em açãoe tentardividir o _genomaem conjuntos de genes que

estão envolvidos nos mesmos processos ou em _{processos relacionados. Embora necessite} de _{uma análise diferente} da realizada _para o tipo de _{experimento anterior, neste} caso

também são comparados perfis molecularesde célulasem diferentescondições. Exemplos

desse _tipo deestudo são o _processode transformação de _{um tumor} _{que cresce} localmente

em uma metástase (Clark, Golub, Lander, & Hynes 2000), o ciclo de esporulação de

levedura (Spellman, Sherlock, Zhang, Iyer, Anders, Eisen, Brown, Botstein, & Futcher

1998) e a resposta de fibroblastos humanos ao soro (Iyer, Eiseu, Ross, Schuler, Moore, Lee, Trent, Staudt,JR, Boguski, Lashkari, Shalon, Botstein, & Brown 1999).

Outros experimentos se referem ao mecanismo regulatório de células observadas em

diferentes condições experimentais. Os _{caminhos regulatórios} _em células normais modu—

lam o nível e a duração da expressão dos genes, garantindo que as células respondam

apropriadamente aos estímulos fisiológicos e extrafcelular'es. Porém, quando a ativação

de um caminho de _regulação de _um _gene _{dispara uma sub} _ou _{supor-produção} de certas proteínas, podem surgir diversas doenças. Neste tipo de_{experimento, questões} importan—

tes são a descoberta de novos mecanismos regulatórios e de dependências causais entre expressão gênica (Pilpel, Sudarsanam, & Church 2001).

Quackenbush (2001) faz uma revisão de _{algumas abordagens computacionais para} _a

análise de _{dados provenientes} de _{experimentos competitivos} _{em microar'rays de cDNA.} Essas abordagens também são aplicáveisa dados obtidos com outros tiposde _experimento com microarmy ou SAGE, desde que os dadosse apresentem no formato adequado,

(22)

Claverie(1999) fazuma análise das formasde_{identificação}_{de genes} _expressosdeforma diferenteou coordenada a partir de dados de expressãogênica. Dudoit, Yang, Callow, &

Speed (2000) também discutem métodos estatísticos _para identificar genes expressos de

forma diferenteem experimentos replicadosde _{microarmy. Outros artigos relacionados} a

identiiicaçãode genes expressosde forma diferente incluem (Pan 2002), (Pepe, Longton, Anderson, & Schummer2003), (Broberg 2003) e (Jaeger, Sengupta, & Ruzzo2003).

Lockhart &Winzeler (2000) discutem vários aspectos relacionadosà_{expressão gênica}e

as_{informações}_que _podem_ser obtidas analisandoesse tipo dedado. Molla, Waddell,Page,

& Shavlik(2004) fazem uma breve revisãodatecnologia de microarmy de DNAe descre— vem algumas formasdeanáliseque podemser feitasem dados obtidos com essa tecnologia, utilizando algoritmos de _aprendizado de maquina. Essas análises incluem: predição da função biológicade _um_gene, _agrupamento _{de genes com} baseem seus níveis de expressão, agrupamento de _{condições experimentais} com basenos níveis de expressão, descoberta de novas classes de doenças, predição de _{doenças existentes, predição} do _prognóstico_de

pa-cientes e predição da resposta de _{diferentes pacientes} com uma dada doença a diversos

medicamentos. Embora essas análises sejam descritas no contexto de dados de microar—

my de DNA, elas podem ser aplicadas a dados de _{expressão gênica} em geral. Brazma &

Vilo (2000) fazem uma breve descriçãode _{algumas possibilidade} de análise de dados de

expressãogênica.

5 Conclusão

A análisede dadosde _{expressão gênica}é bastanteútil _paradiversas aplicações na bio—

logia. A _extração de _{informações úteis} desse _tipo de _{dado depende} de análises criteriosas. Essa análise pode ser realizada em diferentesníveis e de diferentes formas.

Este relatório apresentou os principais aspectos relacionados à análise de _expressão gênica, resumindo algumas técnicas de _medição dos níveis de _{expressão gênica que têm} sido utilizadas e discutindo algumas formas de manipulação e análises que podem ser

realizadas em dados de _expressãogênica.

Inicialmente, o _processo de _{expressão gênica} foi descrito. As _{técnicas microarmy,} SAGE, MPSS e RT—PCR foram apresentadas e comparadas. Foram também discutidos o

processamento necessárioe algumaspossíveis análisesdos dados de _expressãogênica.

(23)

Referências

Alizadeh,A., M. Eisen, R. Davis, C. Ma, I. Lossos, A, Rosenwald, J. Boldrick, H. Sa—

bet, T. _Tran, X. Yu, .]. _Powell, L. Yang, G. Marti, T. Moore, J. J. Hudson, L. Lu, D. Lewis, R. Tibshirani, G. _Sherlock,W. _{Chan, T. Greiner,}D. _{Weisenburger,}.]_.

Ar-mitage, R. Warnke,R. Levy, W. Wilson, M.Grever, .]_. Byrd, D. Botstein, P. Brown,

& L. Staudt (2000). Distinct types of diffuse _large b-cell _{lymphoma identified} by gene expressionprofiling. Nature 403 (6769), 503—511.

Baldi, P., & S. Brunak (1998). Bioinformatics: The _{Machine Learning}Approach. Adap—

tative Computation and Machine Learning. MIT Press.

Brazma, A,, & J. Vilo (2000). Gene expression data analysis. FEBS Letters

4800),

17—24.

Brenner, S., M. Johnson, J. Bridgham, G. Golda, D, H. Lloyd, D. Johnson, S. Luo,

S. _McCurdy,M. Foy, M. Ewan, R. Roth, D. George, S. Eletr, G. Albrecht, E.

Ver-maas, S. R. Williams, K. Moon, T. Burcharn, M. _Pallas, R. B. _{DuBridge, J.}

Kir-chner, K. Fearon, J. i _Mao, & K. Corcoran (2000, June). Gene expression analysis by massively parallel signature sequencing (MPSS) on _{microbead arrays. Nature} Biotechnology 18(6), 630—634.

Broberg, P, (2003). Statistical methods for _{ranking differentially expressed}_genes. Ge—

nome Biology 4(6), R41.

Bustin, S. _(2002). _{Quantification} of _{mRNA using real-time} _reverse _{transcription PCR}

(RT—PCR): trendsand problems.

]

Mol Endocrinol

290),

23—39.

Chan, V., N. _Hontzeas, & V. Park (2000, December). Gene _expression. _Preprint(Univ

Warterloo),

_http:

//www.nslij-genetics

.

org/microarray/preprint

.html

[Acessado em 11/01/2005].

Churchill, G. A., & B. Oliver (2001). Sex, fiies and microarrays. Nature Genetic 29, 3554356.

Clark, E., T. Golub, E. Lander, & R. _Hynes (2000). Genomic analysis of metastasis

reveals _{an essential role}for RhoC. Nature 406, 532—535.

Claverie, J.—M. _(1999). _{Computational methods} _for the identification_ofdifferential and

coordinated _gene expression. Human Molecular Genetics 8(10), 182171832.

Dopazo, J., E. Zanders, I. _Dragoni, G. _Amphlett, & F. Falciani (2001). Methods and approaches in _{the analysis} _{of gene} _{expression data.} Journal of lmmunologi—

cal Methods 250, 93-112.

Dudoit, S., H. Yang, M. Callow, & _{T. Speed} (2000). Statistical methods for

iden-tifyinggenes with differential expressioninreplicated cDNA experiments, Statistica Sinica 12(1), 1117139.

Freeman, W., S. Walker, & K. Vrana (1999). Quantitative RT-PCR: pitfalls and po—

tential. BioTechniques 26(1), 112—125.

Hariharan, R. (2003). The analysis of_{microarray data. Pharmacogenomics 4(4),} 477— 497.

(24)

Harrington, C., C. Rosenow, &.]_. Retief_(2000). _Monitoring_gene _{expression using}DNA

microarrays. CUTT. _{Opin. Microbol.} _{3, 285—291.}

Irizarry, R., B. _{Hohhs, F. Collin,} Y. Beazer—Barclay, K. Antonellis, U. Scherf, &

T. Speed (2003). Exploration, normalization, and Summariesof _{high density}

oli-gonucleotide array probe level _{data. Biostatistics 4(2),} 249—264.

Iyer, V. R,, M. B. Eisen, D. T. Ross, G. Schuler, T. Moore, J. C. F. Lee, J. M. _Trent, L. M. _Staudt, J. H. _JR, M. S. Boguski, D. Lashkari, D. _Shalon, D. _Botstein, &

P. Brown (1999). _{The transcriptional program} in _{the response}ofhuman fibroblasts to serum. Science 283, 83f87.

Jaeger, J., R. _Sengupta, & W. L.

anzo

(2003, Jan). Improved gene selection for

classificationof_{rnicroarrays. ln Pacific Symposium}_{on Biocomputing,} _Kanai, _Hawaii,

pp. 53—64,

Lewin, B. (2001), Genes VH. Artmed editora.

Lockhart, D., & E. Winzeler (2000). Genomics,gene expression and DNA _arrays.

Na-ture 405(6788), 82%836.

Lynx (2004). Lynx Therapeutics home page.

http:

//www.1ynxgen.com/ [Acessado em

14/01/2004].

Molla, M., M. _Waddell, D. _Page, & J. Shavlik(2004). Using machine learning to design

and interpret geneexpression microarrays. Al Magazine(Special Issue on Bioinfor-matics)

250),

23414.

Murphy, D. (2002). Gene expression studies using mícroarrays: Principles, problems, and prospects. Adnan. Physiol. Educ. 26(4), 256—270.

Ng, R. T., J. Sander, & M. G. Sleumer (2001). Hierarchical cluster analysis of SAGE

data for _cancer profiling. In Workshop on Data Mining in Bioinfonnatics (BI-OKDDÚI), _pp. 65772.

Nguyen, D., A. _Arpat, N. Wang, & R. Carroll (2002). DNA microarray experiments:

biological and technological aspects. Biometrics 58, 701—717.

Pan, W. (2002). A _comparative review of statisticalmethods for _discovering

differen-tially expressed genes in replicated mícroarray experiments. Bioinformatics 18 (4), 5416—554.

Pepe, M. S., G. Longton, G. L. _Anderson, & M. Schummer (2003), Selecting

differen-tially expressed genes from microarray experiments. Biometrics 59(1), 133442.

Pilpel, Y., P. Sudarsanam, & G. Church (2001). Identifying regulatory networks by

combinatorial analysis of _{promoter elements. Nature Genetics} 29, 153—159.

Qnackenbush. J, (2001). Computational analysis of microarray data. Nature Reviews

Genetics g(ô). 1118—427.

Sarle, W. S. (2002). Artificial neural network FAQ — should I

norma-lize/standai'dize/reseale the data?

Ítp://ftp.sas.com/pub/neural/FAQ.html

[Acessado em 09/12/2003].

Schena, M., D, Shalon, R. W. Davis, & P. O. Brown (1995). Quantitative monitoring of_gene expression patterns with a complementary DNA _microarray. Science 270,

467—470,

(25)

Schuchhardt, J., D. Beule, A. Malik, E. Wolski, H. Eickhoff, H. Lehrach, & H. Her—

zel (2000). Normalization strategies for cDNA _microarrays. Nucleic Acids Resea arch _2800), e47.

Sebastiani, P., E. Gussoni, I. _Kohane, & M. Ramoni (2003). Statistical challengesin

functional genomics (with discussion). Statistical Science 18(_1). 33—70.

Setúbal, .]_. _C., _& .]. Meidanis(1997). Introduction to Computational MolecularBiology.

PWS Publishing Company.

Slonim7 D. K., P. _{Tamayo, J.} P. Mesirov, T. R. Golub, & E. S. Lander (2000). Class

prediction and discovery using gene expression data. In Proceedings of the 4th An—

nual International Conference on Computational Molecular Biology (RECOMB),

Tokyo, Japan, pp. 263472. Universal Academy Press.

http:/kiteseennj

.nec. com/slonimOOclass.html[Acessado em 19/07/2002].

Spellman, P., G. Sherlock,M. Zhang,V. Iyer, K. Anders, M. Eisen, P. Brown, D. Bots—

tein, & B. Futcher (1998). Comprehensive identificationof cell cycle—regulated genes of _{the yeast saccharomyces cerevisiae by microarray hybridization. Molecular}Bio—

logy of the Cell 9, 3273—3297.

Stanton, L. W. (2001). Methods to profile gene expression. Trends in Cardiovascular

Medicine 11(2), 49—54.

Valafar, F. (2002). Pattern recognition techniques in _microarray data analysis: A sur-vey. Special Issue Annals ofNew York Academy ofSciences, Techniques in

Bioin-formatics and Medical Informatics 980, 41—64. ,

Velculescu, V. E., L, _Zhang, B. Vogelstein, & K. W. Kinzler (1995). Serial analysis of gene expression.Science 270, 4844187.

Vingron, M., & J. Hoheisel (1999). Computational aspects ofexpression data. J. Mol,

Med. 77, 3—7.

Yang, Y., &T. F. Speed (2002). Design issues for cDNA microarray experiments. Nature

Review _{Genetics 3(8),} 57%588.

Yang, Y. H., S. _Dudoit, P. _Luu, & T. P. _Speed(2001). Normalization for cDNA

micro-array data. In SPIEBiOS2001, San Jose, California.