• Nenhum resultado encontrado

1.3 Biotecnologia

1.3.4 Microarrays

A utilização dos arrays de DNA em análises comparativas da expressão genética está denitivamente implantada nas mais diversas áreas de investigação e diagnóstico. Graças a esta tecnologia têm-se conseguido avanços importantes na identicação de genes especícos para determinados tecidos, com repercussões diretas no melhor entendimento dos processos que levam à diferenciação celular (Reinke et al., 2000). Esta tecnologia tem contribuído também para a obtenção de alguns êxitos recentes na identicação de genes envolvidos na resposta a condições de stress, como

9Do inglês reverse transcription. 10Do inglês complementary DNA.

1.3. Biotecnologia

sejam a presença de toxinas no desenvolvimento do ciclo celular (Nuwaysir et al., 1999), ou fenómenos associados à replicação do DNA (Marton et al., 1998). Finalmente, a área da saúde será porventura aquela onde a introdução dos arrays de DNA estará a causar maior impacto, nomeadamente, no desenvolvimento de novos fármacos (Heller et al., 1999), na busca de polimorsmos associados a condições clínicas, por exemplo nos diabetes e em algumas condições cardíacas (Wang et al., 1998), e na tipagem de alguns tipos de cancro (Scherf et al., 2000; Ross et al., 2000).

Os primeiros arrays surgiram na década de 80 e eram designados por macroarrays. Os microarrays de DNA foram inicialmente desenvolvidos por Schena et al. (1995) e têm sido largamente utilizados em várias áreas como siologia celular, farmacologia, fenotipagem molecular, sequenciação de DNA, etc.

A base fundamental dos microarrays é o processo de hibridação. Este princípio é explorado nesta técnica, no sentido em que se mede a quantidade de DNA (ou RNA) desconhecido (target ou alvo) com base numa sequência complementar conhecida (probe ou sonda). O nível de hibridação é usualmente quanticado a partir de uma etiqueta química usada para marcar o target numa determinada experiência. O array é lido num scanner e a imagem resultante é traduzida em intensidades. O objetivo é selecionar genes com diferentes níveis de expressão em duas (ou mais) amostras. De entre os vários tipos de microarrays comercializados (Tan et al., 2003), existem dois mais conhecidos, designados por microarrays de dois canais (microarrays de cDNA) e de um canal (microarrays de oligonucleótidos). Os microarrays de dois canais (Figura 1.11) consistem em milhares de sequências individuais de DNA impressas numa lâmina de vidro através de um robô. Duas amostras de mRNA (ou targets), correspondentes aos dois tipos de tecido que se pretendem comparar, por exemplo células com algum tipo de patologia (condição 1) e células sem essa patologia (condição 2), são reversamente transcritas em cDNA e etiquetadas com uorocromos12

diferentes (vermelho  Cy5 e verde  Cy3). Depois são misturadas em proporções iguais e hibridadas às sondas que se encontram no array. As duas amostras são combinadas num único array. Seguidamente os arrays são transformados em imagens através de um scanner e as medições das uorescências são feitas separadamente para cada cor em cada spot do array. O rácio entre as uorescências vermelho e verde de cada spot é um indicador

12Molécula que emite uorescência quando excitada com um comprimento de onda

da abundância relativa de ácido nucleico das correspondentes sondas nas duas amostras (Dudoit et al., 2002). Se a quantidade de mRNA na amostra da condição 1 for abundante o spot (ou poço) será vermelho, se a quantidade for abundante na amostra da condição 2 o spot será verde, se a quantidade for igual nas duas amostras o spot será amarelo e se não estiver presente será preto (Figura 1.11).

Figura 1.11: Passos na preparação de um microarray de dois canais (fonte: Goor, 2005).

Nos microarrays de um canal, mais especicamente da Aymetrix (Aymetrix, 1999), centenas de milhares de sondas oligonucleotídicas diferentes são sintetizadas em cada array. Cada oligonucleótido está localizado numa área especíca do array denominada por spot, cada spot contém milhões de cópias de um determinado oligonucleótido (Figura 1.12). Na secção 1.3.4 será explicado em maior detalhe este tipo de microarray. Atualmente, tem havido um grande esforço na padronização dos dados gerados a partir deste tipo de experiências, quer pela importância quer pela possibilidade de comparação entre diferentes experiências. Um exemplo desse esforço é o protocolo conhecido como MIAME13 (Brazma et al., 2001),

1.3. Biotecnologia

Figura 1.12: Passos na preparação de um microarray de um canal (fonte: Aymetrix, 1999).

outro exemplo é o BASE14 (Saal et al., 2002), o qual foi desenhado para

armazenar informações como: imagens, dados em bruto, descrições quer dos genes quer das amostras, normalizações e outros dados relevantes para a análise da expressão diferencial. Exemplos de outras bases de dados como o MAGE15 desenvolvido por Spellman et al. (2002), SMD16 (Sherlock et al.,

2001), OMIM17 Gene Ontology.

O projeto BioConductor (Gentleman et al., 2004) é de livre acesso baseado em linguagem de programação R, e contém várias bibliotecas para análise de dados de microarrays e vários bancos de dados provenientes de microarrays de várias plataformas. Este é um projeto em permanente desenvolvimento, onde estatísticos e bioinformáticos contribuem com bibliotecas para a análise de dados genómicos. O projeto teve início em 2001 e é líder na análise de dados de microarrays.

Para além dos microarrays, existem técnicas alternativas para medir a expressão genética. Enquanto a tecnologia de microarrays baseia-se na hibridação, existem outras que se baseiam na sequenciação e fragmentação.

14Do inglês BioArray Software Enviroment. 15Do inglês MicroArray Gene Expression. 16Do inglês Stanford Microarray Database.

Exemplos de técnicas baseadas em sequenciação são EST18, SAGE19,

WTSS20 e MPSS21 e baseadas em fragmentação são por exemplo o

cDNA-AFLP22.

Os dados analisados neste trabalho provêm essencialmente de microarrays de um canal da Aymetrix e na aplicação e desenvolvimento de metodologias estatísticas em linguagem R.

Microarrays de um canal - Aymetrix

Os arrays de sondas oligonucleotídicas produzidas pela Aymetrix são conhecidos por Aymetrix GeneChip (Lockhart et al., 1996). Neste trabalho os GeneChips são referidos por arrays ou chips.

Os arrays da Aymetrix são divididos em milhares de poços. Cada poço contém sondas, que por sua vez são oligonucleótidos constituídos por 25 pb, cujas sequências são conhecidas. As sondas são escolhidas de tal modo que cada uma é complementar do RNA alvo que se pretende quanticar. O RNA alvo é marcado com uma etiqueta química (biotina) cuja sequência complementar hibridará com a sonda. Os alvos que não hibridarem serão removidos. Cada gene é representado por dois conjuntos de entre 11 a 20 sondas oligonucleotídicas e cada sonda corresponderá a um fragmento do gene (Figura 1.13).

Ao conjunto de sondas que representa um gene dá-se o nome de probeset e podem existir entre 12.000 a 22.000 probesets no array (Figura 1.14). Por vezes existe mais do que um probeset para o mesmo gene, mas cada um usa diferentes partes da sequência.

Cada sonda é constituída por um par de sequências, designadas por Perfect Match (PM) e Mismatch (MM). As sondas PM têm a sequência de bases idêntica à do alvo complementar e as sondas MM contêm uma mutação, correspondente à base no meio da sequência (13a posição) (Figura 1.14). A

sequência MM tem por objetivo quanticar hibridações não especícas. O par PM e MM é designado por probe-pair.

As sondas PM e correspondente MM são sempre colocadas aos pares num determinado poço do array, no entanto os pares de um probeset

18Do inglês Expressed Sequence TAG.

19Do inglês Serial Analysis of Gene Expression. 20Do inglês Whole Transcriptome Shotgun Sequencing 21Do inglês Massively Parallel Signature Sequencing.

1.3. Biotecnologia

Figura 1.13: Representação esquemática de um gene.

Figura 1.14: Representação de um probeset (fonte: Aymetrix, 1999).

são distribuídos aleatoriamente no array. A relação entre a intensidade do sinal das sondas PM e MM indica se um gene está ou não ativo na célula ou tecido numa determinada situação experimental. Este sinal

tende a ser proporcional à quantidade de RNA na amostra, até uma certa concentração de transcritos. Os diferentes probes de um mesmo probeset podem ter sinais muito diferentes entre si, no entanto quando comparados com vários arrays terão o mesmo comportamento. Estas diferenças de sinal entre os diferentes probes devem-se a vários fatores, nomeadamente na localização do probe no RNA, erros durante a construção do array, temperatura a que se dá a experiência, etc. Nos formatos mais recentes de arrays da Aymetrix, as sondas mismatch não são utilizadas (Dziuda, 2010). Os arrays da Aymetrix podem ter entre 500.000 (HGU95Av2) a 1.300.000 (HUGU133 plus 2.0) sondas. O processo de construção de um array é constituído por várias fazes: primeiro isola-se o RNA total do tecido em estudo, seguidamente o RNA é reversamente transcrito em cDNA, etiquetado com biotina e hibridado no array. Um determinado número de controlos são também produzidos e hibridados nos arrays. Depois do processo de hibridação estar completo, são removidas as hibridações não especícas. Após lavagem dos chips são emitidos lasers com o objetivo de excitar as etiquetas químicas e sinais luminosos são emitidos. A quantidade de sinal emitido pelo chip é armazenado numa imagem (Figura 1.15), em cheiros com extensão .DAT. A quantidade de luz emitida é proporcional à quantidade de moléculas-alvo ligadas a cada local.