ORGANIZAÇÃO GÊNICA EM
EUCARIOTOS
Antônio Costa de Oliveira Disciplina de Marcadores
Moleculares/Biotecnologia Aplicada ao Melhoramento
Organização de genoma
eucariotos
• Estrutura da cromatina • Organização Genômica
Cromatina e Heterocromatina
• Histonas
Organização Física do genoma:
Cromatina
• Eucromatina – geneticamente ativa;
• Heterocromatina –geneticamente inativa; • Célula humana= 2 m de DNA em um
núcleo de 5 micra;
• Um cromossomo humano em média contem ~ 4 cm e na metáfase possui ~2 micra de comprimento
Bandeamento G (tratamento
proteolítico + Giemsa)
Organização Genômica
• Procariotos
– A maioria do genoma é codificante
– Pequena porção não codificante é composta por sequências regulatórias
• Eucariotos
– A maioria do genoma é não codificante (95%)
• Sequências regulatórias • Introns
Genoma de eucariotos
• Genomas de Eucariotos são muito mais complexos;
• Analisados por estudos de cinética de reassociação do DNA
Organização de Sequências
• Características únicas do eucariotos • Sequências de cópia simples (genes)
– Integridade de genes individuais pode ser interrompida; – Podem haver múltiplas e idênticas cópias de sequências
particulares;
• Sequências Repetitivas
– Pequenos/grandes blocos de DNA que não apresentam função conhecida em benefício da planta/organismo eucarioto (podem codificar para proteínas).
• Genomas de plantas são compostos por ILHAS de genes rodeadas por OCEANOS de DNA
repetitivo.
• O DNA repetitivo é composto por retroelementos que são altamente metilados, enquanto genes em geral não o são.
Paisagem do Genoma
DNA repetitivo
• Dois tipos
– Repetido em tandem
• DNA satélite
Sequencias repetitivas
• DNA repetitivo – pode contar mais de 50% do genoma humano;
• DNA satellite – conteúdo variável de G+C; • Repetições em tandem/dispersos;
• SINEs –short interspersed elements
– Alu family – 200 ~300 pb x 105 s copias;
Sequencias repetitivas
• LINEs (long interspersed elements)
– LI family – 6400 pb x 10.000 copias
• NORs (nucleolus organizer regions)
– 18S & 28S r DNA gene clusters
• VNTRs (variable number of tandem repeats)
Transposable elements
Classes: I & II • Class I TEs: Retrotransposons
– Transpose through a “copy & paste” mechanism – Generally do not insert inside genes
– LTR retrotransposons:
• have LTRs (long terminal repeats) and TSD (target site duplication)
Transposable elements
Classes: I & II • Class II TEs: DNA transposons
– Transpose through a “cut & paste” mechanism – Insert close to, or inside, genes
– Have TIRs (terminal inverted repeats) and TSD (target site duplication)
– Leave “footprints” after excision
– Transposase required for transposition
• If TE codes for transposase: Autonomous element • If not: Non-autonomous element
Other transposable elements
• Helitrons
– Transpose through a rolling circle-like mechanism – Have CT .. AC as conserved sequences
– Have palindromic sequences that form a secondary structure (loop) that signals end of transcription
– Mutations in loop-forming sequences allow for Helitrons to “pick up” genes or gene fragments
– Can code for a helicase domain
• Pack-MULEs
– Mutator-like elements
Simple Sequence Repeats
• Sequências curtas que são repetidas em em cópias idênticas ou relacionadas no genoma; • DNA satélite – diferente conc. de G +C;
• Microsatélites – di –hexanucleotídeos repetidos em tandem;
Cinética de reassociação do DNA
• Aumento do genoma = aumento do número de genes? • Método de desnaturação de DNA dupla-fita (calor a 100
oC);
• Mede-se a absorbância a 260 nm (ssDNA absorve 40% mais a 260 nm)
• Aquecimento lento –absorbancia aumenta dramaticamente entre dois pontos de temperatura (Tm=melting
temperature); • Conteúdo de GC – influencia a Tm • %GC Tm • 40 87 oC • 60 95 oC • Renaturação (hibridização)
Cinética de reassociação do DNA
• Natureza do genoma – avaliado pelo inverso do processo de desnaturação • dC/dt = -kC2
– C = concentração de DNA que é fita simples no
tempo t e k é a constante de reassociação Cot value= O produto de Co e t, dando um
índice útil de renaturação do DNA
C0t ½ = 1/k (concentração x tempo de metade da reação)
Cinética de reassociação do DNA
• Componente rápido (25% do DNA, valor de Cot ½ de 0,0013 e frequência de 500.000.
• Componente intermediário (30% do DNA, valor de Cot ½ de 1,9 e frequência de 350. • Componente lento (45% do DNA, valor de
Frações do genoma refletem a
paisagem genômica
• Componente rápido – elementos repetitivos em grande número
• Componente médio – elementos presentes em menor número de cópias, mas ainda repetitivos; famílias gênicas
Complexidade de genomas
• C0 do DNA é 12 pg
– 3000 de cada sequência em uma bactéria com genoma de 0,004 pg;
– 4 copias de cada sequência de um genoma eucarioto de 3 pg;
– O mesmo C0 promoverá uma concentração de
3000/4 = 750 x menor do que cada sequência bacteriana.
Um novo conceito
• Fração conservada x fração variável –
baseado na idéia de que genes e elementos repetitivos estão sobre pressões de seleção diferenciados
Hibridação cruzada de sondas
(fração conservada do genoma)
Grasses as a unique genetic system
Trends in Genetics, 1993
Jinsheng Lai et al. Genome Res. 2004; 14: 1924-1931
Figure 1 Graphic representation of the alignment, position, and polarity of all predicted genes within the selected chromosomal intervals of maize, sorghum, and rice
Retrotransposons e outros
elementos repetitivos (fração não
conservada)
• Dez dos 20 elementos estavam inseridos dentro de outro retroelemento e cinco destes estavam
inseridos dentro de LTRs.
• Natureza interdispersa, grande número de
cópias,presença ao redor da maioria dos genes de
milho - sugere que este é o padrão de organização
Retrotransposon Invasion of the Maize
adh1 Region
Retrotransposon Invasion of the Maize
adh1 Region Science:274,765 Opie-Opie-11 Ji-Ji-11 Grande-Grande-zm1zm1 Ji-Ji- 66 Huck-Huck-11 Cinful-2 Cinful-2 Ji-Ji-5solo5solo Ji-Ji-44 Opie-Opie- 33
Ji-Ji-2solo2solo Ji-Ji-33
Opie-Opie-22 Milt Milt Huck-Huck-22 Reina Reina Cinful-1 Cinful-1 Opie-Opie- 44 10 kb 10 kb adh1-F adh1-F 8 8 Kake-Kake-11 Victim Victim Rle Rle 2 2 44 1 1 33 55 66 77 99 Tekay Tekay Fourf Fourf LINE LINE LINE LINE LINE LINE 2 2
Kake-Sintenia x ausência de sintenia (comparação entre espécies) Modelo de similaridades entre gramíneas incluem a
natureza, tamanho, posição e orientação de genes (Bennetzen, 1997)
A B CH3 CH3 CH3 CH3 CH3 a a b b b c c d d
a b a b b
A B
A composição e organização de segmentos intergênicos nas gramíneas (Bennetzen, 1997)
Conclusões (SanMiguel et al., 1996)
• Genomas complexos de animais e
plantas(tais como o humano e o do milho) apresentam retroelementos como a sua
principal classe de DNA repetitivo interdisperso.
O paradoxo do valor C
• C-value – A quantidade total de genoma haplóide de cada espécie;
• Conflito entre aumento do tamanho do genoma e sua complexidade .
• Sequências simples – repetitivas
Filo Espécie Genoma (bp) Algas P. salina 6.6 x 105 Mycoplasma M. Pneumoniae 1.0 x 106 Bacterias E. coli 4,2 x 106 Musgo D. discoideum 5,4 x 107 Nematoides C. elegans 8,0 x 107 Insetos D. melanogaster 1,4 x 108 Pássaros G. domesticus 1.2 x 109 Anfíbios X. laevis 3,1 x 109 Mamíferos H. sapiens 3,3 x 109 Gramíneas O. sativa 4,0 x 108 Gramíneas T. aestivum 16 x 109 Gramíneas Z. mays 3,0 x 109
Wheat Corn Grass Rice
Uma pequena porção do genoma é
composto por genes
Potato Canola Tomato Soy Moss Arabidopsis Human Espaco gênico DNA repetitivo
Tamanho de Genomas vs.
Número de genes
Obesidade Genômica
• Aumento irreversível do tamanho dos genomas?
Modelo de integração e recombinação gerando o elemento Sabrina LTR-2 - LTR-3 (Shirasu et al., 2000)
LTR-2 LTR-3
Figure 4 Possible integration and recombination events gen-erating Sabrina unit LTR-2 — LTR-3. Two Sabrina elements are shown in dark and bright gray with the arrows denoting the LTRs. Nonelement DNA is in black with the ovals representing 5-bp direct repeats flanking Sabrina LTR-2 and LTR-3. The broken ar-row line shows a deduced intraelement recombination event; dotted lines indicate corresponding positions; thin black lines denote a nested Sabrina insertion.
Genoma de eucariotos
• Número e tipos de genes em um genoma • Identificação potencial de ORFs –
complicado pela presença de introns (várias ORFs em um gene);
• Estimativa do número de genes por sua expressão em RNA (ESTs) ou proteína;
Organização de sequências de cópias
simples
• Short period interspersion – sequencias de 300 -1200 pb aparecem como ilhas entre sequencias curtas repetitivas;
• Long period interspersion – cópias de
sequencias de 2-6 kpb aparecem como ilhas entre sequencias repetitivas.
Exons e introns
• 1977 – genes eucarioticos podem ser interrompidos;
• Gene estrutural é muito maior do que a sequência representada no mRNA;
• EXONS – sequências representadas no mRNA maduro;
• INTRONS – sequências intervenientes que são removidas quando o transcrito primário é
Exons e introns
• Gene estrutural – região entre os pontos
correspondendo as bases terminais 5’e 3’do mRNA maduro.
• Gene estrutural – uma unidade de
transcrição incluindo regiões regulatórias associadas: um promotor, outras regiões regulatórias upstream, o gene e um
Exon shuffling
• Exon shuffling hypothesis (Gilbert 1977);
– Crossing over ocorre em posições aleatórias, mas homólogas em uma frequência que depende do
comprimento do DNA. Como exons ocupam 1% do GH, e introns 24%, a maioria dos CO ocorre entre exons e não dentro deles.
• Exons as protein domains;
• Exon recombination via transposable elements;
• Pseudogenes –um gene inativo que se originou de um gene ativo. Originam-se por duplicação e
Exons e introns
• Ordem das partes é mantida ( genes são partidos e não dispersos);
• Um gene interrompido retém a mesma
estrutura em todos os tecidos, sendo ou não expresso;
• Introns de genes nucleares geralmente tem codons de terminação e não tem função
Exons e introns
• Genes muito longos são resultado de introns muito longos e não codificam para longos produtos;
• Não há correlação entre tamanho do gene e número de exons;
• Em mamíferos, insetos e pássaros o gene em média é ~5x o tamanho do seu mRNA.
Genes podem ser isolados pela
conservação dos exons
• Uma região contendo um gene com função conservada entre espécies deve ter:
– 1) deve possuir uma ORF;
– 2) provavelmente tem sequências relacionadas em outras espécies
Uma sequência de DNA =
múltiplas proteínas?
• Mutações em diferentes exons de um gene falham em complementar uma a outra;
• Mutações em introns que afetam
processamento comportam-se como do mesmo grupo
• Alternative splicing = processamento alternativo
Analise em larga escala de isoformas proteicas indica que o splicing alternativo tende a inserir ou deletar dominios proteicos completos mais frequentemente do que o esperado
Número de genes
• Precisamos definir a densidade de genes; • S. cereviseae
– Average ORF = ~1,4 kb
– Espaço médio entre genes = ~600 pb
– ~70% das regiões seqûenciadas são ocupadas por ORFs
– Genoma/comprimento de um gene = número de genes
Número de genes
• Famílias gênicas – Um grupo de genes
descendendo por por duplicação e variação de um mesmo gene ancestral;
• Superfamília – uma relação expressa na forma de uma organização geral comum entre genes cuja função não é aparentemente relacionada
(imunoglobulinas como parte de uma superfamília envolvendo moléculas de adesão celular);