• Nenhum resultado encontrado

FUNDAMENTOS DA CRIPTOANÁLISE CLÁSSICA 3.0 – Criptografia Tática e Criptografia Estratégica

No documento Criptografia Classica e Moderna (páginas 65-87)

De acordo com Sgarro, o objetivo da criptografia tática é o de manter indecifradas as mensagens por um curto período, apenas o suficiente para que ocorram fatos as curto prazo. Neste caso, mesmo que sejam decifradas, e desde que não o sejam rapidamente, as mensagens terão valor apenas tático e imediato, sem valor para o presente e o futuro. A criptografia tática tem, então, valor apenas imediato.

Já a criptografia estratégica deve garantir o segredo das mensagens cifradas por um período extenso, o maior possível. Se as chaves desse tipo de criptografia são quebradas pelo inimigo, isto trará conseqüências e prejuízos irreparáveis. Dessa maneira, a criptografia estratégica tem maior atenção tanto do criptógrafo quanto do criptoanalista.

Atualmente, a criptografia estratégica não abrange apenas os campos político e militar, pois invadiu outras áreas, comerciais, industriais, de pesquisa, etc., mas cuja importância estratégica exige que sejam usados métodos seguros de criptografia.

O famoso criptólogo holandês do século XIX, Auguste Kerckhoffs von Nieuwenhof (1835-1903), emitiu um importante princípio até hoje seguido:

A segurança de um sistema estratégico é confiada inteiramente, ou pelo menos essencialmente, ao segredo da chave.101

Ou seja, se o inimigo descobre o método de cifragem, isto não garante que a chave possa ser descoberta.102

Para Kerckhoffs, a segurança do sistema repousa no sistema de chaves, e ele diz que os amadores tendem a crer que um número muito grande de chaves aumenta esta segurança.103

De todo modo, os sistemas criptográficos devem repousar, com toda certeza, na segurança da chave, que, no caso de chave fixa, é a menos segura.104

Quanto ao criptoanalista, a sua tarefa é exatamente esta: quebrar a chave e decifrar a mensagem.105 Para isto, ele dispõe dos métodos oferecidos pela ciência.

3.1 – A Lingüística e a Teoria da Informação

A linguagem escrita, em qualquer idioma moderno, repousa em um conjunto de caracteres que constituem o alfabeto desta língua.

101 Kerckhoffs é autor da obra sobre criptografia militar, La Criptographie Militaire.

102 Quando o inimigo consegue se apoderar de uma máquina de cifragem, esta tática facilita em muito a

descoberta das chaves utilizadas.

103 Ele afirmava que apenas os especialistas podem opinar acerca da segurança de um sistema de

criptografia. Entretanto, mesmo os profissionais podem ser vítimas de ilusão: o século XIX mostrou uma intensa rivalidade entre criptólogos – o próprio Kerckhoffs, os franceses Étienne Bazeries e Gaëtan de Viaris – que quebravam mutuamente os códigos “inquebráveis” dos rivais.

104 Os cifrários de chave fixa são denominados cifrários degenerados.

105 Se o criptoanalista dispõe tanto da mensagem quanto do criptograma, e quer compreender qual foi o

cifrário e qual a chave utilizados, esta situação é chamada de ataque com texto claro. Na verdade, este é o método que os lingüistas utilizam para a decifração das línguas mortas.

A linguagem escrita pode ser dividida (de um modo simplificado) em sistema incompleto e sistema completo.

Sistema incompleto: é caracterizado pela linguagem chamada pictórica,

pictográfica ou hieroglífica. Nele, as idéias são simbolizadas por cenas ou figuras estilizadas, e não tem nenhuma relação com a linguagem oral. Os caracteres representam, em sua maior, parte, os sons distintos.

Sistema completo: classifica as linguagens em três tipos: ideográfica; silábica;

alfabético/fonética ou alfabético/fonológica.

• Ideográfica: em que se usam ideogramas que representam coisas ou idéias completas. É escrita com centenas ou milhares de caracteres (cerca de cinco mil, no idioma chinês básico);

• Silábica: sistema de escrita no qual cada símbolo é a combinação de sons de consoantes e vogais que representam uma sílaba (silabismo). Escritas silábicas costumam ter entre 50 a 100 caracteres silábicos.

• Alfabético/fonética: em que se busca uma aproximação entre um signo e um som (característica dos idiomas modernos);

• Alfabético/fonológica: em que há uma estrita correspondência entre o signo e o som. Está mais próxima da linguagem oral, em qualquer idioma.

Escritas puramente alfabéticas costumam ter entre 20 e 40 caracteres (o idioma russo tem 36; o idioma arábico tem 28).

De acordo com Berlitz106, existem cerca de 400 sistemas de escrita no mundo, antigos e modernos, e os alfabetos, incluindo as variações de letras, baseiam-se, em média, em 28 sinais em caracteres latinos, cirílicos, hebraicos, gregos, romanos, etc (não consideradas as escritas cursivas, como o árabe, por exemplo).

No alfabeto japonês, a escrita é formada em parte com caracteres ou ideogramas chineses (a escrita kanji), em parte com uma escrita silábica simplificada chamada escrita hiragana (usada em terminações verbais e quando os caracteres chineses não são empregados) e um escrita angulosa, o alfabeto silábico katakana, usado para escrever palavras e nomes estrangeiros.

No alfabeto coreano, os ideogramas chineses foram substituídos por um alfabeto silábico simplificado, constituído de 14 consoantes e dez vogais.

O idioma chinês é escrito atualmente com cerca de seis mil caracteres ou ideogramas;107 embora haja várias línguas faladas (entre elas o mandarim e o cantonês), elas são mutuamente compreensíveis através da linguagem escrita. Nessa, cada sílaba pode ter quatro tons, sendo que algumas delas podem ter 50 significados diferentes. Além disso, uma mesma pronúncia pode corresponder a caracteres ideográficos (escritos) diferentes, que conduzem a idéias diferentes.

3.1.1 – Significante e Significado

Um texto literário em qualquer idioma constitui um conjunto de signos e relações entre signos, que lhe dão um significado. O texto, redigido conforme um conjunto de regras de gramática e de sintaxe, possui uma estrutura significante, ou seja, o texto deve fazer sentido, para o leitor.108 Assim, além das características

106 BERLITZ, 1988, p. 112.

107 Na época das grandes dinastias, os caracteres da língua chinesa somavam cerca de 50 mil ideogramas. 108 Mesmo textos tão densos e inextricáveis como as obras de James Joyce (Ulisses e Finnegans Wake),

“construtivas”, o texto (pelo menos o texto literário) deve possuir, necessariamente um significado.

A criptoanálise tem por objetivo decifrar um texto cifrado cuja mensagem original, ou mensagem clara, repousa em um idioma falado, que, por sua vez, tem uma correspondência com signos escritos que possuem significado.

Isto significa que, uma vez decifrado o código, a mensagem pode ser lida, sem qualquer problema de interpretação, pelo destinatário (ou seja, a mensagem faz sentido, porque possui um significado, para o seu destinatário legítimo).

Por outro lado, o texto ou mensagem cifrada, não deve fazer sentido para quem não pode decodificá-lo. Mas aquele que a intercepta, naturalmente, tem todo interesse em realizar a sua leitura, para o que apelará para todos os recursos disponíveis.

Este recursos, atualmente, são oferecidos pela Teoria da Informação, pela Linguistica, pela Informática, pela Lógica, etc.

De acordo com Kondratov,

... a teoria da informação permite encontrar a quantidade de informação contida em mensagens compostas de sinais de códigos tão equiprováveis quanto de probabilidades diferentes. Toda língua constitui exatamente um ‘código de probabilidades’.109

Em qualquer idioma, existem consoantes e vogais110 formativas das palavras, e as estruturas rígidas do idioma obrigam a que tais signos se sucedam conforme uma ordem necessária, que resulta da formação histórica do idioma. Assim, a maioria das palavras possui sufixos em abundância, de duas (dígrafos ou digramas), três (trígrafos ou trigramas) ou mesmo quatro letras (quadrígrafo ou quadrigrama).

É esta característica que permite a formação de tabelas de freqüências de letras e n-gramas dos idiomas mais conhecidos (e até dos menos falados).111

3.1.2 – Tabelas de Frequências

A seguir, serão mostradas as tabelas estatísticas das letras mais freqüentes, digramas, trigramas, letra individual mais freqüente e percentual de vogais de alguns dos idiomas mais falados no mundo:112

possa ser decodificado em uma leitura, ainda que essa leitura seja “difícil”. É evidente que a “leitura” depende do nível de educação do leitor, e de sua capacidade de semanálise (cf. Julia Kristeva).

109 KONDRATOV, 1972, p. 39.

110 Nos idiomas em que as vogais não costumam ser escritas, não significa que elas não existam. No

hebraico moderno, por exemplo, costuma-se acrescentar sinais diacríticos chamados sinais massoréticos (ou Nekudot – niqqud, no singular) para indicar a sua pronúncia.

111 Uma das fontes mais conhecidas e utilizadas para pesquisas, do idioma inglês (e cuja metodologia

serviu de base para pesquisa de outros idiomas), é o chamado Corpus Brown, elaborado pela Universidade Brown, dos EUA. Ver: http://en.wikipedia.org/wiki/Brown_Corpus [Corpus: uma vasta coleção de obras literárias em vários gêneros e estilos, cujo conteúdo (as palavras utilizadas) sejam representativas do idioma inglês].

112 A Estatística Lingüística foi uma das novas ciências que veio em socorro dos criptoanalistas, os quais

se servem generosamente das tabelas de distribuição estatística. Nas tabelas, os digramas e trigramas não estão em ordem de frequência.

Inglês:

E T A O I N S R H L D C U M F P G W Y B V K X J Q Z

Digramas: AN AS AT BE BY CH DO EA ED EE EN ES ER GH GU HE IF IN IS IT ME MY NT OF OO ON OR OW PH QU RE SH SO ST TO TH TT UP WE WH

Trigramas: AND FOR ENT EST FOR HAS HIS ION NDE THE THA TIO Letra mais frequente: E (12%)

Percentual das vogais: 40% Índice de frequência das letras:113

O gráfico a seguir mostra a distribuição de freqüências de letras do idioma inglês. As letras mais freqüentes são a letra e, t, a, o, n, i e as letras menos freqüentes, as letras z, j, q, x.

Francês:

E N A S R I U T O L D C M P V F B G X H Q Y Z J K W

Digramas: ES EN OU DE NT TE ON SE AI IT LE ET ME ER EM GN LL EU QU GU

Trigramas: AIT AIS ANS ANT AUX ENT EAU ION LES ONT OUR OUS QUE TIO

Quadrigrama: EAUX

Letra mais frequente: E (16%) Percentual das vogais: 45% Índice de frequência das letras:

Texto em Francês:

La Française des Jeux a créé sa propre équipe cycliste en 1997. L'entreprise souhaitait augmenter sa légitimité dans le milieu sportif en complétant l'action de sa fondation d'entreprise et en devenant gestionnaire d'un projet sportif de tout premier plan. La Française des Jeux fait aujourd'hui figure de sponsor engagé, très impliqué dans la gestion de l'équipe et dans la lutte anti-dopage.

Espanhol:

E A O S R I N L D C T U P M Y Q G V H F B J Z K W X

Digramas: AD AL AR AS CH CO DE EN EL ES ER LA LL ON OR OS RA RE ST RR TA UE

Trigramas: ADO AQU ARA CIO DEL EDE EST IST NTE NEI OSA PER QUE SDE Letra mais frequente: E (13%)

Percentual das vogais: 47%

Alemão:

E N R I S T U D A H G L O C M B Z F W K V P J Q X Y

Digramas: ÄU BE CH DE DI EI EL EN ER EU GE IE NE ST TE UM Trigramas: CHE CHT DIE DEN DER EIN GEN ICH SCH TEN UND UNG

Letra mais frequente: E (18%) Percentual das vogais: 40%

Texto em Alemão:

Der Telekommunikationssatellit Astra K1 ist am Dienstag nach seinem Start mit einer russischen Rakete außer Kontrolle geraten. Er habe seine geplante Umlaufbahn nicht erreicht und werde sie nie erreichen, sagte ein Sprecher der russischen Raumfahrtbehörde. Der Satellit werde nun nutzlos im All kreisen, bis er wieder auf die Erde zurückfalle.

Italiano:

E I A O R L N T S C D P U M G V H Z B F Q J K W X Y

Digramas: AL AN CH DE DI EL EN ER ES GH GN GL NT ON RA RE SC SI TI Trigramas: ARI ATO CHE DEL ECO EDI ERE EST IDE QUE ZIO

Letras mais frequentes: E A (11% cada uma) Percentual das vogais: 48%

Texto em Italiano:

Abbiamo cercato di venire incontro in modo unitario ed equo, alle richieste per una piena unione che ci sono state sottoposte da parte di fedeli già anglicani provenienti da varie parti del mondo negli anni recenti», ha detto Levada. «Con tale proposta la Chiesa intende rispondere alle legittime aspirazioni di questi gruppi anglicani per una comunione piena e visibile con il Vescovo di Roma, il successore di san Pietro». «L’annuncio di questa costituzione apostolica pone fine ad un periodo di incertezza per questi gruppi che hanno nutrito speranze di nuove vie per abbracciare l’unità con la Chiesa cattolica. Português:114 A E O S R I N D T M U C P L G Q V B H F X Z J Digramas: BL BM BN BR BS BT CH CN CR CT FR FT GL GM GN GR GU LH MB MP NÇ NH ND NT NS NV OB OU PL PR PT QU RR RT SC SG SÇ SP SS ST TR XC XP XT

Digramas nasais: AM AN EM EN IM IN OM ON UM UN ÃO ÔE

Trigramas: ABS AÇO ADA ADO AVA BST ÇÃO CIA DST EMA EDO EXT FAZ GUI ICA ICO IÇO ADE EDO IDO ITE IVA ODO OSO ÕES NSC NST NSP NGU OCA UDO ULA ULO UNA

Quadrigramas: ANÇA ANDO ANTE ARIO CULO DADE EIRA EIRO ENTE ENTO IÇÃO INHA

Letra mais freqüente: A (11%) Percentual das vogais: 40% Indice de frequência das letras: 115

114 Não estão incluídas as freqüências das letras K, W e Y, de introdução (oficial) muito recente no

idioma. Análises de freqüências de letras de textos (pequenos) em português podem ser feitas com o Processador Lingüístico de Corpus encontrável em : http://linguistica.insite.com.br/corpus.php. Igualmente, em: http://www.richkni.co.uk/php/crypta/freq.php.

De acordo com Cherry,

As estatísticas de línguas tem sido da maior improtância há séculos, especialmente para o propósito de auxiliar a decifração de códigos secretos e criptogramas, para satisfazer necessidades militares e diplomáticas. A primeira tabela de freqüências de letras a ser publicada foi provavelmente a de Sicco Simonetta, de Milão, no ano de 1380; outra, usada por Porta em 1658, incluía digramas também (pares de letras, tais como ed, st, tr).116

O conhecimento das tabelas de freqüências permite identificar facilmente qual idioma foi utilizado em um determinado criptograma.117 Por exemplo, no texto cifrado:

ASURULTREAEEUETNQHTNMARNCTTRLYNUEEEIQETOEAENOMTEC a análise de frequência permite deduzir, pela distribuição estatística das letras, que se trata do idioma francês. (Cf. Moles).

3.1.3 – A Redundância e Outras Características dos Idiomas

Os idiomas (modernos) são formados por letras (vogais ou consoantes), estruturadas em forma de palavras, as quais também formam outras estruturas, as sentenças (ou, como são também chamadas, enunciados ou sintagmas118).

Em razão das regras sintáticas, as consoantes e as vogais formam relações (ou “coerções”119) que determinam um tipo de comportamento sintático, que permite prever,

115 Os índices numéricos aqui apresentados podem ter alguma variação, quando comparados com outros

índices; isto depende do Corpus utilizado, entre outras coisas.

116 CHERRY, 1971, p. 71.

117 Isso se ele (o criptograma) foi formado utilizando o sistema de transposição de letras.

118 Sintagma é uma seqüência de elementos lingüísticos unidos por uma relaçào que decorre do caráter

linear da língua, em virtude do qual um termo adquire valor opondo-se ao termo que o precede ou que o segue, ou a ambos. A noção de sintagma aplica-se não só às palavras, mas aos grupos de palavras, às unidades complexas de qualquer dimensão e qualquer espécie ou seqüência de palavras que constituam uma unidade: palavras compostas, derivadas, membros de frases ou frases inteiras. (Cf. Saussure).

em certa medida, letras ou palavras em sucessão a um grupo dado de signos (grupos sintáticos tais como dígrafos, trígrafos, etc.). As “coerções” também determinam, dentro de um texto, a extensão das palavras, a proporção das vogais, a proporção das consoantes, a quantidade de palavras e espaços em sentenças ou parágrafos, etc.

Esta propriedade do idioma é conhecida pelo nome de redundância. Conforme diz Pignatari,

Por sua própria natureza, a comunicação é uma espécie de processo variável e estatístico condicionado pela interdependência dos sinais, ou seja, pelas normas e regras que os relacionam e que decidem sobre o seu grau de informação. As regras sintáticas introduzem redundância na mensagem, a fim de que a sua recepção correta fique melhor amparada. São essas leis ou normas que dão estrutura ao sistema, de modo a permitir previsões de comportamento ou de ocorrência de sinais. Por exemplo: por que não se base à porta menos de duas vezes? Justamente para neutralizar o ruído ambiente, evitar a ambigüidade e garantir a efetiva transmissão da mensagem. A redundância pode ser entendida simplesmente como repetição; é causada por um excesso de regras que confere à comunicação um certo coeficiente de segurança, ou seja, comunica a mesma informação mais do que uma única vez e, eventualmente, de modos diferentes. De outro lado, quanto maior a redundância, maior a previsibilidade, isto é, sinal redundante é sinal previsível.120

De acordo com Colin Cherry,

A redundância pode ser considerada em dois níveis, o sintático e o semântico. A redundância sintática implica adições a um texto; algo mais é dito ou escrito do que o estritamente necessário para comunicar uma mensagem.121

A redundância sintática geralmente é a responsável pela quebra de códigos. Por exemplo, a quebra do código gerado pela máquina Enigma, na Segunda Guerra Mundial, deveu-se, em parte, ao uso abusivo de chaves óbvias (chamadas cílios); às redundâncias no texto (tais como as iniciais do operador no início da mensagem); ao uso de cumprimentos desnecessários; etc. (Cf. Singh).122

3.1.4 – A Reconstituição de Palavras e Textos

A redundância permite reconstituir uma palavra degenerada (à qual faltam algumas letras), pela análise de sua forma. Eis alguns exemplos:

120 PIGNATARI, 1969, p. 55.

121 CHERRY, 1971, p. 188. A redundância semântica ocorre quando o conteúdo das palavras

constituintes nucleares se repete no significado das palavras constituintes secundárias, trazendo como conseqüência frases tautológicas (ex: isto está errado, porque não pode estar certo).

122 De um modo geral, o fenômeno sintático da redundância permite quebrar a maioria dos códigos e

A palavra T CN CA permite razoavelmente supor que as letras faltantes sejam É e I: TÉCNICA.

A palavra POL T CA, da mesma forma, permite reconstituir a palavra: POLÍTICA.123

______________________________________________________________________ Mas não é apenas o aspecto da redundância que permite recuperar palavras (aparentemente) sem sentido. Mesmo em textos longos e embaralhados, a mente consegue fazer maravilhas. Vejam-se os exemplos a seguir.

De aorcdo com uma peqsiusa de uma uinrvesriddae ignlsea, não ipomtra em qaul odrem as lteras de uma plravaa etãso, a úncia csioa iprotmatne é que a piremria e

útmlia teras etejasm no lgaur crteo. O rseto pdoe ser uma bçguana ttaol, que vcoê anida pdoe ler sem pobrlmea. Itso é poqrue nós não lmeos cdaa ltera isladoa, mas a

plravaa cmoo um tdoo.

35T3 P3QU3N0 T3XTO 53RV3 4P3N45 P4R4 M05TR4R COMO NO554 C4B3Ç4 CONS3GU3 F4Z3R CO1545 1MPR3551ON4ANT35! R3P4R3 N155O! NO COM3ÇO 35T4V4 M310 COMPL1C4DO, M45 N3ST4 L1NH4 SU4 M3NT3 V41 D3C1FR4NDO O CÓD1GO QU453

4UTOM4T1C4M3NT3, S3M PR3C1S4R P3N54R MU1TO, C3RTO?124

______________________________________________________________________ Sob outro aspecto, a redundância também ajuda a reconstituir palavras cuja formação sofre o efeito de severas regras gramaticais.

Por exemplo (em português), o grupo QU é invariavelmente seguido pela letra E (QUE); as letras N e H costumam se juntar, em um dígrafo nasal (NH); as letras P e B são sempre antecedidas por M; e antes de T e D não vai M e sim, N (NT e ND).

De acordo com Moles,125

... a informação, a originalidade máxima, é transportada por mensagens, das quais todos os n símbolos têm probabilidades iguais pi = p. É a distribuição igual das probabilidades que fornece com

efeito o máximo de escolha. Se numa caixa tipográfica, a letra W apresenta uma probabilidade de ocorrência pw muito fraca e, portanto,

nos informa de muitas coisas por sua presença, é unicamente porque, em detrimento seu, há letras bem mais freqüentes; a letra e, por exemplo, ao contráfio, nos fornecerá muito poucas informações sobre uma particularidade qualquer da mensagem. Os criptógrafos sabem

123 A falta das vogais não é tão prejudicial para a recomposição das palavras quanto a falta das consoantes

(por exemplo, a sequencia O I I A não lembra, necessariamente, a palavra POLÍTICA).

124 Textos retirados da Intenet.

125 O trecho a ser citado é extremamente importante para a criptografia, e por isto será transcrito in

muito bem que, se a presença de w numa mensagem cifrada (sem transposição das letras ou após redução dessa transposição), indica com relativa segurança em francês a presença de uma palavra estrangeira, restringe-se notavelmente, por conseguinte, o campo das pesquisas: isso não é verdade senão para um símbolo e tal vantagem é destruída pela presença de grande número de letras e, s, a, etc, das quais é preciso encontrar um número bem maior numa situação determinada, antes de aprender algo de positivo sobre a mensagem (...).

Assim, sendo todas as coisas iguais, a mensagem mais original é e redigida num sistema tal que todos os símbolos são equiprováveis e onde:

p aí sendo então precisamente igual a I/n, constante aproximada,

H =

– log2 I/n

A medida fundamental da teoria da informação nos apresenta pois um ideal do rendimento de informação com um número limitado de símbolos: aquele em que há distribuição igual das ocorrências dos símbolos (eqüiprobabilidade), que dá o máximo de escolha possível na confecção da seqüência de elementos constituindo a mensagem.126

Shannon, (...) chamou entropia máxima a esse máximo de informação obtido com símbolos equiprováveis, fornecendo o melhor rendimento do grupo de símbolos utilizados e, desse fato, fazendo “render” os símbolos ao “máximo”. (...).

Na prática, pelo menos na quase totalidade das mensagens escritas, (...), os símbolos utilizados não são equiprováveis, os pi são muito

diferentes; assim, a letra w é quarenta vezes menos provável em francês que a letra e ou o intervalo127, etc. Seja H1 a informação

No documento Criptografia Classica e Moderna (páginas 65-87)