Aula7 parte2

(1)

Natureza da Informação

Profª Ana Carolina Lorena

Bacharelado em Ciência e Tecnologia Universidade Federal do ABC

Outubro 2010

(2)

Informação



Queremos expressar a informação (ou falta

dela) a respeito da escolha de um símbolo

 Antes da seleção ser feita? Ou de sabermos a

resposta?

 Temos incerteza

(3)

Informação

 Sabendo a resposta, a informação pode ser

contada a outro especificando o símbolo escolhido

 Se há dois símbolos possíveis ⇒ um bit pode ser usado

para tal

 Ex.: cara ou coroa em jogada de moeda

 1 bit é a quantidade de informação necessária para tomar uma

decisão perante duas opções igualmente prováveis

 Se há quatro possíveis eventos ⇒ resposta pode ser

expressa por dois bits

 Ex.: naipes de carta pega de um baralho

 Se há n possíveis respostas ⇒ são necessários log

(4)

Informação



Quantidade de informação aprendida ao

conhecer o resultado é o número mínimo de

bits que seriam usados para especificar (nos

contar) o símbolo

(5)

Exemplo



Classe de 32 alunos: 2 mulheres e 30

homens

 Um aluno é escolhido

 Objetivo é saber qual

 Incerteza inicial é de 5 bits

 Necessário para especificar o resultado

 Escolha aleatória ⇒ probabilidade de cada um

ser selecionado é 1/32  Mulher: p(M) = 2/32

(6)

Exemplo



Classe de 32 alunos: 2 mulheres e 30

homens

 Quanta informação ganhamos sabendo que a

escolha é de uma mulher, sem saber qual?  Incerteza é diminuída de 5 bits para 1 bit

 Necessário para especificar qual das duas mulheres  Ganhamos 4 bits de informação!

 E se for homem?

 Reduz incerteza de 5 a 4,91 bits (log₂30)  Aprendemos 0,09 bits de informação

(7)

Informação



E uma partição em que os eventos têm

probabilidades diferentes?

 Aprendemos diferentes quantidades de

informação

 Se resultado era provável, aprendemos menos do que

se ele era improvável

 Informação ganha por uma resposta i é log₂(1 / p(A_i))

 = - log₂(p(A_i))

 Ex.: Informação ganha sabendo que é mulher

(8)



Numa seqüência binária, se todos são um, não

há informação

 Ex: 1111111111



Mas se o número 1 aparece 10% das vezes, ele

possui -log

₂

(1/10) de informação ou:

–log₂(p) = -log₂(0,1) = log₂(10) = 3,3219 bits



Enquanto que o número 0 possui:

–log₂(p) = -log₂(0,9) = log₂(10/9) = 0,152bits

Uma interpretação da fórmula:

(9)



Então, quanta informação temos nesta

mensagem?

0000010000

A entropia ou informação total da mensagem

seria:

Htotal=9x(informação do zero)+1x(informação do 1)=

=9x0,152+1x3,321= 4,6890 bits ao invés de 10 bits

Poderia pensar que como temos 10 dígitos, teríamos 10 bits de informação, mas na verdade cada 0 vale 0,152bits porque tem pouca incerteza

(imprevisibilidade ou surpresa),

(10)

Informação



Se queremos quantificar nossa incerteza

antes de saber uma resposta

 Média sobre todos os possíveis resultados

 Todos eventos na partição com probabilidade não nula

 Informação média:

 Soma da multiplicação da informação de cada evento A_i

por p(A_i)

H = - Σ p(A_i) log₂(p(A_i))

Entropia de uma fonte

(11)

Informação



Atenção

: cuidado quando probabilidade de

um evento é 0

 Considerar que na realidade é valor bem

pequeno, mas não nulo

(12)



Ex.: Informação contida na jogada de uma moeda

alterada para cair 60% das vezes em cara e 40%

em coroa

 Observar que a soma das duas probabilidades é 1

(0,6+0,4=1)

12

bits

H

=

−

0 ,

6 log

₂

(

0 ,

6 )

−

(

0 ,

4 )

log

₂

(

0 ,

4 )

=

0 ,

97

(13)

Propriedades de Informação



É conveniente pensar em informação como

quantidade física com dimensões

 Ex. como velocidade: tamanho/tempo (m/s)

 Menos natural, uma vez que probabilidades não

possuem dimensão

 Mas fórmula usa log₂

 Informação em log de base 2 é expressa em bits

 Poderia usar outras bases

(14)

Propriedades da informação

 Se há dois eventos na partição com probabilidades p e

(1-p), a informação por símbolo é:

 H = - p log₂(p) - (1-p) log₂(1-p)

Entropia de uma fonte com 2 símbolos como função de p

Entropia (Shannon):

É maior (1 bit) quando p = 0,5

(probabilidade dos dois eventos é igual) É 0 para p = 0 e p =1 (nestes casos,

resposta é certa e nenhuma informação é ganha conhecendo-a)

(15)

Propriedades da informação

• Ex.: moeda

p(cara) + p(coroa) = 1

)) ( 1 ( log )) ( 1 (( )) ( ( log ) ( )) ( ( log ) ( )) ( ( log ) ( 2 2 2 2 cara p cara p cara p cara p coroa p coroa p cara p cara p H − − − − = − − =

Quando ambas possibilidades têm a mesma probabilidade de acontecer,

p(cara) = p(coroa) = 0,5 e a entropia ou imprevisibilidade é máxima, e igual

(16)

Propriedades da informação



Para partições com mais de dois eventos, a

informação por símbolo pode ser maior

 Se há n possíveis eventos, a informação por

símbolo situa-se entre 0 e log₂n bits

 Valor máximo H = log₂(n) quando todas as

probabilidades são iguais

( )

n

p

H

i

n

p

i i i 2 2 2

log

1 log

,

/

1 =

























−

=

−

=

∀

=

∑

(17)

Exemplo

Bom dia

Bom dia 

Ele diz bom dia todo dia

 Há apenas um estado possível  0 bit, não há informação

 Entropia = 0

 Não precisamos transmitir nada  Já sabemos que ele diz bom dia

(18)

18 Bom dia Bom dia

bits

H

=

−

1 ⋅

log

₂

(

1 )

=

0

i i

p

H

=

−

∑

log

₂

(19)

Exemplo



1 bit – dois estados

igualmente prováveis



Precisamos transmitir um bit

para informar sobre o estado

da moeda



Mas sabemos que só pode

ser cara ou coroa

(20)

20

bit

p

H

coroa coroa cara cara i i i i i

1

5 ,

0

5 ,

0

2 log

5 ,

0

2 log

5 ,

0 ))

2 /

1 (

log

5 ,

0 )

2 /

1 (

log

5 ,

0

5 ,

0 log

5 ,

0

5 ,

0 log

5 ,

0 log

log

2 2 2 2 2 2 2 2 2 1 2 2

=

+

=

+

=

−

=

−

=

−

=

−

=

−

=

∑

=

Dois eventos (cara e coroa),

cada um deles com

(21)

Exemplo



Dado: 6 estados



2 bits não são suficientes



3 bits: “sobram” 2 estados

(22)

22

( )

( ) ( )

( )

( ) ( )

( )

bits p p p p p p p p p p p p p p p p H _i i i i i 58 , 2 6 log 32 , 3 6 log log log 6 log log log log log log log log log log log log log log 10 2 6 1 2 6 1 2 6 1 6 1 2 6 1 6 1 2 6 1 6 1 2 6 1 6 1 2 6 1 6 1 2 6 1 6 1 2 6 1 6 2 6 5 2 5 4 2 4 3 2 3 2 2 2 1 2 1 6 1 2 2 = = = = − = − = = − − − − − − = = − − − − − − − = = − = − =

∑

=

Seis eventos 1,2,3,4,5,6

cada um deles com

(23)

Informação transmitida,

I

_t



É a diferença entre o grau de entropia ou

imprevisibilidade inicial (H) e a

imprevisibilidade final H

_m

I

_t

(24)

H, I

_t

e H

_m

são entropias



A entropia H é chamada também entropia da

fonte de informação

 Representa a capacidade potencial de

informação que pode ser fornecida por um

determinado arranjo ou dispositivo no instante inicial



I

_t

é a chamada Informação transmitida ou

entropia do canal



H

m

é a entropia final, depois da mensagem

(25)

Exemplo:



Jogar uma bola em uma

matriz com 16 posições

possíveis

 Qual seria a entropia inicial

e qual a entropia final?

 Qual seria a quantidade de

informação fornecida pela bola?

(26)

Exemplo:



Entropia inicial: H =

(27)

Exemplo:



Entropia final: S=log

2

(15)



Informação trazida

(diferença de entropias):

 I = entropia inicial - entropia

final

 I= log₂(16) - log₂(15)=

(28)

Exercício 1



Dado viciado: Suponha que o dado está

viciado, com as seguintes probabilidades:

 1: 0.05 ; 6:0.3 ; de 2 a 5: 0,1625

 a) qual é a entropia do dado viciado?

 b) Qual o número médio de bits transmitidos por

(29)

Códigos para estado do dado

Cód.

a

Estad

o

000

1

001

2

010

3

011

4

10

5

11

6 Cód.

b

Estad

o

000

6

001

5

010

4

011

3

10

2

11

1 Cód.

c

Estad

o

000

1

001

2

010

3

011

4

100

5

101

5

110

6

(30)

Códigos para estado do dado

30



c)

 i) Aqui utilizamos 4 bits para o

‘1’ e apenas 1 bit para o ‘6’. Conseguimos um código mais eficiente?

 Ii) Podemos conseguir um

código muito mais eficiente do que este para o dado viciado?

Cód.

d

Estad

o

0000 1

000

2

001

3

010

4

011

5

1

6

(31)

Exercício 1



Resolução:

 a) H(.3,.1625,.1625,.1625,.1625,.05)=2.4412  ba) 2,54 bb) 2,79 bc) 3 (obvio, todos tem 3)  c-i) sim, a média de bits é 2.45

(32)

Exercício 2: Melhor de Três



Dois times A, e B, jogam uma melhor de três

jogos. Cada jogo é independente, e os times

têm igual probabilidade de ganhar.

 Defina X como a seqüência de vencedores. Por

exemplo X=AA; ou X=BAB;

 Defina Y como o número de jogos jogados (pode

ser 2 ou 3)

(33)

Melhor de Três



a) Qual a entropia de X?

 Dica: liste todos os possíveis valores de X e a

probabilidade de cada um. 

b) Qual a entropia de Y?

(34)

Melhor de Três



c) Suponha que sabemos que A ganhou a

melhor de três.

 i) Qual a entropia de X? Compare com (a),

quantos bits de informação foram ganhos?

 ii) Qual a entropia de Y? Compare com (b),

quantos bits de informação foram ganhos?



d) Suponha que sabemos o valor de X. Qual

(35)

Melhor de Três - respostas



A) há 2 valores com .25 prob – AA e AB, e há

4 valores com .125 prob:

ABA,ABB,BAA,BAB. Entropia = 2.5 bits



B) A ganha: AA, BAA, ABA = 0.5 prob. Como

(36)

Melhor de Três - respostas



C-i) Se A ganhou, X deve ser AA, BAA ou

ABA. Com probabilidades .5, .25, .25.

Entropia = 1.5 bit. Ganhamos entao 1 bit.



C-ii) 2 jogos: AA, .5; 3 jogos, BAA ou ABA,

total .5 prob. Entao entropia continua 1 bit,

não ganhamos nada.



D) Se sabemos X, Z é determinado com

(37)

Exercício 4



Em uma cadeia de DNA, existem quatro tipos

de bases: G, T, C e A

 Qual a informação contida em uma sequência de

DNA de tamanho 10 nos seguintes casos?  A chance de ocorrência de cada base é igual

 As bases G e T têm o dobro de chance de ocorrência do

(38)

Referências



Material de:

 Aula MIT (capítulo 5, no site do curso)  Prof Dr Luiz Mirisola

P

 Prof Dr Javier Ropero