Exercícios Deep Learning - List Teórica 01 Elaboração de Carolina Coimbra, Guilherme Borges e Edemir Andrade Jr.

(1)

Exerc´ıcios Deep Learning - List Te´

orica 01

Elabora¸c˜

ao de Carolina Coimbra, Guilherme

Borges e Edemir Andrade Jr.

August 23, 2019

1 Retas

1- Esboce num gr´afico as seguintes retas:

a) 2x2+ x1= 0

b) x2− 2x1+ 1 = 0

c) x2− 1 = 0

d) x1− 1 = 0

2- Especifique uma reta que divide as duas categorias de itens no gráfico abaixo onde x1é o eixo abscissas e e x2é o eixo das ordenadas.

3- Considere a reta x2= 3 + 2x1. Obtenha a express˜ao anal´ıtica do conjunto

de todas as retas paralelas e o conjunto de todas as retas perpendiculares `a reta acima.

(2)

2 Algebra Linear

´

4- Sejam w = w1, ...wn e x = x1, ..., xn vetores coluna de dimens˜ao n × 1.

Expresse w0x em termos de um somat´orio.

5- Seja x = (x1, ..., xn) um vetor-coluna n × 1 e A uma matriz n × n. A0

in-dica a matriz transposta de A. Verifique que as seguintes identidades matriciais est˜ao corretas, checando se o lado direito ´e igual ao lado esquerdo.

a) x0Ax =P i,jxixjAij b) x0x =P ix 2 i

c) xx0 ´e uma matriz sim´etrica n × n com elemento (i, j) dado por xixj

3 Derivadas

6- Encontre a derivada F0(x) de

F (x) =px2_{+ 1}

7- Encontre a derivada F0(x) de

F (x) = esin x 8- Fun¸c˜ao sigm´oide:

S(x) = 1 1 + e−x

a) Esboce o gr´afico de S(x).

b) Mostre que S(−x) = 1 − S(x)

c) Calcule a derivada em termos da própria sigmóide, isto é, mostre que S0(x) = S(x)(1 − S(x)). Esboce o gráfico da derivada.

d) Qual o valor m´aximo de S0(x)? Para qual valor de x ela atinge esse m´aximo?

e) Considere S(z) = _1+e1−z, sendo que z = b + W1x encontre ∂S_∂b e _∂W∂S

1.

f ) Considere S(h(x)) = _1+e−h(x)1 , calcule

∂S

(3)

9- Suponha que vocˆe tenha dados da forma X = (X1, X2, ..., Xn), onde

Xi ∈ R e que seu classificador seja da forma ˆYi = βXi. Considerando o erro

quadr´atico, ou seja, L( ˆY , Y ) =Pn

i=1( ˆYi− Yi)2, qual o valor de β que minimiza

o erro?

4 Perceptron

10- Considere um perceptron com duas features x1, x2, onde w0 = 3, w1 =

2, w2 = 1, qual é a fórmula da reta que divide as duas classes? Qual é o vetor

normal `a reta?

11- Considere um perceptron com w0= 0, w1= −1, w2= 1, com os pontos

mostrados no gráfico abaixo (c´ırculos pertencem à classe 1 e ’x’ à classe 0), esboce o gráfico da reta de separa¸cão das classes. Execute uma itera¸cão do algoritmo do perceptron com m = 0.1, esboce a nova reta de separa¸cão.

12- Seja o conjunto de entrada dado por um total de 4 amostras, onde cada amostra ´e representada pela tupla (xi, t), composta pelo vetor xi= (x0, x1, x2)

e um rotulo t associado a amostra.

x0 x1 x2 t

Entrada 1 1 0 0 0 Entrada 2 1 0 1 0 Entrada 3 1 1 0 0 Entrada 4 1 1 1 1

a) Execute a quinta itera¸c˜ao do algoritmo do perceptron com pesos iniciais w0, w1ew2 iguais a 0, taxa de aprendizado η igual a 0.5, e utilizando a fun¸c˜ao

de ativa¸c˜ao degrau bipolar definida como:

f (x) = (

−1 se x < 0 +1 se x ≥ 0

(4)

1oItera¸c˜ao: Entrada 1: sout= f (w0x0+ w1x1+ w2x2) = f (0 ∗ 1 + 0 ∗ 0 + 0 ∗ 0) = f (0) = 0; logo sout = t (1) Entrada 2: sout= f (w0x0+ w1x1+ w2x2) = f (0 ∗ 1 + 0 ∗ 0 + 0 ∗ 1) = f (0) = 0; logo sout = t (2) Entrada 3: sout= f (w0x0+ w1x1+ w2x2) = f (0 ∗ 1 + 0 ∗ 1 + 0 ∗ 0) = f (0) = 0; logo sout = t (3) Entrada 4: sout= f (w0x0+ w1x1+ w2x2) = f (0 ∗ 1 + 0 ∗ 1 + 0 ∗ 1) = f (0) = 0; logo sout 6= t (4) Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= 0 + 0.5(1 − 0) ∗ 1 = 0.5 w1= w1+ η(t − sout) ∗ x1= 0 + 0.5(1 − 0) ∗ 1 = 0.5 w2= w2+ η(t − sout) ∗ x2= 0 + 0.5(1 − 0) ∗ 1 = 0.5 2o_Itera¸_c˜_ao: Entrada 1: sout= f (w0x0+ w1x1+ w2x2) = f (0.5 ∗ 1 + 0.5 ∗ 0 + 0.5 ∗ 0) = f (0.5) = 1; logo sout6= t (5) Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= 0.5 + 0.5(0 − 1) ∗ 1 = 0 w1= w1+ η(t − sout) ∗ x1= 0.5 + 0.5(0 − 1) ∗ 0 = 0.5 w2= w2+ η(t − sout) ∗ x2= 0.5 + 0.5(0 − 1) ∗ 0 = 0.5 Entrada 2: sout= f (w0x0+ w1x1+ w2x2) = f (0 ∗ 1 + 0.5 ∗ 0 + 0.5 ∗ 1) = f (0.5) = 1; logo sout6= t (6) Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= 0 + 0.5(0 − 1) ∗ 1 = −0.5 w1= w1+ η(t − sout) ∗ x1= 0.5 + 0.5(0 − 1) ∗ 0 = 0.5 w2= w2+ η(t − sout) ∗ x2= 0.5 + 0.5(0 − 1) ∗ 1 = 0

(5)

Entrada 3: sout= f (w0x0+ w1x1+ w2x2) = f (−0.5 ∗ 1 + 0.5 ∗ 1 + 0 ∗ 0) = f (0) = 0; logo sout= t (7) Entrada 4: sout= f (w0x0+ w1x1+ w2x2) = f (−0.5 ∗ 1 + 0.5 ∗ 1 + 0 ∗ 1) = f (0) = 0; logo sout6= t (8) Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= −0.5 + 0.5(1 − 0) ∗ 1 = 0 w1= w1+ η(t − sout) ∗ x1= 0.5 + 0.5(1 − 0) ∗ 1 = 1 w2= w2+ η(t − sout) ∗ x2= 0 + 0.5(1 − 0) ∗ 1 = 0.5 3o_Itera¸_c˜_ao: Entrada 1: sout = f (w0x0+ w1x1+ w2x2) = f (0 ∗ 1 + 1 ∗ 0 + 0.5 ∗ 0) = f (0) = 0; logo sout= t (9) Entrada 2: sout = f (w0x0+ w1x1+ w2x2) = f (0 ∗ 1 + 1 ∗ 0 + 0.5 ∗ 1) = f (0.5) = 1; logo sout6= t (10) Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= 0 + 0.5(0 − 1) ∗ 1 = −0.5 w1= w1+ η(t − sout) ∗ x1= 1 + 0.5(0 − 1) ∗ 0 = 1 w2= w2+ η(t − sout) ∗ x2= 0.5 + 0.5(0 − 1) ∗ 1 = 0 Entrada 3: sout= f (w0x0+ w1x1+ w2x2) = f (−0.5 ∗ 1 + 1 ∗ 1 + 0 ∗ 0) = f (0.5) = 1; logo sout6== t (11) Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= −0.5 + 0.5(0 − 1) ∗ 1 = −1 w1= w1+ η(t − sout) ∗ x1= 1 + 0.5(0 − 1) ∗ 0 = 1 w2= w2+ η(t − sout) ∗ x2= 0.5 + 0.5(0 − 1) ∗ 1 = 0 Entrada 4: sout = f (w0x0+ w1x1+ w2x2) = f (−1 ∗ 1 + 1 ∗ 1 + 0 ∗ 1) = f (0) = 0; logo sout6= t (12)

(6)

Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= −1 + 0.5(1 − 0) ∗ 1 = −0.5 w1= w1+ η(t − sout) ∗ x1= 1 + 0.5(1 − 0) ∗ 1 = 1.5 w2= w2+ η(t − sout) ∗ x2= 0 + 0.5(1 − 0) ∗ 1 = 0.5 4o_Itera¸_c˜_ao: Entrada 1: sout= f (w0x0+ w1x1+ w2x2) = f (−0.5 ∗ 1 + 1.5 ∗ 0 + 0.5 ∗ 0) = f (−0.5) = 0; logo sout= t (13) Entrada 2: sout= f (w0x0+ w1x1+ w2x2) = f (−0.5 ∗ 1 + 1.5 ∗ 0 + 0.5 ∗ 1) = f (0) = 0; logo sout= t (14) Entrada 3: sout= f (w0x0+ w1x1+ w2x2) = f (−0.5 ∗ 1 + 1.5 ∗ 1 + 0.5 ∗ 0) = f (1) = 1; logo sout 6== t (15) Atualiza Pesos: w0= w0+ η(t − sout) ∗ x0= −0.5 + 0.5(0 − 1) ∗ 1 = −1 w1= w1+ η(t − sout) ∗ x1= 1.5 + 0.5(0 − 1) ∗ 0 = 1 w2= w2+ η(t − sout) ∗ x2= 0.5 + 0.5(0 − 1) ∗ 1 = 0.5 Entrada 4: sout= f (w0x0+ w1x1+ w2x2) = f (−1 ∗ 1 + 1 ∗ 1 + 0.5 ∗ 1) = f (0.5) = 1; logo sout= t (16)

b) Esboce o gráfico da reta gerada após a quinta itera¸cão do algoritmo. A equa¸cão da reta após a quinta itera¸cão é dado pela equa¸cão: x1w1+x2w2= −w0

(7)

Solu¸

c˜

ao

(8)

3- Paralelas : x2= 2x1+ c com c ∈ R Perpendiculares: x2= −1₂x1+ c com c ∈ R 4-Pn i=1wixi 5- a) x’Ax =P jx1A1,j · · · PjxnAn,j x =X i,j xiAi,jxj b) x’x =x1 · · · xn    x1 .. . xn    =X i x2_i c) xx’ =    x1 .. . xn   x1 · · · xn =      x1x1 x1x2 · · · x1xn x2x1 x2x2 · · · x2xn .. . ... . .. ... xnx1 xnx2 · · · xnxn      6- x(x2_{+ 1)}−1 2 7- cos xesin x 8- a)

(9)

b) S(−x) = _1+e1x = 1 1+ 1 e−x = _{e−x +1}1 e−x = _e−xe−x₊₁ = 1 − 1 1+e−x = 1 − S(x) c) S0(x) = e−x (1+e−x₎2 = 1 1+e−x e −x 1+e−x = S(x)(1 − S(x))

d) Valor m´aximo ´e 0.25 quando x = 0. e) ∂S ∂b = e−(b+W1x) (1+e−(b+W1x))2 e ∂S ∂W1 = xe−(b+W1x) (1+e−(b+W1x))2 f ) ∂S_∂x = _(1+eh0(x)e−h(x)−h(x)₎2

9- Para encontrar o valor m´ınimo da perda, devemos derivar a fun¸cão em rela¸cão a β e encontrar onde ela é 0. L( ˆY , Y ) =Pn

i=1(βXi− Yi)2 ∂L ∂β = Pn i=12Xi(βXi− Yi) = 2(P n i=1βX 2 i − Pn i=1XiYi) = 0 β = Pn i=1XiYi Pn i=1Xi2

10- Reta: x2= −3 − 2x1 Vetor normal: (2 1)

11- Reta: x2= x1

Algoritmo:

O ´unico ponto onde y 6= ˆy ´e (2, 3)

  w0 w1 w2   =   0 −1 1  + 0.1(−1)   1 2 3  =   −0.1 −1.2 0.7   Nova reta : x2= 1₇+12₇x1

(10)

12-a) 5o Itera¸c˜ao: Entrada 1: sout= f (w0x0+ w1x1+ w2x2) = f (−1 ∗ 1 + 1 ∗ 0 + 0.5 ∗ 0) = f (−1) = 0; logo sout= t (17) Entrada 2: sout= f (w0x0+ w1x1+ w2x2) = f (−1 ∗ 1 + 1 ∗ 0 + 0.5 ∗ 1) = f (−0.5) = 0; logo sout= t (18) Entrada 3: sout = f (w0x0+ w1x1+ w2x2) = f (−1 ∗ 1 + 1 ∗ 1 + 0.5 ∗ 0) = f (0) = 0; logo sout= t (19) Entrada 4: sout= f (w0x0+ w1x1+ w2x2) = f (−1 ∗ 1 + 1 ∗ 1 + 0.5 ∗ 1) = f (0.5) = 1; logo sout= t (20)

Logo temos o resultado: w0= −1, w1= 1, w2= 0.5

b)

Esbo¸cando a reta x1∗ 1 + x2∗ 0.5 = 1 temos:

(0, 1) 2 ₄(1, 1) (0, 0) 1 3(1, 0) + 0.5 = 1 1 2 (0, 2) 2 1

5 Derivadas

13- Seja x, y ∈ R, x ∈ Rn e y ∈ Rm _{de forma que:} ∂y ∂x =       ∂y ∂x1 ∂y ∂x2 .. . ∂y ∂xn       ∂y ∂x = ∂y1 ∂x ∂y2 ∂x . . . ∂ym ∂x

(11)

e ∂y ∂x =       ∂y ∂x1 ∂y ∂x2 .. . ∂y ∂x3       =       ∂y1 ∂x1 ∂y2 ∂x1. . . ∂ym ∂x1 ∂y1 ∂x2 ∂y2 ∂x2. . . ∂ym ∂x2 .. . ∂y1 ∂xn ∂y2 ∂xn. . . ∂ym ∂xn      

Assuma que y = f (u) e u = g(x), escreva a derivada (usando a regra da cadeia) para ∂y_∂x

14- Seja X ∈ Rm×n

, w ∈ Rn

, y ∈ Rm_{e z = kXw − yk}2_{, calcule} ∂z ∂w.

15- Sejam u, x ∈ Rn (vetores colunas).

a) Calcule a derivada de u0x em respeito a x, ou seja: ∂(u_∂x0x) b) Calcule a derivada de x0_{x em respeito a x, ou seja:} ∂(x0x) ∂x

6 Regress˜

ao Linear

16- Em uma regress˜ao linear, o valor estimado ˆYi´e dado por

ˆ

Yi = b + w1x1+ ... + wnxn

onde n é o número de features. O erro quadrático é dado por L( ˆY , Y ) = Pn

i=1( ˆYi− Yi)

2_{. Neste exerc´ıcio, n = 1, portanto ˆ}_Y

i= b + w1x1.

a) Considerando os pontos mostrados no gr´afico abaixo e a reta com w1= 1.5

e b = 0, calcule o erro quadr´atico dessa reta.

b) Utilize a derivada do erro quadr´atico para atualizar os valores de w1 e

b, encontrando uma nova reta (Dica: use uma taxa de aprendizado menor que 0.1). Qual ´e o erro quadr´atico desta nova reta?

7 Regress˜

ao Log´ıstica

17- No modelo de regress˜ao log´ıstica com um regressor apenas: P (Yi= 1) =

p(xi) = _{1+exp (−b−w}1

(12)

caso do modelo log´ıstico com um ´unico regressor ´e dada por: l(θ) = b n X i=1 yi+ w1 n X i=1 xiyi− X i log(1 + eb+w1xi₎

18- No modelo log´ıstico com um regressor apenas, mostre que o vetor gra-diente de l(θ) ´e dado por:

Dl(θ) = "_∂logl ∂b ∂logl ∂w1 # = Pn i=1yi− pi Pn i=1xiyi− pixi onde pi= p(xi).

19- Ainda no modelo log´ıstico com um regressor apenas, mostre que a matriz hessiana de l(θ) ´e dada por:

Dl(θ) = − "∂2_logl ∂b2 ∂2_logl ∂b∂w1 ∂2_logl ∂b∂w1 ∂2_logl ∂w2 1 # = − Pn i=1pi(1 − pi) P n i=1pi(1 − pi)xi Pn i=1pi(1 − pi)xi P n i=1pi(1 − pi)x2i

8 Newton e SGA

20- Aplique duas itera¸cões do método de newton para encontrar o ponto máximo da fun¸cão f (x) = −(x − 3)4_{para x}

0= 1.

21- Utilizando a a mesma fun¸c˜ao do exercicio anterior, aplique o m´etodo do gradiente ascendente usando learning rate α = 0.01 e x0= 1. Compare os dois

(13)

Solu¸

c˜

ao

1- ∂y_∂x = ∂y_∂u∂u_∂x 2-X =      x11 x12 · · · x1n x21 x22 · · · x2n .. . ... . .. ... xm1 xm2 · · · xmn      w =      w1 w2 .. . wn      Y =      y1 y2 .. . ym      Xw - Y =      P ixi1wi− y1 P ixi2wi− y2 .. . P iximwi− ym      z = kXw − yk2 ∂z ∂w = ∂P i,j(xijwi− yj)2 ∂w =      ∂z ∂w1 ∂z ∂w2 .. . ∂z ∂wn           2P ij(xijwi− yj)Pjx1j 2P ij(xijwi− yj)Pjx2j .. . 2P ij(xijwi− yj)Pjxmj      3-a) A derivada de u0x =Pn i=1uixi em respeito a x : ∂Pn i=1uixi ∂xi = ui⇒ ∂u0x ∂x = (u1, . . . , un) = u 0 b) A derivada de x0x =Pn i=1x 2 i em respeito a x : ∂Pn i=1x 2 i ∂xi = 2xi⇒ ∂x0x ∂x = (2x1, . . . , 2xn) = 2x 0 4-a) (1.5 − 0.9)2+ (3 − 1.3)2+ (4.5 − 2.6)2+ (6 − 4.2)2+ (7.5 − 5.3)2= 14.94

(14)

b) ∂L ∂b = 2 n X i=1 (b + w1xi− Yi) = 2nb + 2 n X i=1 (w1xi− Yi) ∂L ∂w1 = 2 n X i=1 (b + w1xi− Yi)xi = 2b n X i=1 xi+ 2 n X i=1 (w1x2i − Yixi)

Colocando a taxa de aprendizado α = 0.01

w∗ b∗ =1.5 0 − α2 P n i=1(1.5x 2 i − Yixi) 2Pn i=1(1.5xi− Yi) = 0.942 −0.164 L = (0.78−0.9)2_{+(1.72−1.3)}2_{+(2.66−2.6)}2_+(3.6−4.2)2_{+(4.55−5.3)}2_{= 1.117}

(15)

5-l(θ) = log n Y i=1 P(Yi= yi) ! = log n Y i=1 P(Yi= yi) ! = log n Y i=1 p(xi)yi(1 − p(xi))1−yi ! = n X i=1 log(p(xi)yi(1 − p(xi))1−yi) = n X i=1 log(p(xi)yi) + n X i=1 log((1 − p(xi))1−yi) = n X i=1 yilog(p(xi)) + n X i=1 (1 − yi)log(1 − p(xi)) = n X i=1 yilog ₁ 1 + exp(−b − w1xi) + n X i=1 (1 − yi)log 1 − 1 1 + exp(−b − w1xi) = n X i=1 yilog exp(b + w1xi) 1 + exp(b + w1xi) + n X i=1 (1 − yi)log 1 1 + exp(b + w1xi) = n X i=1 yilog(exp(b + w1xi)) − n X i=1 yilog(1 + exp(b + w1xi)) + n X i=1 (1 − yi)log ₁ 1 + exp(b + w1xi) = n X i=1 yilog(exp(b + w1xi)) − n X i=1 yilog(1 + exp(b + w1xi)) − n X i=1 (1 − yi)log(1 + exp(b + w1xi)) = n X i=1 yi(b + w1xi) − n X i=1 yilog(1 + exp(b + w1xi)) − n X i=1 (1 − yi)log(1 + exp(b + w1xi)) = b n X i=1 yi+ w1 n X i=1 yixi− n X i=1 yilog(1 + exp(b + w1xi)) − n X i=1 (1 − yi)log(1 + exp(b + w1xi)) = b n X i=1 yi+ w1 n X i=1 yixi− n X i=1 log(1 + exp(b + w1xi))

(16)

6-∂l(θ) ∂b = ∂ ∂b b n X i=1 yi+ w1 n X i=1 yixi− n X i=1 log(1 + exp(b + w1xi)) ! = ∂ ∂b b n X i=1 yi− n X i=1 log(1 + exp(b + w1xi)) ! = n X i=1 yi− n X i=1 ∂ ∂b(log(1 + exp(b + w1xi))) = n X i=1 yi− n X i=1 ∂ ∂b(1 + exp(b + w1xi)) 1 + exp(b + w1xi) = n X i=1 yi− n X i=1 exp(b + w1xi) 1 + exp(b + w1xi) = n X i=1 yi− n X i=1 pi = n X i=1 (yi− pi) ∂l(θ) ∂w1 = ∂ ∂w1 b n X i=1 yi+ w1 n X i=1 yixi− n X i=1 log(1 + exp(b + w1xi)) ! = ∂ ∂w1 w1 n X i=1 yixi− n X i=1 log(1 + exp(b + w1xi)) ! = n X i=1 yixi− n X i=1 ∂ ∂w1 (log(1 + exp(b + w1xi))) = n X i=1 yixi− n X i=1 ∂ ∂w1(1 + exp(b + w1xi)) 1 + exp(b + w1xi) = n X i=1 yixi− n X i=1 xiexp(b + w1xi) 1 + exp(b + w1xi) = n X i=1 yixi− n X i=1 xipi = n X i=1 (yixi− xipi)

(17)

7-∂2_l(θ) ∂b2 = ∂ ∂b n X i=1 yi− n X i=1 pi ! = ∂ ∂b n X i=1 yi− n X i=1 1 1 + exp(−b − w1xi) ! = − n X i=1 ∂ ∂b ₁ 1 + exp(−b − w1xi) = − n X i=1 − −exp(−b − w1xi) (1 + exp(−b − w1xi))2 = − n X i=1 _{exp(−b − w} 1xi) (1 + exp(−b − w1xi))2 = − n X i=1 exp(−b − w1xi) 1 + exp(−b − w1xi) 1 1 + exp(−b − w1xi) = − n X i=1 ₁ 1 + exp(b + w1xi) 1 1 + exp(−b − w1xi) = − n X i=1 (1 − pi)pi

(18)

∂2_l(θ) ∂b∂w1 = ∂ 2_l(θ) ∂w1∂b = ∂ ∂w1 n X i=1 yi− n X i=1 pi ! = ∂ ∂w1 n X i=1 yi− n X i=1 1 1 + exp(−b − w1xi) ! = − n X i=1 ∂ ∂w1 ₁ 1 + exp(−b − w1xi) = − n X i=1 − −xiexp(−b − w1xi) (1 + exp(−b − w1xi))2 = − n X i=1 _x iexp(−b − w1xi) (1 + exp(−b − w1xi))2 = − n X i=1 xiexp(−b − w1xi) 1 + exp(−b − w1xi) 1 1 + exp(−b − w1xi) = − n X i=1 xi 1 1 + exp(b + w1xi) 1 1 + exp(−b − w1xi) = − n X i=1 xi(1 − pi)pi ∂2_l(θ) ∂w2 1 = ∂ ∂w1 n X i=1 yixi− n X i=1 xipi ! = ∂ ∂w1 n X i=1 yixi− n X i=1 xipi ! = ∂ ∂w1 − n X i=1 xipi ! = ∂ ∂w1 − n X i=1 xi 1 1 + exp(−b − w1xi) ! = − n X i=1 xi xiexp(−b − w1xi) (1 + exp(−b − w1xi))2 = − n X i=1 xixi exp(−b − w1xi) 1 + exp(−b − w1xi) 1 1 + exp(−b − w1xi) = − n X i=1 x2_i(1 − pi)pi

(19)

8- Jupyter notebook

9-Seja x0= 1 e f(x) e suas derivadas:

f (x) = −(x − 3)4 f0(x) = −4(x − 3)3 f00(x) = −12(x − 3)2

(21)

Utilizando m´etodo de Newton: xn+1= xn− f

0 (xn) f00(xn) • Para n = 0 e x0= 1 x1= x0− f 0 (x0) f00(x0)= 1.66 • Para n = 1 e x1= 1.66 x2= x1− f0(x1) f00(x1)= 2.11 • Para n = 2 e x1= 2.11 x3= x2− f 0 (x2) f00(x2)= 2.407

10-Utilizando m´etodo do Gradient Ascendente: xn+1= xn+ α ∗ f

0 (xn), onde α = 0.01 • Para n = 0 e x0= 1 x1= x0+ α ∗ f 0 (x0) = 1.32 • Para n = 1 e x1= 1.32 x2= x1+ α ∗ f 0 (x1) = 1.509 • Para n = 2 e x2= 1.509 x3= x2+ α ∗ f 0 (x2) = 1.64