Número: Nome:

(1)

--- INSTITUTO SUPERIOR TÉCNICO

Sistemas de Apoio à Decisão Exame: 2 16 Julho 2009

---

1. (6 pts) Algumas perguntas fáceis para começar

1) (2 pts) Indique quais das hipóteses estão correctas para cada uma das seguintes questões (podem existir mais do que uma correcta e todas devem ser assinaladas nesse caso):

a. (0,5 pts) Num esquema de dados multidimensional, os elementos essenciais são:

1. só as tabelas de factos.

2. tabelas de factos e surrogate keys.

3. tabelas de factos e de dimensões.

4. só as hierarquias.

Solução: 3

b. (0,5 pts) As interrogações de dados OLAP típicas envolvem:

1. a soma e média como funções de agregação.

2. os valores mínimo e máximo como funções de junção.

3. a soma e média como funções de junção.

4. os valores mínimo e máximo como funções de agregação.

Solução: 1 e 4

c. (0,5 pts) O operador CUBE:

1. retorna uma vista dos dados segundo três dimensões.

2. retorna todos os agrupamentos possíveis das dimensões.

3. permite descer numa hierarquia.

4. permite subir e descer numa hierarquia.

Solução: 2

c. (0,5 pts) Um processo ETL suporta:

1. a extracção de dados da DW e carregamento na área de retenção.

(2)

3. a extracção de dados da área de retenção e carregamento nos sistemas operacionais.

4. a extracção de dados da DW e carregamento nos sistemas fonte.

Solução: 2

2) (4 pts) Assinale as seguintes frases como verdadeiras (V) ou falsas (F). Cada resposta correcta corresponde a uma cotação de +1 valor. Resposta errada -0,5. Se não responder, a cotação é 0.

(a) Os algoritmos Fp-growth e Apriori conduzem a regras de associação diferentes False, the rules are the same

(b) Se x e y são independentes então P(y|x)=P(x|y) False, P(y|x)=P(y), P(x|y)=P(x).

(c) Dada uma entrada de dimensão 4, uma rede neuronal com uma função de activação linear é mais potente que uma rede RBF.

False, uma rede neuronal com uma função de activação linear can only separate linear problems.

(d) Dada uma entrada de dimensão 4, uma rede neuronal com uma função de activação linear é mais potente que que vector support machines

False, uma rede neuronal com uma função de activação linear can only separate linear problems.

(3)

2. (3 pts) DW, OLAP e ETL

Considere o seguinte modelo em estrela de uma DW:

Aluno(alunoId, nome)

Data(dataID, dia, mes, semestre, ano)

Disciplina(disciplinaId, nome, departamento)

Assiduidade(alunoId, dataId, disciplinaId, presenca),

em que as chaves primárias estão sublinhadas e as estrangeiras estão em itálico.

(a) (1v) Escreva uma interrogação SQL que devolva o número total de faltas por aluno (identificado pelo seu número e nome) e por semestre (dentro do ano lectivo).

Solução:

Select A.alunoId, A.nome, d.ano, d.semestre, count(*) From Aluno a, Data d, Assiduidade as

Where a.alunoId = as.alunoId And d.dataId = as.dataId Where presença = 0

Group by a.alunoId, a.nome, d.ano, d.semestre

(b) (1v) Suponha que o valor pedido na alínea anterior é muito requisitado, o que levaria à interrogação da alínea (a) ser frequentemente executada. Proponha uma alteração ao modelo de dados de modo a ter essa informação pré-calculada.

Criaria uma nova tabela de factos com informação agregada sobre o número de faltas.

Ficaria com:

FaltasPorAlunoPorSemestre(alunoId, semestreId, faltas) Aluno(alunoId, nome)

Semestre(semestreId, semestre, ano)

(4)

retornado pelo operador CUBE?

Hierarquias: 2

Data: dia<mes<semestre<ano Disciplina: nome < departamento

Número de tuplos = número de cuboids = πi=1n(Li + 1) = (1+1).(4+1).(2+1) = 2*5*3 = 30

3. (4 pts) 3. (4 pts) PCA

(5)

Suponha que tem a seguinte:

€

x  _i= 1 9



 



  , 5 9



 



  , 0 8



 



  ,10 8



 



 

 



 



(a) (2 pts) Qual é a matriz da transformação K-L?

First we have to determine the covariance matrix (See homework 3)

We divide n-1 for sapmle, n for population (be agreement we divide by n-1, i tis as well o.k. to divide by n)

First we have to compute the eiganvalues

The system has to become linear depentable (singular)

The determinant has to become zero

we know c12=c21 , m1= (1+5+0+10)./4=4, m₂= (9+9+8+8)./4=8.5

c11 =( (1-4)^2+(5-4)^2+(0-4)^2+(10-4)^2 ) ./3=20.67

c₂₁=c₁₂= ( (1-4)*(9-8.5)+(5-4)*(9-8.5)+(0-4)*(8-8.5)+(10-4)*(8-8.5) )./3=-0.67 c22= ( (9-8.5)^2+(9-8.5)^2+(8-8.5)^2+(8-8.5)^2 )./3=0.33

€

c_ij =

x_i⁽^k)−m_i

( ) (

^x^j^(k)⁻^m^j

)

k=1 n

∑

n−1

€

C= c₁₁ c₁₂ c₂₁ c₂₂



  

 

€

λI−C =0

€

C= 20.67 −0.67

−0.67 0.33



  

 

(6)

λ1=0.31 λ2=20.69

For λ1=0.31, let be u1=1 then we have to determine u2

(Approximate results due to rounding errors, rounding errors were not punished) u1=[u1,u2]=[1,30.5238] (exact result)

Normalization

u1=[u1,u2]=[ 0.0327342, 0.999464]

For λ2=20.69, let be u1=1 then we have to determine u2

(exact..) u1=[u1,u2]=[1, 0.0327517] (exact result) Normalization

€

0= λ 0 0 λ



 



  − 20.67 −0.67

−0.67 0.33



 



  0= λ −20.67 0.67

0.67 λ −0.33



  

 

€

λ²−21λ+6.37=0

€

−20.36 0.67 0.67 −0.02



  

  1 u₂



  

  =0

€

−20.36 0.67



  

  = −0.67 0.02



  

  u₂

€

0.0218345 0.67



  

  = −0.67 -20.0218



  

  u₂

€

0.02 0.67 0.67 20.35



  

  1 u₂



  

  =0

(7)

u1=[u1,u2]=[ 0.999446, 0.0327517]

K-L transformation is defined be the matrix

€

0.0327 0.99 0.999 0.0327



  

 

(b) (2 pts) Qual dos vectores próprios (eigenvectors) é mais significante? O critério de Kaiser é aplicável?

λ1=0.31 < 1, means this dimension can be reduced u1

(8)

4. (2 pts) Bayes

90% das mulheres que realmente sofrem de cancro da mama irão ter um resultado positivo na mamografia (quer isto dizer que o teste indica que a mulher sofre de cancro). 11% das mulheres que na realidade não sofrem de cancro da mama irão ter um resultado positivo na mamografia (querendo dizer que elas foram erradamente diagnosticadas com o cancro). 5%

das mulheres com mais de 55 anos que são examinadas sofrem de cancro da mama.

(2 pts) No caso de uma mulher que tem um teste positivo na mamografia, repetir o teste numa segunda mamografia, que também dá um resultado positivo, use o pressuposto Naïve de Bayes para calcular a probabilidade que a mulher sofre de cancro da mama dados os resultados dos 2 testes.

P(c)=0.05, P(¬c)=0.95, P(m|c) = 0.90, P(¬m|c) = 10.

P(m|¬c) = 0.11, P(¬m|¬c) = 0.89.

P(c|m)=αP(m1|c) P(m2|c)P(c)=α 0.0405

P(¬c|m)=αP(m1|¬c)P(m2|¬c)P(¬c)=α0.011495 Normalization:

P(c|m)= 0.77892

(9)

5. (2 pts)

Dado o conjunto de dados

€

 x _j = 0 9 1







 







  , 1 9 1







 







  , 2 9 1







 







  , 7 5 5







 







 



 

 



 

 

com 4 pontos, k=2 e os centroids iniciais

€

c₁= 2 8 1







 







  ,c₂ = 7 5 4







 







  . Quais são os valores dos centroids c1,c2 depois do algoritmo de clustering k-mean ter convergido, usando a função de distância Euclideana?

d(c1,x1) < d(c2,x1) d(c1,x2) < d(c2,x2) d(c1,x3) < d(c2,x3) d(c1,x4) > d(c2,x4)

€

c₁= 1 9 3







 







  ,c₂ = 7 5 5







 







  .

d(c1,x1) < d(c2,x1) d(c1,x2) < d(c2,x2) d(c1,x3) < d(c2,x3) d(c1,x4) > d(c2,x4) Converged.

(10)

6. (3 pts) Neuronal Network

(a) (2 pts) Derive uma regra de treino de gradiente descendente (gradient descent training rule) para uma única unidade com saída o, em que:

€

o= 5⋅w_i

i=0 n

∑

^⋅^σ^(xⁱ⁾

o= 5*w0 σ(x0)+5*w1 σ (x1)+ 5*w3 σ (x3)+…+5*wn σ (xn)

€

∂E

∂w_i = (t_d −o_d) ∂

∂w_i(t_d −5w_iσ(x_i))

d

∑

∈D

∂E

∂w₁ = (t_d −o_d)(−5σ(x_i))

d∈D

∑

(b) (1 pts) Dados n=2, os pesos w={w0=0.1,w1=0. 1}. Faça um gradiente descendente estocástico com η=1 para para o vector de entrada x={2,0}={x0=2,x1=0} e alvo (target) t={1}, determine

€

Δw

o= 5*w0 σ(x0)+5*w1 σ (x1)

o= 5*0.1*(1./(1+exp(-3*2)))+ 5*0.1*(1./(1+exp(-3*0))=0.74876

Δw1= (1-0.72629)*5*(1./(1+exp(-3*2))=1.3652

Δw2= (1-0.72629)*5*(1./(1+exp(0)))=0.68427

€

σ(x)= 1 1+e^(−3x)

€

Δw_i=η(t−o)5σ(x_i)