• Nenhum resultado encontrado

Reinforcement Learning

N/A
N/A
Protected

Academic year: 2021

Share "Reinforcement Learning"

Copied!
32
0
0

Texto

(1)

Reinforcement Learning

(Aprendizado por Reforço)

Karla Figueiredo DEE/PUC-Rio

1

Sumá Sum ário rio

Introdução

Motivação Histórico

Conceitos básicos

Fundamentos Teóricos

Processos de Decisão de Markov Propriedade de Markov

Funções de Valor Aprendizado RL

Métodos para a solução do problema de RL

Programação Dinâmica Monte Carlo

Diferenças Temporais

TD

Aprendizado on-policy e off-policy

Q-Learning SARSA

Eligibility Traces

Estudo de Casos

2

(2)

Bibliografia Bibliografia

SUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.

http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html

KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.

http://www.jair.org/media/301/live-301-1562-jair.pdf

RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: International Joint Conference on Neural Networks ed. : INNS Press, 1999.

http://student.vub.ac.be/~aackerma/rlearn2.pdf

SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.

SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.

BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models.

Prentice Hall, Englewood Cliffs, NJ, 1987

BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press,

1957. 3

• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491.

• Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safely

approximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen, editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.

• BAIRD, L. Residual algorithms: Reinforcement learning with function approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30- 37.

Bibliografia

Bibliografia

(3)

Reinforcement Learning

Conceitos Básicos

5

Muitas vezes é impraticável o uso de aprendizagem supervisionada

Motiva Motiva ção ç ão

Exemplo:

Criança adquirindo coordenação motora

Robô interagindo com um ambiente para atingir objetivo(s)

6

• Como se aprende a escolher ações apenas interagindo com o ambiente?

• Como obter exemplos do comportamento correto e representativo para qualquer situação ?

• E se o agente for atuar em um ambiente desconhecido?

(4)

Teste de Turing: Alan Turing (1950) propôs um teste operacional como definição de Inteligência Artificial

Motiva Motiva ção ç ão

7

“um agente artificial édito inteligentese obtém desempenho equivalente ao humanoem todas as tarefas cognitivas, de forma a enganarum

interrogador”

Para Passar no Teste de Turing-

“Habilidades” necessárias:

Motiva Motiva ção ç ão

processamento de linguagem natural:-comunicação eficaz na língua falada;

representação do conhecimento: armazenar informação suprida antes e durante a interrogação;

raciocínio automatizado: usar a informação

armazenada para responder questões e chegar a conclusões;

aprendizagem de máquina:se adaptar a novas

(5)

9

Busca por métodos automáticos, capazes de operar sistemas complexos;

Convergência para solução ótima global;

Variedade de aplicações em diversos domínios;

9

Motiva Motiva ção ç ão

Histó Hist ó rico rico

Reinforcement Reinforcement

Learning Learning Moderno Moderno

Psicologia Controle

Bellman, 1950s

Thorndike, 1910s Lei do Efeito seleção e associação

10

(6)

Histó Hist ó rico rico

Lei do efeito (Thorndike, 1910s)

• todo e qualquer ato que produz satisfação associa-sea esta situação que, quando ela se reproduz, a probabilidade de repetição do ato é maior do que antes;

• a puniçãoe o desprazernão se comparam em absoluto ao efeito positivo da recompensa a uma determinada resposta;

• o efeito de prazer é, portanto, o que fixa o acerto (resposta) acidental;

• em termos pedagógicos, o agradável é o sucesso do ensaio realizado pelo sujeito e o desagradável é o fracasso decorrente de obstáculos;

11

Sob idênticas condições:

•a associação exercitada com maior freqüência será a mais utilizada pelo sujeito;

•a associação exercitada com menor freqüência será a menos utilizada pelo sujeito;

•a associação exercitada mais recentementeserámais forte no conjunto de repertório de respostas do sujeito;

Histó Hist ó rico rico

Lei do exercício (Thorndike, 1910s)

(7)

Conceitos B

Conceitos B á á sicos sicos

Aprender por meio de nossas interações com o ambiente – Uma criança não tem um professor, mas possui

habilidades cognitivas;

– Através das interações, a criança descobre as relações de causa e efeito;

– Aprender por meio de interações é uma idéia fundamental de quase todas as teorias de aprendizagem e inteligência

13

O que

O que ééaprendizagem por reforçaprendizagem por reforço?o?

14

Uma classe de problemasclasse de problemasde aprendizagem para a qual existe uma grande diversidade de técnicascnicas

Aprendizagem:

da utilidade dos estadosutilidade dos estados do ambiente com respeito a esse(s) objetivo(s)

ououde uma polpolíítica de atica de aççãoãomaximizando o grau de satisfação desse(s) objetivo(s)

indiretamenteindiretamentevia recepção de reforreforççoo (ou dica) positivo ou negativo quando se encontra em alguns estados

ou como resultado da execução de uma ação ou uma serie de ações

por um agente com objetivo(s) situado em um ambiente:

Conceitos B

Conceitos Bá á sicos sicos

(8)

Reinforcement Learning

Reinforcement Learning Supervised Learning Supervised Learning

Aprendizado a partir da interação “learner – environment”

Baseado em “tentativa e erro”

Existe processo de busca (exploration) no espaço

Orientado a objetivo

Aprendizado a partir de padrões entrada - saída.

Baseado em minimizar um erro.

Busca limitada ao valores dos padrões padrões entrada-saída

Orientado a aproximação de função

15

Conceitos B

Conceitos B á á sicos sicos

• O agenterecebe do ambienteum valor de resposta(recompensa).

• Esta recompensa avalia o desempenho do agente durante o processo de aprendizado.

st+1 Ambiente

Estado stS

Reforço

rt rt+1

ação at A(st) Agente

Reinforcement Learning

Reinforcement Learning

(9)

Algumas aplica

Algumas aplica ções ç ões

[Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:

Vitória: +100

Derrota: – 100

Zero para os demais estados do jogo (delayed reward)

Após 1 milhão de partidas contra ele mesmo, joga tão bem quanto o melhor jogador humano

17

Algumas aplicações

Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)

Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço

RL em situações específicas

2 atacantes contra 2 defensores

habilidades básicas

Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...

18

(10)

Reinforcement Learning Reinforcement Learning

Model-Based Model-Free

off-policy on-policy

Diferen

Diferençça Temporala Temporal

SARSA Q-learning

R-learning

Qyna Programação Dinâmica + Monte Carlo

AHC(Actor Heuristic Critic ou Actor-Critic Method)

Markov

19

Aprendizado por refor Aprendizado por reforççoo

Agente

Percepções (sensores)

Estado (modelo do mundo)

Ação Reforço (+/-)

Conceitos B

Conceitos Bá á sicos sicos

(11)

Reinforcement Learning Reinforcement Learning

Aprendizagem por reforço consiste em aprender o que fazer— como mapear situações em ações de maneira a maximizar um sinal de ganho;

Ao aprendiz não é dito que ação tomar, o qual deve aprender quais ações produzem maior ganho por meio de interações

Nas situações mais desafiadores, o ganho não é imediato, mas futuro

21

Sumá Sum ário rio

Introdução

Motivação Histórico

Conceitos básicos

Fundamentos Teóricos

Processos de Decisão de Markov Propriedade de Markov

Funções de Valor Aprendizado RL

Métodos para a solução do problema de RL

Programação Dinâmica Monte Carlo

Diferenças Temporais

TD

Aprendizado on-policy e off-policy

Q-Learning SARSA

Eligibility Traces

Estudo de Casos

22

(12)

Reinforcement Learning

Fundamentos Teóricos

23

Propriedade de Markov Propriedade de Markov

1 ', 1 , , , 1, 1, 1 , 1, 0, 0

Pr sts rtrst at rt st at rtr s a No caso mais geral, se a resposta do ambiente em t+1, para

uma ação em t depende de todo o histórico de ações até o momento atual, a dinâmicado ambienteé definida pela especificação completada distribuição de probabilidades:

(13)

25

Propriedade de Markov Propriedade de Markov

Quando a probabilidade de transição de um estado s para um estado s’depende apenas do estado s e da ação a adotada em s, isso significa que o estado corrente fornece informação suficientepara o sistema de aprendizado decidir que ação deve ser tomada.

25

Quando o sistema possui esta característica, diz-se que ele satisfaz a propriedade de Markov (Bellman, 1957).

Propriedade de Markov Propriedade de Markov

Se a resposta do ambiente em t+1 depende apenas do estado atual, pela propriedade de Markov, o estado atual contém a informação dos estados anteriores.

st s',rt r |st,at

Pr 11

Se o ambiente tem propriedade de Markov, então ele pode prever o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.

É possível criar soluções incrementais, facilitando a implementação computacional.

26

(14)

Assim, a decisão de que ação tomar não pode depender da seqüência de estados anteriores

Exemplo:

Um tabuleiro de dama satisfaz esta propriedade

Propriedade de Markov Propriedade de Markov

27

Processos de Decisão de Markov Processos de Decisão de Markov PDM PDM

Em RL, o ambiente deve ser modelado como um Processo de Decisão de Markov (Markovian Decision Process MDP)

Um MDP :

Um conjunto de estados S

Um conjunto de ações A(s)

Uma função de reforço R(s, s’,a),onde R= S ×AR,

Uma função de probabilidade P(s, s’,a),onde P= S ×AP de transição entre estados

Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL

st st2

1

st st3

a a a a

1

rt rt2 rt3

... ...

(15)

Caracter

Caracteríísticas dos Processo de Decisão de Markov finito sticas dos Processo de Decisão de Markov finito e discreto no tempo:

e discreto no tempo:

ambiente evolui probabilisticamente baseado num conjunto finito e discreto de estados

o estado possui conjunto finito de ações, onde a mais adequada deve ser aprendida;

cada ação executada deve ser avaliada,

os estados são observados, ações são executadas e reforços são relacionados;

Processos de Decisão de Markov Processos de Decisão de Markov PDM PDM

29

Exemplos de PDMs Exemplos de PDMs

Problema Estados Ações Recompensas

Agente jogador de damas

Configurações do tabuleiro

Mover uma determinada peça

#capturas –

#perdas

Agente em jogo de luta

Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc...

Mover-se em uma determinada direção, lançar magia, bater, etc...

(Sangue tirado – sangue perdido)

Agente patrulhador Posição no mapa (atual e passadas)

Ir para algum lugar vizinho do mapa

Ociosidade (tempo sem visitas) do lugar visitado atualmente

30

(16)

Processos de Decisão de Markov Processos de Decisão de Markov PDM PDM

Probabilidades de Transição Valor Esperado do Reforço

31

Exemplo: Robô Reciclador

Lixo Obstáculo

Domínio robô

Exemplo: Robô Reciclador Exemplo: Robô Reciclador

As decisões devem ser tomadas periodicamente o quando um evento ocorre:

Estado: O agente toma decisões com base no nível de energia da bateria - S = {high, low}

Espaço de ações:

– A(high) = {search, wait}

– A(low) = {search, wait, recharge}

(17)

Tabela de Transi

Tabela de Transi ç ç ões ões

33

Grafo de Transi

Grafo de Transiç ç ões ões

34

(18)

35

Para os problemas de Reinforcement Learning é suposto que o ambiente tenha a forma de um Processo de Decisão de Markov, desde que seja

satisfeita no ambiente a Propriedade de Markov Obs: Nem todos os algoritmos de RL necessitamde uma modelagem PDM completa do ambiente, mas é necessário ter-se pelo menos a visão do ambientecomo um conjunto de estados e ações.

Processos de Decisão de Markov Processos de Decisão de Markov PDM PDM

35

Elementos de um sistema RL Elementos de um sistema RL

Agente

Estado

Ambiente

Política

Função de Reforço

(19)

Elementos RL: Agente e Estado Elementos RL: Agente e Estado

Agente: É o aprendiz que inserido no ambiente, toma ações que mudam o ambiente.

Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema

Formado pelas percepções do agente + modelo do mundo;

Deve prover informaçãopara o agente de quais ações podem ser executadas;

Tipicamente, estados podem agregarmuitas informações além dos sinais sensoriais

37

A representação deste estado deve ser suficientepara que o agente tome suas decisões (satisfaz a propriedade de Markov)

38

Modelo perceptivo:

mapeia percepções para representação interna do estado do ambiente

mp: (percepção(t), modelo(estado(ambiente(t-1))))

modelo(estado(ambiente(t)))

Modelo efetivo:

mapeia ação a efetuar para representação interna do estado do ambiente resultando dessa ação

me: (ação(t), modelo(estado(ambiente(t))))

modelo(estado(ambiente(t+1)))

Elementos RL: Modelo do ambiente

Elementos RL: Modelo do ambiente

(20)

39 39

Cada um desses modelos pode ser:

representado em extensãopor uma tabela, ou

representado em intençãopor algum formalismo de representação do conhecimento como:

operadores de próximo estado, regras, lógica, operadores de planejamento

manualmente codificado, ou

aprendido com aprendizagem supervisionado

Elementos RL: Modelo do ambiente Elementos RL: Modelo do ambiente

Imita o comportamento do ambiente

Dados um estado e uma ação, o modelo antecipa o próximo estado e o ganho

Estado corrente no instante t: st

Ação a ser tomada: at

Modelo antecipa o próximo estado:

P(st+1=s | st, at)

Modelos do ambiente são usados para planejamento:

Planejamento é qualquer método de decidir um curso de açãoao considerarmos futuras situações

Elementos RL: Modelo do ambiente

Elementos RL: Modelo do ambiente

(21)

Elementos RL:

Elementos RL: com x sem modelo com x sem modelo prévio do ambiente

41

Com

Commodelo prmodelo préévio do ambientevio do ambiente

Agente possui modelodo ambiente para prever transiçõesde estado do ambiente causada pelas suas ações

Em ambiente não

determinista, o modelo pode ser apenas estocástico

Sem

Semmodelo prémodelo prévio do ambientevio do ambiente

Agente ignora a priori:

tanto o valorde cada estadodo ambiente com respeito a seus objetivos

quanto as transiçõesde estado do ambiente que suas ações podem causar

Elementos RL: sem modelo pr

Elementos RL: sem modelo pr é é vio vio do ambiente

do ambiente

42

Dois tipos de técnicas:

As que permitem ao agente aprender o valor de ação para a realização dos seus objetivos sem conhecer o estado do ambiente

As que permitem aprender ambas a função valor e a função de transição de estado

(22)

Elementos RL: Pol

Elementos RL: Pol ítica de a í tica de aç ções ( ões ( ) )

A política Πt (s,a) é a probabilidade da ação at= a se st=s

43

Função que modela o comportamento do agente

Mapeia estados em ações

Pode ser vista como um conjunto de regras do tipo snam

Exemplo:

Se estado s = (inimigo próximo, estou perdendo e tempo acabando)então

ação a = (usar toda a munição);

Se estado s =(outro estado) então ...

Mapeia estados do ambiente ou transição do ambiente de um estado para um outro, indicando a satisfação imediatado agente no estado resultando da transição em relação aos seus objetivos

• R: estado(ambiente) real, ou

• R: (estado1(ambiente), estado2(ambiente)) real

• R: codifica os objetivos do agente de maneira imediata local

• R: pode ser determinista ou estocástica

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

(23)

O uso de um sinal de reforço é uma da características mais importantes de RL

O sinal de reforço é a maneira de se comunicar ao agente o que desejamos que ele faça, não como ele deve executar a tarefa

45

Em geral não se penaliza um agente por não ter acesso a alguma informação relevante, mas por ter tido conhecimento e depois esquecido.

Reforço (r):É um valor escalar, respostado ambiente dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

O objetivo do agenteé maximizara seqüência de recompensasrecebidas, ou seja, maximizaro Reforço esperado

T t

t t

t r r r r

R 1 2 3

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

46

A função acima faz sentido quando a interação agente- ambiente pode ser quebrada em subsequências

chamadas episódios.

(24)

47 47

Cada episódio termina em um estado terminal – Em tarefas episódicas, distingue-se estados não terminais, S, dos estados terminais, S+

Quando a interação agente-ambiente não pode ser quebrada naturalmente em episódios, dizemos que a tarefa é contínua.

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

reforço em todos xtodos x em poucospoucos estados

Refor

Reforçço em o em todos todos os estadosos estados

Agente recebe reforçoem todosos estados

Pode facilmente atribuiresse reforçoa esse estadoou a última açãoque executou

Simplificaa atualização da estimativa do valordesse estadoou ação

Refor

Reforçço em o em poucos poucos estadosestados

Agente recebe reforço apenas em poucos estados

Enfrenta o problemada distribuiçãodesse reforço entre as várias ações que executou desde o último reforço

Dificultaatualização da estimativa do valordos

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

(25)

As ações são escolhas feitas pelos agentes;

As recompensas são a base para avaliação das escolhas;

Os estados são a base para se fazer as escolhas;

Elementos de um sistema RL Elementos de um sistema RL

49

Enquanto a função de reforço indicaos movimento promissores imediatos; a função valorestado indica o ganho total que pode ser acumulado no futuro se iniciarmos no estado em consideração

A função valorindica o ganho potencial de longo termo de um estado, levando em conta os estados que sucedem o estado em consideração

50

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

(26)

Função de Valor:Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política

 

0

) 1

(

k

t k t k t

t s s E r s s

R E s

V

 

0

1 ,

, )

, (

k

t t k t k t

t

ts sa a E r s sa a

R E a s

Q

A função de valor representa o reforço esperado a longo prazo.

Função de valor do estado para 

Função de valor da ação para 

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

51

Para qualquer es a função de valor de sem é avaliada para os possíveis s´:

Equação de Bellman:

Relação valor do estado e dos valores dos estados sucessivos

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

A eq. Bellman realiza a média sobre todas as possibilidades,

(27)

A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.

Valor deste estado é o valor esperado para o próximo estado + reforço esperado Backup diagrams: formam a base das operações de atualização

53

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

Objetivo do RL Objetivo do RL

O objetivo do RL émaximizaro reforço total (função valor) obtido a longo prazo

Busca de uma política que

maximize o valor esperado de reforço para cada estado sdo conjunto S

) ( :sS aA s

54

(28)

Fun

Funç ções de Valor ões de Valor Ó Ótimas timas

Solucionar RL encontrar a política ótima.

A é melhor ´ se o retorno esperado é maior ou igual para todos os estados.

Se >= ´, V(s) >= V´(s) para todo s S

Se existe (e sempre existe) uma que é melhor ou igual a todas as outras políticas, então é ótima

55

Funç Fun ções Valor ões Valor Ó Ótimas timas

Se maximizamos (como definido para encontrar a função valor ótima), temos que:

 

r Q s a s s a a

E

a s Q a

s Q

s s s V r E

s V s

V

t t t

t s a

t t a t

s a

,

| ) ' , ( max

) , ( max ) , (

| ) ( max

) ( max ) (

1

* 1

* ) (

*

1

* 1

* ) (

*

A A

Estas são as equações de otimalidade de Bellman

(29)

Fun

Funç ções Valor ões Valor Ó Ótimas timas

Estas são as duas formas para a Equação de otimalidade de Bellman

57

Funcões

Funcões Valor Valor ótimas ó timas

r Q s a s sa a

E

a s Q a

s Q

s s s V r E

s V s V

t t a t

t s a

t t a t

s a

,

| ) ' , ( max

) , ( max ) , (

| ) ( max

) ( max ) (

1

* 1 '

* ) (

*

1 1

* ) (

*

A A

Das equações de Bellman, a forma de enxergar o ótimo é

58

(30)

Fun Funç ções Valor ões Valor ó ótimas: Pol timas: Polí íticas ticas Ó Ótimas timas

Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):

Que representam políticas ótimas:

) ( max )

*(

s V s

V

Q*(s,a)max Q(s,a)

) , ( max arg ) (

* s Q* s a

Desta forma, * representa a política mais ambiciosa respeito de Q*

59

Fun Funç ções Valor ões Valor ó ótimas: Pol timas: Polí íticas ticas Ó Ótimas timas

Três Suposições Verdadeiras:

A dinâmica do ambiente é conhecida;

Recurso computacional suficiente;

Propriedades de Markov.

(31)

Como

Como é é que o RL funciona? que o RL funciona?

*

*

Q Q

V V

*

Contínuo e ON-Line, RL age e aprende de modo simultâneo

Experiência

Política Função

de Valor SELEÇÃO DA

AÇÃO

ALGORITMO DE

APRENDIZADO

POR REFORÇO

*

* 2

1

2

1

V

  V

   V

61

Reinforcement Learningsão métodos de aprendizado obtido pela interaçãode um agentecom o ambiente externo.

Aprender o mapeamentode estadose açõespara escolher as ações ótimas a serem tomadas dado um objetivodo agente.

A métrica da qualidadeda açãoescolhida é o reforço recebido após ter sido tomada a ação no estado atual.

Reinforcement Learning Reinforcement Learning

62

(32)

O que

O que éé

aprendizado por refor

aprendizado por reforçço ?o ?

Problema de aprendizagem pode ser definido:

Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante de tempo

de tempo tt::

o agente esto agente estááem um em um estadoestadoss

executa uma executa uma açãoãoaa

vai para um vai para um estadoestados’s

recebe uma recebe uma recompensarecompensarr

63

A representação deste estado deve ser suficiente para que o agente tome suas decisões (satisfaz a propriedade de Markov)

Ex: Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não O ambiente não precisa ser episódico

Referências

Documentos relacionados

Tabela 1 - Percentual de Fecundidade e fertilidade de fêmeas não irradiadas de Aedes aegypti oriundas da Ilha de Fernando de Noronha acasaladas com machos expostos (geração parental)

The long-term exogenous progesterone treatment of prepubertal bitches in a canine model of partial ablation of endometrial glands did not cause periglandular fibrosis or endometrial

A Política Nacional de Saúde Bucal (PNSB), denominada Brasil Sorridente, publicada em 2004 e ainda em vigor, tem como principais eixos: a reorganização da atenção

É possível perceber como a interação entre as ciências, incluindo a História da Arte e sua filosofia, situou este pertencimento a uma humanidade plena como principal interface

Skobeltsyn Institute of Nuclear Physics, Lomonosov Moscow State University, Moscow, Russia 102 State Research Center of Russian Federation, Institute for High Energy Physics,

ATRIBUIÇÕES DA EQUIPE MULTIPROFISSIONAL DE TERAPIA NUTRICIONAL (EMTN) PARA NUTRIÇÃO PARENTERAL.. ATRIBUIÇÕES DOS PROFISSIONAIS MÉDICOS 1.3