Aprendizagem-q Aplicada `a Bolsa de Valores

4 Aprendizagem Computacional

4.3 Aprendizagem-q Aplicada `a Bolsa de Valores

Os ganhos na bolsa de valores s ão os lucros obtidos com a compra e venda de aç ões. No cen ário proposto, considera-se inicialmente apenas a diferença obtida entre o valor da compra e o valor da venda que pode se reverter em lucro ou em preju´ızo. A recompensa para o agente ser á o lucro (percentual sobre o valor de compra), portanto se a partir de um determinado estado, ele executar uma aç ão que gere lucro, o mesmo ser á recompensado.

E preciso levar em consideraç ão que dois mecanismos de decis ão diferentes s ão usados pelo investidor dependendo se ele est á vendendo ou comprando aç ões. Quando um investidor compra, ele normalmente leva em consideraç ão a tend ência de alta ou queda de uma determinada aç ão. Por outro lado, quando vende, toma como ponto de partida n ão somente a tend ência, mas tamb ém o lucro ou preju´ızo da aç ão que ir á tomar.

Nesse caso, tem-se dois agentes de aprendizagem, um agente vendedor e outro comprador. A aç ão de um agente comprador é basicamente fazer lances, j á a de um agente vendedor é ofertar.

O grande problema para a aplicaç ão da aprendizagem-q na construç ão de agentes de software capazes de aprender é a representaç ão dos estados (LEE et al., 2007). Dentre os v ários sistemas propostos para Bolsa de Valores utilizando aprendizagem por reforço, h á complexas representaç ões de estado em virtude da necessidade de se manter o registro hist órico dos valores das aç ões. Lee et al. (2007) prop õe o uso de uma tabela chamada de matriz TP (Turning Point).

Entretanto, o sistema a ser desenvolvido ter á um agente de an álise t écnica que ter á a preocupaç ão de fazer a an álise hist órica e determinar se é ou n ão um momento bom para se investir. Nossa preocupaç ão ser á dividida em duas etapas, a primeira diz respeito ao agente comprador. Ele considerar á a tend ência de valor das aç ões em um intervalo que vai do valor de suporte at é o valor de resist ência de uma aç ão, ou seja, o maior valor de suporte j á atingido e o maior valor de resist ência j á atingido.

Para o agente vendedor a ênfase ser á dada à tend ência e ao lucro obtido com a venda da aç ão em um determinado momento. O lucro ser á igual ao valor de venda menos o valor de compra. Assim, pode haver tanto lucro quanto preju´ızo, mas a recompensa ser á maior a medida que o valor do lucro for maior. A maior possibilidade de lucro é quando um agente compra a aç ão em um valor de suporte e vende em um

Figura 4.1: Exemplo de Gr ´afico de Resist ˆencia

valor de resist ˆencia.

Figura 4.2: Exemplo de Resist ˆencia e Suporte em um Gr ´afico de CandleStick

Mesmo sabendo que a an álise t écnica é um mecanismo que n ão atua sozinho, em virtude da exist ência de an álises fundamentalistas, o tratamento de an álises fundamentalistas ficar á a cargo de trabalhos futuros, uma vez que envolve um conjunto maior e mais complexo de vari áveis a serem analisadas.

O agente de an álise t écnica ser á sens´ıvel ao perfil do investidor, podendo enfatizar an álises intraday para investidores agressivos e, se for um investidor conservador,

ser á enfatizado a an álise anual. Mas é importante notar que na equaç ão de c álculo da funç ão aç ão-valor, o valor de alfa (α) vai variar de acordo com a probabilidade de investimento fornecida pelo agente de an álise t écnica em cada estado (s) que vai para um pr óximo estado (s0).

Q(a, s) = Q(a, s) + α(R(s) + γ max

Q[a0, s0] − Q(a, s)) (4.7) Como α é a taxa de desconto, ent ão α ser á maior quanto maior for a probabilidade de compra, incentivando o agente a comprar nos melhores momentos. Durante a venda quanto maior for o lucro, maior ser á a taxa de desconto, recompensando o agente no momentos em que o mesmo der maior lucro.

Como base para este estudo tem-se como exemplo as aç ões da PETROBRAS-PN (PETR4.SA). Suponha-se que o valor m´ınimo atingido por essa aç ão seja de 16 e o valor m áximo seja de 56. Os valores de compra ent ão v ão variar nesse intervalo, para que haja lucro o valor de venda deve ser maior que o valor de compra. Ent ão a tabela de estados vai variar de acordo com esse valores, al ém de possuir o estado adicional de ”N ÃO COMPRAR” e ”N ÃO VENDER” para cada uma das nossas tabelas de estado seguindo o modelo para o algoritmo de aprendizagem da funç ão aç ão-valor.

Como se pode observar na figura 4.3, temos a tabela de estado Q(a, s), no qual um estado A(i, j) pode transitar para qualquer outro estado a partir da atualizaç ão dos valores das aç ões no mercado. A maior recompensa ser á quando o valor de compra for 16 e a recompensa ser á nula quando o valor de compra for 56.

A tabela de estados para o agente de compras tem seus valores no intervalo entre 16 e 56. O valor de recompensa ser á maior quanto menor for o preço de compra e maior for nossa possibilidade de lucrar com essa aç ão. Como os preços do mercado s ão vol áteis a partir de um estado inicial (s) que corresponde ao intervalo de valor da aç ão ele pode variar para qualquer estado em que esteja o novo valor, no entanto o pr óximo estado n ão é necessariamente um estado em que a aç ão foi comprada, pois o agente pode escolher por n ão comprar aquela aç ão, nesse caso ele vai para o estado de ”N ÃO COMPRAR” e atualiza esse estado, depois volta para o valor atual de compra.

Para a venda a tabela de estados ser á divida entre os poss´ıveis valores de lucro e seus intervalos. Quanto maior o lucro obtido na venda de uma aç ão maior ser á o valor de recompensa. O intervalo da tabela varia entre o maior lucro poss´ıvel e o maior preju´ızo poss´ıvel. O valor de recompensa ser á maior no maior valor da tabela e ser á negativo no maior preju´ızo. Dessa forma, a longo prazo, incentiva-se o agente a vender nos momentos de maior lucro e menor preju´ızo. Al ém disso, dependendo do valor atual e da pol´ıtica de investimento um estado poss´ıvel é o de ”N ÃO VENDER” que ser á escolhido caso a aç ão n ão seja vendida, atualiza esse estado e volta ao estado atual do poss´ıvel lucro.

Um detalhe importante é que a recompensa ser á maior quanto maior for o lucro, portanto no estado da aç ão A(1, 1), é onde o valor de recompensa ser á maior e ser á 0 para o estado A(4, 5). Visualiza-se mais detalhadamente na figura 4.4 esse compor- tamento. No futuro os valores presentes nessa tabela far ão com que o agente tome decis ões melhores onde os lucros forem maiores.

Os valores do intervalo dos estados poder á mudar caso a barreira de suporte e resist ência seja rompida, ou seja, a tabela se ajustar á aos novos valores alcançadas pelas aç ões. Se isso acontecer, a tabela de estado, tanto para compra como para venda, ser á remodelada com os novos valores, adaptando a aprendizagem-q a essa nova situaç ão. Os valores dentro de um determinado estado permanecer ão no mesmo intervalo em que estavam anteriormente.

Figura 4.4: Tabela de Q(a,s) para o Agente Vendedor

de vezes que mudar de estado. Quanto mais vezes repetir determinadas aç ões e passar por v ários estados, mais perto ele chegar á do resultado ótimo.

No documento Protocolo de Negociação Baseado em Aprendizagem-Q para Bolsa de Valores (páginas 66-71)