Soluções para coexistência de sistemas LTE e wi-fi em ambientes multicelulares

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE

UNIVERSIDADEFEDERAL DORIOGRANDE DO NORTE

CENTRO DETECNOLOGIA

PROGRAMA DEPÓS-GRADUAÇÃO EMENGENHARIAELÉTRICA E DECOMPUTAÇÃO

Soluções para Coexistência de Sistemas LTE e

Wi-Fi em Ambientes Multicelulares

José Martins de Castro Neto

Orientador: Vicente A. de Sousa Jr.

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Telecomunicações) como parte dos requisitos para obtenção do título de Mestre em Ciências.

Número de ordem PPgEEC: M607

Natal, RN, Agosto de 2020

(2)

Castro Neto, José Martins.

Soluções para coexistência de sistemas LTE e wi-fi em ambientes multicelulares / José Martins Castro Neto. - 2020. 63f.: il.

Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte, Centro de Tecnologia, Pós-Graduação em Engenharia Elétrica e de Computação, Natal, 2020.

Orientador: Dr. Vicente Angelo de Sousa Jr.

1. Engenharia de comunicação Dissertação. 2. WiFi Dissertação. 3. LTEU Dissertação. 4. Multicelular

-Dissertação. 5. Aprendizado por Reforço - -Dissertação. I. Sousa Jr., Vicente Angelo de. II. Título.

RN/UF/BCZM CDU 621.391

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

(3)

Aos meus pais,

"[...] You are the bows from which

your children as living arrows are

sent forth. The archer sees the mark

upon the path of the infinite, and He

bends you with His might that His

arrows may go swift and far. Let

your bending in the archer’s hand be

for gladness; For even as He loves

the arrow that flies, so He loves also

the bow that is stable."

(Gilbran, Kahlil. The Prophet)

(4)

Agradecimentos

À minha família, em especial aos meus pais por todos os sacrifícios durante esses anos para que eu pudesse apenas focar nos meus estudos. Agradeço-lhes pela oportunidade de partilhar todas as minhas conquistas. Agradeço e lembro de minha falecida avó, infelizmente a senhora não teve a oportunidade de estar presencialmente nessas conquistas, porém te dedico todas por toda a eternidade.

Ao meu orientador e amigo, Vicente. Agradeço do fundo do meu coração por todos os ensinamentos, puxões de orelhas e orientações. Por meio do seu jeito aberto, inquieto e de sempre querer mais, você contagia todos ao seu redor a buscarem sempre o seu melhor. Você sempre será um referência para mim e seus ensinamentos técnicos serão de grande valia por onde eu andar, pois um bom pupilo sempre lembra do seu mestre.

Aos meus amigos do GppCom, pelas diversas rodas de conversas sobre o ns-3 e todos os conceitos relacionados. Muitas soluções e melhorias de código tiveram inicio em longas conversas como essas. Agradeço também a todos que diretamente, ou indiretamente, tiveram a paciência de me escutar falar sobre minhas soluções. O ato da fala como forma de organizar os pensamentos na cabeça só é extramente efetiva se encontrar também um bom ouvinte.

Por fim, agradeço ao Núcleo de Processamento de Alto Desempenho da UFRN (NPAD) pelos serviços disponibilizados, além de toda a assistência técnica nos eventuais bugs. Muita das nossas publicações só foram possíveis em tempo hábil graças à utilização do supercomputador. Agradeço também à CAPES pelo apoio financeiro.

A todos aqui citados e aos demais que eventualmente esqueci de agradecer, muito obrigado!

(5)

Resumo

O crescimento do acesso à internet por meio dos dispositivos móveis de quarta geração (4G), aliado ao crescimento da utilização de smartphones, o uso massivo de serviços de streaming por parte destes dispositivos e a chegada da quinta geração (5G), faz com que a demanda por transmissão móvel de dados atinja altos patamares, e requeira mais largura de banda. Entretanto, o espectro eletromagnético utilizado para essas aplicações é limitado, acarretando escassez frente à demanda, além dos altos custos e burocracia para outorga de novas bandas. Uma das soluções encontradas para tal problema é a utilização do espectro não-licenciado, uma vez que é gratuito e possui, em certas faixas, largura de banda maior que o licenciado, além de possuir porções com subutilização, indicando menos possibilidade de interferência entre tecnologias. Nesse contexto, surgem as tecnologias LTE-LAA e LTE-U para o uso do espectro não-licenciado na banda Industrial, Scientific and Medical(ISM) em 5 GHz, com modificações no mecanismo de acesso ao meio do LTE. Essas tecnologias devem coexistir com a já consolidada e bem-sucedida tecnologia Wi-Fi, que utiliza o espectro não-licenciado desde sua criação. Entretanto, como cada tecnologia implementa um mecanismo de acesso ao meio diferente, estudos devem ser realizados para indicar os impactos que cada sistema tem nos demais quando coexistem. Além do estudo da coexistência, surge a oportunidade da aplicação de técnicas de Machine Learning para o ajuste automático dos parâmetros de acesso ao meio, controlando o impacto gerado de uma tecnologia em outra. Estudos de tal cenário em ambientes de uma única célula foram bastante explorados na literatura, restando como desafio o estudo e a concepção de soluções para o ambiente multicelular. Por tudo supracitado, este trabalho tem como objetivos: (1) o estudo da coexistência entre as tecnologias LTE-U e Wi-Fi em um cenário multicelular, com interferência co-canal e inter-RAT (mesma tecnologia); (2) aplicação de algoritmos de Machine Learning (aprendizado por reforço) para ajuste de parâmetros, visando otimizar o acesso ao meio de uma, ou ambas tecnologias, e consequentemente atingir melhoria na coexistência na forma de aumento de taxa e diminuição de perdas de pacotes.

(6)

Abstract

The growth of mobile internet access from fourth generation (4G) devices, combined with increasing usage of smartphones, the upcoming fifth generation (5G) and massive usage of multimedia services, make the demand for mobile traffic reach high levels and the need for bandwidth grows. However, the electromagnetic spectrum utilized by these applications is limited, creating scarcity in the face of demand, besides the high costs and bureaucracy for granting new bands. To overcome this problem, one of the solutions is to leverage the unlicensed spectrum, for it is free of charges, presents some of its portions with bandwidth higher than the licensed spectrum, and portions with underused profile, indicating less probability of interference between technologies. In this context rises the LTE-U and LTE-LAA technologies with modifications in the medium access mechanism of LTE for leveraging the unlicensed spectrum in the Industrial, Scientific and Medical (ISM) 5 GHz band. These technologies must coexist with the most successful and consolidated technology already using this portion of the spectrum, the Wi-Fi. However, each technology implements its access mechanism, then studies must be done to point out impacts that each of these technologies has when coexist. Besides the coexistence study, the application of machine learning techniques to automatically adjust the medium access parameters, controlling the generated impact of one technology into another must be realized. Studies in such a scenario and with single-cell environments have already been explored in literature, remaining the challenge of new solutions targeting multi-cell environments. For all it has been exposed, this work has the following goals: (1) The coexistence study of LTE-U and Wi-Fi technologies in a multi-cell scenario, with co-channel and inter-RAT (same technology) interference; (2) The application of machine learning algorithms (reinforcement learning) to adjust the parameters targeting optimizing the medium access for one, or both technologies, and consequently reach improvements in the coexistence measured in the form of data rates and decreasing packet losses.

(7)

Sumário

Sumário i

Lista de Figuras iii

Lista de Símbolos e Abreviaturas iv

1 Introdução 1

1.1 Escopo e objetivos da dissertação . . . 2

1.2 Trabalhos Relacionados . . . 2

1.3 Organização da dissertação . . . 5

2 Mecanismos de Coexistência do Wi-Fi e LTE-U 6 2.1 Wi-Fi . . . 6

2.1.1 PCF . . . 6

2.1.2 DCF . . . 7

2.1.3 RTS/CTS . . . 9

2.1.4 Alterações com o 802.11e . . . 10

2.2 LTE-U . . . 10

2.2.1 SDL oportunístico . . . 11

2.2.2 Seleção de canal . . . 12

2.2.3 CSAT . . . 12

3 Metodologia e Modelagem Sistêmica 14 3.1 Metodologia . . . 14

3.2 O simulador ns-3 . . . 14

3.2.1 Módulo do LTE-U no ns-3 . . . 15

3.2.2 Módulo do Wi-Fi no ns-3 . . . 16

4 Cenário de Avaliação e Resultados Preliminares 18 4.1 Cenário de avaliação multicelular . . . 18

4.1.1 Metodologia de simulação . . . 19

4.2 Análise dos resultados . . . 20

5 Solução Proposta via Q-Learning 26 5.1 O aprendizado por reforço . . . 26

5.1.1 Q-Learning . . . 27

5.2 Solução centralizada baseada em Q-Learning . . . 28 i

(8)

5.3 Avaliação dos resultados via Q-Learning . . . 29

5.4 Conclusões do Capítulo . . . 37

6 Solução Proposta via Multi-armed Bandit 38 6.1 Multi-armed Bandit . . . 38

6.2 Solução baseada no Multi-armed Bandit . . . 40

6.3 Avaliação da solução via MAB . . . 41

6.4 Conclusões do Capítulo . . . 46

7 Conclusões e Comentários finais 47 7.1 Produção acadêmica . . . 48

(9)

Lista de Figuras

2.1 PCF e DCF no IEEE 802.11. . . 7

2.2 Procedimentos de transmissão e backoff no IEEE 802.11 seguindo DCF. . 8

2.3 Procedimento de RTS/CTS no 802.11. . . 9

2.4 Supplemental Downlink no LTE-U. . . 11

2.5 Esquema de duty cycle no LTE-U. . . 12

2.6 Relação entre os três mecanismos de coexistência do LTE-U. . . 13

3.1 Modelagem do LTE no ns-3. . . 15

3.2 Pilha de protocolos do LTE no ns-3. . . 16

3.3 Diagrama de blocos do simulador ns-3 para coexistência. . . 17

4.1 Cenário indoor do 3GPP para coexistência. . . 19

4.2 Vazão vs DC para UDPRate=1 Mbps. . . 21

4.3 Vazão vs DC para UDPRate 2 Mbps. . . 22

4.4 Vazão vs DC para UDPRate 4 Mbps. . . 22

4.5 Vazão vs DC para LTE-UUDPRate= 4 Mbps e Wi-FiUDPRate= 500 kbps. . 24

4.6 Vazão vs DC para LTE-UUDPRate= 500 kbps e Wi-FiUDPRate= 4 Mbps. . 24

5.1 Interação agente-ambiente. . . 26

5.2 Simulação 1: Vazão DC Fixo vs Q-Learning. . . 31

5.3 Histograma dos valores DC selecionados pelo Q-Learning. . . 31

5.4 Simulação 2: Vazão DC Fixo vs Q-Learning. . . 33

5.5 Ganhos em % para o Q-Learning (referência DC=0, 6). . . 33

5.6 CDF da vazão por usuário (DC = 0.6). . . 34

5.7 CDF da vazão por usuário (DC = 0.7). . . 35

5.8 Análise do 10opercentil para cada valor de DC. . . 36

5.9 Análise do 90opercentil para cada valor de DC. . . 36

6.1 Simulação 1: Vazão DC Fixo vs Soluções Propostas. . . 42

6.2 Histograma dos valores DC selecionados pelo MAB coordenado. . . 43

6.3 Simulação 2: Vazão DC Fixo vs Soluções Propostas. . . 44

6.4 Ganhos relativos para o 10opercentil. . . 45

6.5 CDF da vazão por usuário para ambos MAB. . . 46

(10)

Lista de Símbolos e Abreviaturas

Txlteu Vazão do operador LTE-U

T_{xwi f i} Vazão do operador Wi-Fi

3GPP 3rd Generation Partnership Project ABS Almost blank sub-frame

AC Access Category

ACK Acknowledgement Frame AP Acess Point (Wi-Fi) CA Carrier Aggregation CAC Connection Access Control

CBRS Citizens Broadband Radio Service CCA Clear Channel Assessment

CDF Distributed Coordination Function or Cumulative Density Function CFP Contention-free Period

CP Contention Period

CSAT Carrier-sensing Adaptive Transmission

CSMA/CA Carrier-sense Multiple Access with Collision Avoidance DC Duty Cycle

DIFS Distributed Inter-frame Spacing ED Energy Detection

EDCF Enhanced Distribution Coordination Function eNodeB enhanced NodeB (ponto de acesso LTE) FDD Frequency Division Duplex

(11)

IEEE Institute of Electrical and Electronics Engineers LAA Licensed Assisted Access

LBT Listen Before Talk LTE Long-Term Evolution LTE-U LTE-Unlicensed M2M Machine to Machine MAB Multi-armed Bandit MAC Medium Acess Control

MIMO Multiple Inputs Multiple Outputs ML Machine Learning

NAV Network Allocation Vector

OFDMA Orthogonal Frequency Division Multiple Access PCell Primary Cell

PCF Point Coordination Function

QL Q-Learning

QoS Quality of Service

RAT Radio Access Technology RB Resource Block

RSRP Reference Signals Received Power RSS Received Signal Strength

RTS/CTS Request to Send/Clear to Send SCell Secondary Cell

SDL Supplemental Downlink SIFS Short Inter-frame spacing STA Mobile Stations

TDM Time Division Multiplexing TXOP Transmission Opportunity UDP User Datagram Protocol

(12)

Capítulo 1

Introdução

De acordo com seu relatório anual de mobilidade, a Ericsson informou um crescimento de 56% do tráfego mundial de dados móveis entre os primeiros semestres de 2019 e 2020 (Ericsson, 2020). Esse crescimento apresenta um perfil exponencial e é visto desde os primórdios da utilização das tecnologias de telefonia móvel como meio multimídia. Tal crescimento é fruto não somente do maior número de smartphones utilizados a cada dia, mas principalmente pelo aumento na média de volume de dados por dispositivo, devido a demanda por serviços de vídeo. Com relação às projeções, o relatório também indica que até o ano de 2025 é esperado um crescimento de 31% ao ano no volume dos dados móveis, e que no ano de 2025, 45% do total do tráfego mundial de dados móveis será gerado por redes móveis de quinta geração (5G), seguida pelas redes de quarta geração (4G) (Ericsson, 2020).

Para lidar com esse crescimento, a capacidade das redes móveis deve ser aumentada, e como é conhecido teoricamente, por (Shannon, 1998) (Republished), um dos modos para aumentar a capacidade é aumentar a banda. Entretanto, essas redes móveis utilizam banda licenciada em sua operação, que acarreta em custo de outorga para as operadoras de telefonia — outorga que é cara e feita via leilão. Assim, tanto os órgãos de padronização, como empresas do ramo, chegaram à proposta de utilização do espectro não-licenciado para aumentar a capacidade das redes móveis pelos seguintes motivos: (i) não há necessidade de custo para utilização; (ii) em certas porções apresenta perfil de subutilização, além de mais banda disponível que a contraparte licenciada (Erik Dahlman and Skold, 2016).

Assim, da proposta de uso da banda não-licenciada surgiram duas principais tecnologias de acesso (RAT - Radio Access Technology): LTE-Licensed Assisted Access (LTE-LAA) e LTE-Unlicensed (LTE-U) (3GPP, 2015; Qualcomm, 2014). Certas regiões do mundo requerem que dispositivos que utilizam banda não-licenciada implementem um mecanismo de compartilhamento de acesso ao meio, chamado Listen Before Talk (LBT), para poder coexistir com as tecnologias que historicamente já utilizam essa porção do espectro, como é o caso do Wi-Fi (802.11 a/b/g/n/a.c). Esse mecanismo serve não apenas para limitar o acesso ao meio, impedindo o monopólio do canal de comunicação sem fio por apenas uma tecnologia de acesso, como também para promover a interoperabilidade. Para essas regiões é que o LTE-LAA é destinado. Ele opera seguindo um funcionamento similar ao Carrier-sense Multiple Access with Collision Avoidance (CSMA/CA) do

(13)

CAPÍTULO 1. INTRODUÇÃO 2

Wi-Fi. Já o LTE-U é destinado para regiões em que o mecanismo LBT não é obrigatório, embora ainda haja restrições com relação ao tempo máximo de utilização do canal de comunicação sem fio por cada tecnologia. Assim, o LTE-U funciona com base no ciclo de trabalho (DC - Duty Cycle) relativo ao tempo que o LTE fica ativo, utilizando o canal, e o tempo que fica em espera.

Para avaliar o impacto e o desempenho dessas novas tecnologias quando coexistem com Wi-Fi — tecnologia mais dominante que utiliza a banda não-licenciada — alguns trabalhos foram realizados (Santana et al., 2017; De Santana et al., 2018; Zinno et al., 2018). Três principais conclusões foram levantadas: (i) LTE-LAA é melhor vizinho para o Wi-Fi que o próprio Wi-Fi, pois causa menor interferência quando coexiste em cenários com poucos ou muitos usuários; (ii) LTE-U pode ser um bom vizinho para o Wi-Fi, desde que sua duração de utilização do canal de comunicação, ajustado pelo valor do DC, seja dinamicamente regulado com base no perfil de interferência ou demanda; (iii) cenários de coexistência entre LTE-U e Wi-Fi provêm características propícias para aplicação de técnicas de aprendizado de máquina (ML - Machine Learning) para gerenciamento dinâmico de recursos, visando uma melhor coexistência.

1.1 Escopo e objetivos da dissertação

Por meio dos trabalhos anteriormente citados e um estudo bibliométrico , apresentado em (José M. de C. Neto and de Sousa Jr., 2019), notou-se que algoritmos de aprendizado de máquina podem desempenhar um grande papel no coexistência de RATs em banda não-licenciada. Visando a melhoria em termos de vazão de dados, esse trabalho tem como objetivo, primeiramente, mostrar como o perfil de interferência na coexistência entre LTE-U e Wi-Fi, em um cenário multicelular, muda a partir da parametrização do ciclo de trabalho DC do LTE-U. A escolha por este cenário se deve ao fato de ser um cenário não só mais complexo em termos de interferência, como também mais realista quando comparado com os cenários utilizados na maioria dos trabalhos anteriormente citados. A partir das conclusões deste cenário multicelular, propõem-se a aplicação de algoritmos de aprendizado de máquina, para ajuste dinâmico do parâmetro DC, objetivando melhoras na coexistência, que podem ser medidas por aumento da vazão de dados do sistema, da vazão por usuário, entre outros.

Os estudos apresentados neste trabalho utilizam como metodologia de prova de conceito o simulador ns-3 (ns-3, 2016b). Este simulador apresenta como principais características o fato de ser um simulador de eventos discretos, implementado em C++, voltado a modelagem de redes baseadas em internet, e que segue especificações técnicas de diversos órgãos de padronização, como 3GPP e IEEE.

1.2 Trabalhos Relacionados

Mecanismos que habilitam a coexistência são os grandes alicerces para as tecnologias de acesso em banda não-licenciada, e sua parametrização pode fazer com que uma tecnologia acabe levando vantagem sobre as demais quando competem pelo o acesso ao

(14)

canal de comunicação (Zinno et al., 2018). Como mostrado em (Santana et al., 2017), o LTE-LAA, embora seja baseado no CSMA/CA, acaba levando vantagem e apresentando melhor desempenho quando coexiste com o Wi-Fi. Por sua vez, o LTE-U, que é uma solução proposta pela Qualcomm, apresenta alguns mecanismos protegidos por meio de patentes. Por isso, alguns trabalhos (Abinader et al., 2018; Almeida et al., 2013) propuseram explorar mecanismos alternativos (chamados de LTE-DC) baseados em sensoriamento do meio de comunicação sem fio e adaptação dinâmica do tempo de acesso fracionário em ciclo de trabalho (DC). Trabalhos mostraram que uso de tais mecanismos possibilitam a coexistência do LTE-U com Wi-Fi, e até com o próprio LAA, apontando a oportunidade de ter melhorias significativas fazendo-se o ajuste dinâmico do DC (Bojovic et al., 2019; Alhulayil and Lopez-Benitez, 2018; De Santana et al., 2018).

Soluções oriundas da teoria clássica de otimização podem desempenhar um papel primordial na melhora de métricas de coexistência. Em (Tan et al., 2019), os autores propõem uma solução baseada em otimização conjunta do tempo de transmissão, alocação de portadora e potência. Além disso, a associação de usuários para atingir níveis de qualidade de serviço (QoS - Quality of Service) baseados em throughput e delay para coexistência LAA/Wi-Fi também é abordada. Os resultados de simulação mostraram que o desempenho teórico esperado é atingido com a solução, embora haja um compromisso entre o nível desejado de QoS e a complexidade da solução.

Os autores de (Maule et al., 2018) apresentam dois algoritmos visando fairness na alocação de recursos e provimento de QoS também para a coexistência LAA/Wi-Fi. O primeiro algoritmo é baseado em controle de admissão de conexão (CAC - Connection Access Control) e responsável pela justiça no compartilhamento dos recursos; já o segundo algoritmo, utiliza uma abordagem de duty cycle, similar ao proposto para o LTE-U, porém aplicado no LTE-LAA para melhorar as métricas relacionadas ao delay. Ainda na coexistência LAA/Wi-Fi, os autores de (Mehrnoush et al., 2018) fazem um estudo analítico de como a detecção de energia — parametrizada por ED (Energy Detection) e utilizada para checar se o canal sem fio está ocupado — influencia no throughput de cada tecnologia. As conclusões apontam que é possível maximizar o throughputsistêmico, ou por usuário, por meio do ajuste do limiar do ED.

Ainda no campo das abordagens clássicas, alguns outros trabalhos aplicam técnicas de teoria dos jogos visando atacar o problema da coexistência em banda não-licenciada. Um framework baseado em jogo de coalizão é apresentado em (Zhang et al., 2018), em que um deployment real usando roteadores comerciais é utilizado como testbed de um cenário LTE-U/Wi-Fi. Nesse cenário, e com a solução proposta, os usuários participam do jogo em que o objetivo é maximizar o throughput do sistema (soma de cada usuário). Já em (Bairagi et al., 2018), um jogo cooperativo de barganha de Nash é modelado para que o LTE-U e o Wi-Fi compartilhem recursos no tempo, visando melhoras no QoS dos usuários LTE-U, ao mesmo tempo que protege o Wi-Fi.

Além dessas abordagens por otimização ou teoria dos jogos, o uso de técnicas de aprendizado de máquina tem crescido bastante. Utilizando técnicas de aprendizado supervisionado, os autores de (Lai et al., 2020) propõem um esquema baseado em classificação para encontrar os usuários mais atingidos pela interferência na coexistência entre LTE-U e Wi-Fi. Por meio do conhecimento de tais usuários, o scheduler do LTE-U

(15)

pode tomar decisões com relação a alocação de recursos, objetivando maximizar a vazão no downlink. Ainda no aprendizado supervisionado, os autores em (Hassan et al., 2020) propõem um esquema baseado em predição de séries temporais com uma rede neural LSTM (Long Short Term Memory) para prever quando o canal de comunicação estará livre. Assim, o LTE-U pode decidir quando transmitir, evitando colisões. Resultados numéricos mostram que a solução pode apresentar desempenho melhor que o LTE-LBT e até abordagens com duty cycle em alguns casos.

Entretanto, o mais comum, quando se utiliza ML no problema da coexistência são trabalhos aplicando o aprendizado por reforço (José M. de C. Neto and de Sousa Jr., 2019). O autor em (Leite, 2014) propõem e aplica diversos frameworks baseados em aprendizado por reforço em problemas de alocação de recursos em sistemas de telecomunicações. Resultados mostram que os algoritmos propostos apresentam vantagens quando comparados com o caso sem as soluções. Usando o algoritmo mais difundido de aprendizado por reforço, o Q-Learning (QL), os autores de (de Santana et al., 2019) propõem um framework para maximizar a taxa de transmissão sistêmica para um cenário de interferência controlada definido pelo 3GPP. Este framework leva em consideração a taxa oferecida para cada usuário e tenta maximizá-la fazendo a escolha dinâmica do valor de duty cycle. Já os autores em (Yu et al., 2019), utilizam um algoritmo que também é baseado no Q-Learning, mas aplicam num cenário multicanal, com o algoritmo selecionando de forma dinâmica o canal menos povoado e o valor de DC para aquele canal de forma a melhorar o desempenho do sistema. Ainda seguindo esse ajuste dinâmico de duty cycle, e também com o Q-Learning, os trabalhos em (Maglogiannis et al., 2018; Bajracharya et al., 2019) apresentam algoritmos que se assemelham em termos de objetivo de fairness na coexistência, diferenciando-se apenas nos parâmetros e métricas utilizadas.

Outra estratégia, baseada em aprendizado por reforço, que vem se destacando em aplicações em telecomunicações é o Multi-armed bandit (MAB). Em (Sriyananda et al., 2016) os autores propõem um MAB para a coexistência do LTE-U e Wi-Fi na banda CBRS (Citizens Broadband Radio Service) em 3,5 GHz. O algoritmo é ajustado para adaptar a controle de potência e o duty cycle de modo a diminuir a interferência, obtendo ganhos consideráveis com relação ao cenário sem o algoritmo. Entretanto, o cenário de avaliação utilizado não foi um dos cenários padrões definidos pelo 3GPP. Seguindo o mesmo algoritmo, porém com algumas modificações na modelagem, os autores em (Parvez et al., 2016) também utilizam a banda CBRS e chegam aos mesmo resultados e conclusões. Ainda em banda não-licenciada, um algoritmo MAB é proposto em (Zhou et al., 2019) para a coexistência de sistemas M2M (Machine to Machine) com o Wi-Fi. Nesse trabalho os autores modelam o MAB para se aproveitar dos white spaces na transmissão do Wi-Fi, almejando melhorar a taxa de transmissão dos dispositivos M2M.

Foi observado pelos trabalhos citados que muitos deles propõem um algoritmo e validam seu funcionamento em cenários mais simples, i.e, cenários de uma única célula ou com interferência controlada. Quando se tem um cenário mais complexo, o estudo é focado apenas no estudo da coexistência entre as tecnologias de acesso sem a intervenção de um algoritmo proposto. Assim, nota-se uma lacuna que pode ser preenchida com trabalhos que proponham e validem algoritmos dinâmicos em cenários mais complexos

(16)

e que demostrem ganhos quando utilizados (José M. de C. Neto and de Sousa Jr., 2019). Diante do que foi exposto, este trabalho pretende contribuir na discussão das seguintes perguntas:

• Quais são as conclusões que se pode tirar do cenário de coexistência quando se tem um deployment multicelular e sujeito a forte perfil de interferência? Como o parâmetro DC do LTE-U influencia no perfil de interferência e nas taxas de dados do sistema?

• Em um cenário multicelular, é melhor um algoritmo independente por estação ou coordenado (centralizado) para ajuste dinâmico de parâmetros?

• Quais são os ganhos que algoritmos baseados em Aprendizado de Máquina pode apresentar quando modelados para serem usados no cenário de avaliação deste trabalho?

• É possível chegar em uma solução baseada em ML que seja simples, porém apresente um ganho comparável a abordagens mais complexas?

1.3 Organização da dissertação

O documento é organizado como a seguir. O capítulo 2 apresenta os principais mecanismos de coexistência que são implementados pelo Wi-Fi e pelo LTE-U. Já o capítulo 3 apresenta a metodologia e modelagem do sistema. Os resultados preliminares para o cenário multicelular e suas devidas conclusões são apresentados no capítulo 4. Sequencialmente, o capítulo 5 apresenta a formulação matemática da primeira solução baseada em aprendizado de máquina, bem como os resultados obtidos com sua utilização. O capítulo 6 apresenta e formula a segunda solução baseada em aprendizado de máquina e os resultados comparativos com a primeira solução. Por fim, o capítulo 8 apresenta as conclusões e comentários finais.

(17)

Capítulo 2

Mecanismos de Coexistência do Wi-Fi e

LTE-U

Os mecanismos do Wi-Fi que possibilitam a coexistência são genuínos da própria estratégia de acesso ao meio do Wi-Fi, enquanto que no LTE-U, os mecanismos adotam esquemas TDM (Time Division Multiplexing) que são combinados com algumas features do LTE padrão. Assim, uma vez que tais mecanismos desempenham um papel primordial na coexistência dessas tecnologias de acesso, este capítulo apresentará o funcionamento básico de cada um, bem como suas características.

2.1 Wi-Fi

Wi-Fi é a denominação de produtos que usam o padrão IEEE 802.11 e que são certificados pela Wi-Fi Alliance. O IEEE 802.11 é um padrão da família de padrões 802 do IEEE para redes locais e metropolitanas, e define especificações da camada física (PHY) e camada de Acesso ao Meio (MAC - Medium Access Control) para utilização de dispositivos em redes sem fio local. O primeiro padrão 802.11 foi introduzido no ano de 1997, o 802.11a, e desde então diversas melhorias foram incorporadas com os padrões seguintes, habilitando operação nas bandas de 2, 4, 5 e 60 GHz, além de possibilitar maiores taxas de transmissão. Porém, mesmo com a melhoria em taxas e adição de novas features, os padrões subsequentes compartilham praticamente os mesmos mecanismos de camada MAC que possibilitam o acesso de vários usuários ao canal sem fio. Esses mecanismos são:

• Point Coordination Function (PCF); • Distributed Coordination Function (DCF); • HCF (EDCA, HCCA).

2.1.1 PCF

Quando se utiliza o PCF, o tempo é dividido em intervalos periódicos chamados beacon, e cada intervalo é subdividido em períodos sem contenção (CPF - Contention-free Period) e períodos com contenção (CP - Contention Period). Durante o CPF, o AP (Access

(18)

CAPÍTULO 2. MECANISMOS DE COEXISTÊNCIA DO WI-FI E LTE-U 7

Point) do Wi-Fi é responsável por gerir os usuários que acessam o canal seguindo um esquema de polling. Assim, um usuário só pode transmitir uma vez que ele receba a autorização do AP. Já durante o CP, os usuários acessam o canal sem fio por meio do mecanismo de CSMA/CA, o DCF. A Figura 2.1 apresenta a divisão no tempo quando o PCF é usado.

Figura 2.1: PCF e DCF no IEEE 802.11.

Fonte: Próprio autor.

2.1.2 DCF

O DCF é um mecanismo de contenção baseado em CSMA/CA que opera de maneira totalmente distribuída e sem coordenação entre as estações (STA - Stations). Assim, todos os procedimentos de sensoriamento do canal até a transmissão em si são feitos individualmente por cada STA ou AP, sem prioridade de um em relação ao outro.

Neste esquema, quando há um novo frame para transmitir, a estação transmissora inicia um sensoriamento contínuo do canal e checa se o canal está livre. Este procedimento chama-se Clear Channel Assessment (CCA) e é feito de dois modos distintos:

• Detecção de energia (ED): nesse procedimento, chamado de CCA-ED, a estação transmissora checa o nível de energia no canal de comunicação, e caso o nível detectado seja maior que um limite pré-estabelecido, a estação considera que o canal está ocupado. Esse limite pré-estabelecido é definido pelo padrão e depende não só do canal, como da banda utilizada (Perahia and Stacey, 2008). Para o padrão 802.11n, e utilizando um canal de banda 20 MHz, o valor é de −62 dBm;

• Detecção de preâmbulo: nesse procedimento, chamado de CCA-CS, a estação que está checando o canal tem a capacidade de receber e decodificar os frames de preâmbulo das demais estações Wi-Fi. Assim, com a decodificação do frame, a estação usa o valor indicado no campo Duration/ID como tempo que ela deve ficar em espera até poder voltar a sensoriar o canal novamente. Com este procedimento evita-se tanto as colisões, como a energia gasta por cada STA, uma vez que ela não necessita checar a todo momento se o canal está livre para transmitir. Para maior proteção a conexões Wi-Fi, o limite pré-estabelecido de detecção é 20 dB acima da sensibilidade de recepção da camada PHY (Perahia and Stacey, 2008).

(19)

Se após o CCA a estação definir que o canal está livre, seu próximo passo é conferir se este mesmo canal se mantém nesse estado por um período de tempo de DIFS (Distributed Inter-frame Spacing). Caso o canal esteja livre e continue livre por todo o tempo de DIFS, então a STA transmite seu frame imediatamente. Entretanto, caso o canal fique ocupado enquanto se espera pelo tempo de DIFS, a estação transmissora cancela a contagem e espera até que o canal fique livre novamente. Uma vez que o canal fique livre, após o cancelamento da contagem, o transmissor espera por mais um tempo de DIFS e se o canal continuar livre, um procedimento de backoff é iniciado.

No procedimento de backoff, a STA sorteia uniformemente um número inteiro Nslots dentro da janela [0,W ], sendo esse número a quantidade de slots de tempo (definido por cada tecnologia de acesso) adicionais que a estação transmissora terá que esperar para poder, enfim, transmitir. A cada slot de tempo que o canal continua livre, Nslots é decrementado, e uma vez que chega à zero, e o canal continua livre, a estação transmite imediatamente. Porém, se o canal ficar ocupado enquanto o procedimento de backoff está sendo realizado, o valor atual de Nslotsé congelado, e só volta ser decrementado quando o canal ficar livre novamente por DIFS e continuar livre por cada slot de tempo que ainda restar na contagem de Nslots. Com este procedimento aleatório, uma vez que o tempo que cada STA sorteia é estatisticamente diferente, diminui-se a probabilidade de colisões para as estações que estão prontas para transmitir e aguardando o canal ficar livre.

Com relação ao valor de W na janela de backoff, inicialmente o seu valor é definido como valor mínimo Wmin(definido pelo padrão). Mas para cada transmissão mal sucedida (colisões de pacotes, por exemplo), o valor de W é atualizado pela fórmula W = [2 ∗ (W + 1) − 1] até chegar o limite de Wmax. O valor de W só é restaurado para Wmin quando a transmissão é bem-sucedida, ou quando o número máximo de retransmissões é alcançado. A Figura 2.2 apresenta um esquemático básico do DCF em ação para um cenário de três STAs. Ver-se que após a transmissão de frame do STA 1, um tempo de DIFS é esperado pelas demais STAs, e que o backoff selecionado pela STA 2 foi maior que a STA 3, assim, quando a STA 3 finalmente transmite, o restante de tempo de backoff da STA 2 só é concluído pós-DIFs do final de transmissão da STA 3. Comportamento similar ocorre com a STA 1 após o frame transmitido da mesma STA 3.

Figura 2.2: Procedimentos de transmissão e backoff no IEEE 802.11 seguindo DCF.

Quando a estação transmissora ganha acesso ao canal, e tendo ela mais de um frame para ser transmitido, o intervalo entre cada frame deve ser de no máximo a duração de um SIFS (Short Inter-frame spacing). Para não haver colisões, tem-se sempre SIFS < DIFS,

(20)

assim uma STA esperando o canal ficar livre não irá confundir um tempo de SIFS com o canal ficando livre. Ademais, este mesmo tempo de SIFS também é usado com intervalo máximo entre a recepção do frame e tempo máximo que o transmissor deve receber o framede reconhecimento (ACK) vindo do receptor.

2.1.3 RTS/CTS

Outro modo de garantir reserva do canal de comunicação sem fio no Wi-Fi, bem como atacar o problema conhecido como "problema do terminal escondido", é a utilização do mecanismo de Request to Send/Clear to Send (RTS/CTS). Na operação RTS/CTS, antes de enviar qualquer frame com dados, a STA vai enviar um frame de requisição de envio, o RTS, para o receptor, seguindo o mecanismo DCF como explicado anteriormente. O receptor, por sua vez, ao receber o RTS e caso esteja livre, responderá com um frame indicando a disponibilidade para receber os dados, o CTS. Durante a troca RTS/CTS, o cabeçalho dos frames carrega um campo chamado Duration/ID, que indica a expectativa de duração da transmissão, sendo a duração indicada no CTS a que realmente será utilizada.

Tanto o RTS quanto o CTS são enviados seguindo um esquema de broadcasting (para todos). Assim, todas as estações que estão no alcance do transmissor e do receptor irão receber o RTS/CTS, e consequentemente, irão definir seus Network Allocation Vector (NAV) para o valor indicado no campo Duration/ID. Uma vez que o NAV está definido, todas as estações, excluindo o transmissor e o receptor, irão parar de checar o canal sem fio por essa duração indicada, pois sabem que uma transmissão está ocorrendo, e assim evitarão uma possível colisão. A Figura 2.3 apresenta um esquema básico de troca RTS/CTS entre duas estações. Ver-se que a medida que a troca RTS/CTS ocorre, o NAV das demais estações é alterado. Enquanto não ocorre a resposta do CTS, o NAV de todas as estações está com o valor indicado no RTS, e a troca para o valor final, indicado no CTS, só ocorre após o recebimento deste CTS indicado o tempo programado para durar a transmissão.

Figura 2.3: Procedimento de RTS/CTS no 802.11.

(21)

2.1.4 Alterações com o 802.11e

O 802.11e é um conjunto de melhorias que foram introduzidas no 802.11 principalmente para habilitar a diferenciação de QoS. Com essas modificações, o DCF agora incorpora o Enhanced Distribution Coordination Function (EDCF) e introduz os conceitos de categorias/classes de acesso (Perahia and Stacey, 2008). Com o EDCF, cada STA agora tem quatro possíveis classes de acesso (AC - Access Category) que definem as prioridades de acesso ao canal de acordo com o tipo de tráfego que será utilizado. Tráfegos de classes mais altas recebem maior prioridade que tráfegos de classes mais baixas, assim o tempo de espera para acessar o canal é menor quanto mais prioritária for a classe. Outra característica a ser notada é que quando o EDCF está sendo utilizado, cada pacote de camada MAC é marcado com sua classe de prioridade e são armazenados em filas separadas pelo tipo de classe. Para cada uma dessas filas um esquema DCF é utilizado com parâmetros distintos. A tabela 2.1 apresenta as quatro classes de acesso introduzidas no 802.11e.

Tabela 2.1: Classes de acesso no EDCF. Prioridade AC Descrição mais baixa AC_BK Background

AC_BE Best Effort

AC_VI Vídeo

mais alta AC_VO Voz

Outro conceito adicionado pelo 802.11e foi o Transmission Opportunity (TXOP). Com ele, uma vez que a STA consegue o acesso ao canal, ela recebe um TXOP que indica por quanto tempo ela deve transmitir dados. O valor do TXOP depende do AC e sua utilização traz uma grande consequência: ela pode diferenciar o tempo de acesso de cada fila de AC, mas não pode oferecer justiça de throughput, pois como todas as estações que possuem o mesmo tipo de tráfego (mesmo AC) irão receber o mesmo tempo de acesso ao canal. Assim, as estações que possuem condições de canal favorável, e consequentemente maiores taxas de transmissão, irão poder transmitir mais dados que estações com condições de canal piores, embora todas tenham o mesmo tempo de utilização do canal.

2.2 LTE-U

O LTE-U foi proposto pelo fórum LTE-U para habilitar a operação do LTE na banda não-licenciada de 5GHz em países onde o mecanismo de LBT não é obrigatório (Qualcomm, 2014). Essa tecnologia usa o padrão LTE de acordo com os Releases10 e 11 do 3GPP, e implementa, via software, três mecanismos para assegurar a coexistência e operação no espectro não-licenciado. Estes mecanismos são:

• SDL oportunístico • Seleção de canal

(22)

• CSAT

2.2.1 SDL oportunístico

No Release 9 do 3GPP foi proposto o protocolo SDL (Supplemental Downlink) para possibilitar a junção de bandas contíguas e não contíguas, e assim melhorar as taxas de transmissão de downlink em cenários de apenas uma célula. Com este protocolo, há a possibilidade de usar uma banda não contígua para criar uma célula extra só para tráfego downlink — além da célula padrão operando em esquema FDD (Frequency Division Duplex) com downlink/uplink. Com o advento do Release 10, o SDL passa a ser usado juntamente com protocolo de agregação de portadoras (CA - Carrier Aggregation). Assim, o SDL com agregação de portadora possibilita ter mais uma portadora para tráfego de downlink, separando a operação entre célula primária (PCell - Primary Cell) e célula secundária (SCell - Secondary Cell).

No contexto do LTE-U, a Pcell é ancorada na banda licenciada e é utilizada principalmente para transmitir e receber dados de controle e sinalização. Por sua vez, a SCell é ancorada na banda não-licenciada e é utilizada para aumentar a capacidade de downlink de modo oportunístico. Assim, dependendo da demanda, a estação base LTE (eNodeB) pode ligar ou desligar a SCell. Se a demanda for leve, a eNodeB usa apenas a PCell e desabilita a Scell, assim a interferência gerada na banda não-licenciada é diminuída. Entretanto, se a demanda por tráfego for alta, a SCell é habilitada e opera seguindo o mecanismo de seleção de canal. A Figura 2.4 apresenta uma descrição gráfica do SDL.

Figura 2.4: Supplemental Downlink no LTE-U.

(23)

2.2.2 Seleção de canal

Quando o SDL está ativo, a eNodeB LTE-U escaneia periodicamente o canal a procura por canais livres na banda não-licenciada. Quando a eNodeB percebe interferência no canal que está sendo utilizado, ela inicia o processo de troca para um canal que esteja livre. Entretanto, caso não haja um canal livre, o mecanismo de CSAT (Carrier-sensing Adaptive Transmission) é ativado.

Para medir o nível de interferência em um canal, a eNodeB segue dois procedimentos. O primeiro é baseado na detecção de energia e leva em conta não só a interferência vinda de células co-canais, como também de outras tecnologias de acesso. O segundo procedimento é baseado na detecção de frame com preâmbulos, independente se são LTE-U ou Wi-Fi.

2.2.3 CSAT

CSAT é utilizado quando o mecanismo de seleção de canal não encontra um canal livre para usar no SDL. Antes de iniciar a transmissão, a célula (eNodeB) LTE-U sonda o estado do canal por uma longa duração (de 10 a 200 ms) e a partir do perfil de interferência que é levantado do canal, a transmissão adota um esquema TDM de funcionamento. Nesse esquema TDM, o LTE opera em ciclo de trabalho (DC), em que por uma fração de tempo, o LTE-U é ligado (LTE-U ON) e opera normalmente fazendo suas transmissões. No restante do tempo ele é desligado (LTE-U OFF) para que outras tecnologias, como por exemplo o Wi-Fi, possa também acessar o canal. A Figura 2.5 mostra uma descrição básica de como ocorre o esquema de duty cycle.

Figura 2.5: Esquema de duty cycle no LTE-U.

Um detalhe deve ser notado: a implementação do CSAT como definido em (Qualcomm, 2014) não é pública (devido a patentes). Assim, fica aberto para a academia e industria implementações alternativas. Uma dessas implementações alternativas, e a mais famosa é a apresentada em (Almeida et al., 2013). Ela usa como base o conceito de Almost blank sub-frame (ABS), em que dependendo do duty cycle definido, alguns sub-frames são deixados em branco (na verdade, transmitem somente sinalização do LTE), e os demais são usados pelo LTE-U para transmitir. Assim, o Wi-Fi pode se aproveitar dos sub-frames vazios e enviar seus dados.

(24)

Figura 2.6: Relação entre os três mecanismos de coexistência do LTE-U.

Fonte: Adaptado de (Qualcomm, 2014).

A Figura 2.6 apresenta um esquemático que relaciona os três mecanismos usados pelo LTE-U para habilitar a coexistência em banda não-licenciada.

(25)

Capítulo 3

Metodologia e Modelagem Sistêmica

3.1 Metodologia

Quando se pensa em análise de desempenho de sistemas de comunicação, duas abordagens veem à mente: a avaliação com deployment real e equipamentos comerciais (ou testbeds); e a simulação computacional. A primeira abordagem pode ser apontada como a mais completa, com todas as complexidades inerentes ao sistema de comunicação embutidas nas métricas levantadas. Entretanto, o custo operacional e de aquisição de tais equipamentos são altos. Como alternativa tem-se a segunda abordagem, a simulação computacional, que no passar dos anos vem se tornando a primeira escolha quando se pensa em avaliação de desempenho. Com o poder computacional cada vez maior, permitindo simular problemas mais complexos, e ferramentas ainda mais alinhadas com órgãos de padronização, esses cenários que antes eram custosos, podem, com as devidas ressalvas, ser implementados e analisados em software. Um exemplo disso é que vários órgãos de padronização (entre eles o IEEE e o 3GPP) se baseiam majoritariamente em simulação para definir as especificações técnicas de seus padrões.

Com essa premissa em mente, o trabalho desenvolvido neste documento é totalmente baseado em simulação computacional. Nesta capítulo são apresentados como o problema da coexistência em banda não-licenciada é modelado no simulador ns-3, e como as tecnologias de acesso LTE-U e Wi-Fi são implementadas.

3.2 O simulador ns-3

O ns-3 é um simulador de redes baseado em eventos discretos com foco em pesquisa e educação. Sua criação vem da parceria entre Universidade de Washington, INRIA e Georgia Tech University (ns-3, 2016b). Além de sua natureza de código aberto, amplamente suportada pelos mantenedores, o ns-3 segue padronização e cenários do 3GPP e do IEEE para simulações de sistemas de comunicações sem fio.

Para simular cenários de coexistência em banda não-licenciada no ns-3, um projeto financiado pela Wi-FI Alliance, com parceria do Centre Tecnològic de Telecomunicacions de Catalunya (CTTC) e da Universidade de Washington, criou o módulo ns3-dev-lbt (ns-3, 2016a). Ele implementa melhorias na camada física do modelo

(26)

CAPÍTULO 3. METODOLOGIA E MODELAGEM SISTÊMICA 15

do Wi-Fi, além de melhorias no modelo do LTE, permitindo, também, a coexistência entre dispositivos LTE e Wi-Fi na banda de 5GHz.

3.2.1 Módulo do LTE-U no ns-3

O módulo do LTE-U tem como base o módulo do LTE padrão e implementa algumas modificações necessárias para habilitar a coexistência.

O LTE é um padrão de comunicação sem fio 4G introduzido no Release 8 do 3GPP. Diferentemente dos padrões de geração anterior, o LTE apresenta um núcleo de rede totalmente baseado em comutação de pacotes sobre protocolo IP. Para suportar o acesso de múltiplos usuários, o esquema OFDMA (Orthogonal Frequency Division Multiple Access) é usado no Downlink.

No OFDMA, diferentes usuários são alocados (multiplexados) por blocos de recursos (RBs - Resource Blocks). Cada RB é composto por 12 sub-portadoras uniformemente espaçadas de 15 kHz, totalizando uma banda 180 kHz por RB. No tempo, o LTE se organiza por timeslots de duração 0,5 ms, em que um timeslot é composto por 7 símbolos OFDM e 12 sub-portadoras. A junção de dois timeslots forma um sub-frame, e dez sub-framesformam um frame OFDM de duração 10 ms (Holma and Toskala, 2011).

As Figuras 3.1 e 3.2 apresentam como o LTE é modelado no ns-3 e como é organizada a pilha de protocolos, respectivamente. Vê-se que o simulador provê abstrações para diversos tipos de enlaces, facilitando também a construção de módulos extras e cenários de avaliação, além de prover boa parte da sinalização de rede (RealisticRRC, RLC, PDCP, S1-U, X2-U, S1-C, X2-C e S11), que não é vista normalmente em outros.

Figura 3.1: Modelagem do LTE no ns-3.

Fonte: (ns-3, 2016b).

Para implementar o comportamento em ciclo de trabalho sobre o LTE, os desenvolvedores usaram a abordagem apresentada em (Almeida et al., 2013). Nessa abordagem usa-se o conceito do ABS para desabilitar a transmissão do LTE em certos sub-frames. Sabendo que cada sub-frame do LTE tem duração de 1 ms, o ABS é configurado com duração de 40 ms, em que o comportamento de ciclo de trabalho é

(27)

Figura 3.2: Pilha de protocolos do LTE no ns-3.

Fonte: (ns-3, 2016b).

definido por uma máscara de 40 bits (cada bit representa um sub-frame). Outro detalhe a ser ressaltado é que nessa implementação do ciclo de trabalho uma vez que o sub-frame é desabilitado, não há geração de qualquer tipo de sinal interferente (comportamento que vem da implementação da camada MAC do LTE no simulador) (ns-3, 2016a).

3.2.2 Módulo do Wi-Fi no ns-3

No que diz respeito ao Wi-Fi, o atual módulo do ns-3 para a coexistência implementou as seguintes melhorias:

• Melhorias no procedimento do CCA e sincronização de frames; • Seleção de AP em roaming baseada em intensidade do sinal; • Modelos de propagação indoor e outdoor;

• MIMO (Multiple Inputs Multiple Outputs).

A Figura 3.3 apresenta um diagrama de blocos que relaciona as modificações do Wi-Fi e LTE para esse módulo do simulador. Ver-se que, embora não citado aqui, o simulador também implementa a outra versão do LTE para banda não-licenciada, o LTE-LAA ou LTE-LBT. Outro detalhe é que as modificações realizadas no módulo base habilitam tanto o Wi-Fi, como o LTE-U para detectar os sinais das tecnologias de acesso que estão a coexistir (comportamento que não acontece no módulo padrão do ns-3).

Assim, dada a apresentação da metodologia de investigação, com a sumarização do simulador e detalhes de implementação das tecnologias de acesso, o próximo capítulo tratará de apresentar o cenário de avaliação multicelular e os resultados preliminares.

(28)

Figura 3.3: Diagrama de blocos do simulador ns-3 para coexistência.

(29)

Capítulo 4

Cenário de Avaliação e Resultados

Preliminares

Este capítulo é dedicado às análises preliminares da coexistência LTE-U/Wi-Fi em cenário multicelular. Tais resultados compõem uma referência de desempenho para as soluções propostas nos próximos capítulos. Detalhes do cenário utilizado e principais parâmetros são apresentados.

4.1 Cenário de avaliação multicelular

A avaliação de desempenho é feita no cenário indoor definido em (3GPP, 2015). Nesse documento, o 3GGP define três cenários padrões que devem ser utilizados para estudos de coexistência em banda não-licenciada, e a escolha pelo cenário indoor se deve ao fato dele apresentar o perfil de interferência mais severo entre os três cenários definidos no documento, além de ser um cenário multicelular com vários usuários. São definidos dois operadores, chamados de Operador A e Operador B, com quatro células pequenas (small cells) cada, operando na banda de 5 GHz e fator de reuso 1. O perfil de interferência gerado é tanto entre tecnologias de mesmo acesso, como de tipos diferentes.

O deployment é feito um prédio de salas com dimensões 120 x 50 metros, sem paredes internas (obstruções). As estações base de cada operador estão localizadas no teto da sala, a 3 m de altura, e são igualmente espaças entre si, com distância bs_operador entre células de mesmo operador, e d entre operadores diferentes. Ponto de acesso é o termo usado para denominar a estação base, seja do Wi-Fi (definida como Acesss Point pelo IEEE) ou do LTE (definida como eNodeB pelo 3GPP). A Figura 4.1 mostra uma representação gráfica desse cenário.

Com relação a carga, cada operador possui 20 usuários aleatoriamente distribuídos no cenário e alocados no ponto de acesso de acordo com o tipo de RAT do operador. Para o operador Wi-Fi, o critério de seleção de célula é baseado no RSS (Received Signal Strength), enquanto no LTE-U o critério é de RSRP (Reference Received Signal Strength). Os usuários de cada operador, um vez que são aleatoriamente distribuídos, não apresentam movimentação. Assim, o cenário não engloba situações de handover no LTE-U, nem reassociação no Wi-Fi.

(30)

CAPÍTULO 4. CENÁRIO DE AVALIAÇÃO E RESULTADOS PRELIMINARES 19

Figura 4.1: Cenário indoor do 3GPP para coexistência.

Fonte: (3GPP, 2015).

4.1.1 Metodologia de simulação

Os resultados preliminares incluem simulações com diferentes taxas oferecidas por usuário. Os operadores foram definidos como LTE-U sendo o Operador A, e Wi-Fi sendo o Operador B. Para cada taxa oferecida, calcula-se a vazão média por operador para cada valor DC (duty cycle) do LTE-U. O objetivo é analisar qual é a influência do DC na vazão por operador, dadas as taxas oferecidas por usuário.

O tipo de tráfego utilizado é o UDP, com taxa oferecida controlada por uma variável de nome UDPRate. A escolha por esse tipo de tráfego é devido à necessidade de analisar o cenário para tráfego constante, full buffer, i.e., com dados para enviar a todo momento, estabelecendo um cenário de pior caso em termos de carga do sistema. As taxas oferecidas para cada UDPRate são 0, 5, 1, 2 e 4 Mbps, e indicam a demanda que cada usuário pode ter quando ancorado no operador.

Já para o DC, os valores de 0, 2, 0, 3, 0, 4, 0, 5, 0, 6, 0, 7, 0, 8 e 0, 9 são analisados. Como explicado anteriormente, o valor DC indica o ciclo de trabalho com relação ao LTE-U. Assim, um DC 0, 2 indica que dentro da janela do ABS, 40ms, 20% do tempo é destinado ao LTE-U e 80% é destinado ao Wi-Fi. Em contrapartida, um DC 0, 8 indica que dentro da janela do ABS 80% do tempo é destinado a transmissão do LTE-U e 20% para o Wi-Fi. A duração da simulação para cada valor DC é definida como 20 segundos, i.e., mantém-se o valor DC constante durante 20s, estabelecendo um rodada de simulação. Cada rodada de simulação é independente e segue uma semente diferente do gerador de números aleatórios do ns-3. Esse valor de duração da simulação foi definido como um compromisso entre tempo de simulação e acurácia dos resultados, pois não se observou mudança nas conclusões qualitativas ao aumentar o tempo de simulação. A

(31)

Tabela 4.1 apresenta os principais parâmetros usados nas simulações. Esses parâmetros foram definidos baseados nos trabalhos passados, apresentados na Seção 1.2, e são os que apresentam melhor desempenho na coexistência sem o uso de qualquer algoritmo aplicado ao problema.

Tabela 4.1: Parâmetros de simulação. Parâmetros do Wi-Fi (802.11n-HT PHY/MAC)

Banda 20 MHz

Limiar CCA-ED - 62 dBm

Limiar CCA-CS - 82 dBm

Objetivo de Bit Error Rate (BER) 10−6 Parâmetros do LTE

Banda 20 MHz

Escalonador de pacotes Proportional fair

Duração de ABS 40 ms

Valores de duty cycle {0, 2, 0, 3, 0, 4, 0, 5, 0, 6, 0, 7, 0, 8, 0, 9} Parâmetros comuns

Potência de transmissão - 18 dBm

Modelo de tráfego UDP full buffer

Mobilidade Constant position

Parâmetros de cenário

d 5 m

bs_operador 25 m

Número de APs LTE-U 4

Número de usuários LTE-U 20

Número de APs Wi-Fi 4

Número de usuários Wi-Fi 20

Path loss and Shadowing ITU InH

Critérios de seleção de célula Wi-Fi: AP com maior RSS. LTE-U: célula com maior RSRP.

UDPRate {0, 5, 1, 2, 4} Mbps

4.2 Análise dos resultados

Para o caso UDPRate = 1 Mbps, vê-se na Figura 4.2 os valores da vazão agregada e por operador para cada valor de DC. O primeiro detalhe notado é o fato dos resultados chegarem muito próximos dos seus valores máximos teóricos para um DC fixo. Para 1 Mbps oferecido para cada usuário, sendo 20 usuários por operador, teria-se uma vazão agregada teórica por operador de 20 · 1 = 20 Mbps. Já o agregado teórico do sistema seria T_txlteu+ Ttxwi f i= 40 Mbps. Vê-se que para DC = 0, 3, a vazão agregada é bem próxima ao valor teórico máximo, e que esse valor de DC é o que provê maior vazão por operador e também sistêmica. Outro ponto a se notar é que o pico máximo é atingido para um valor

(32)

de DC que provê mais tempo de canal para o Wi-Fi do que para o LTE-U (70% do tempo para Wi-Fi e 30% para o LTE-U).

Figura 4.2: Vazão vs DC para UDPRate=1 Mbps.

Já para UDPRate = 2 Mbps, o comportamento é diferente, e pode ser visto na Figura 4.3. Com relação à vazão máxima teórica, teria-se 40 Mbps por operador e 80 Mbps do sistema (agregado). Embora haja valores de DC que a vazão máxima por operador seja quase alcançada, 0, 2 e 0, 9 (Wi-Fi e LTE-U, respectivamente), a vazão agregada não atinge o valor máximo teórico para nenhum valor de DC. O que se ver é que, diferentemente dos resultados da Figura 4.2, os valores por operador são mais desiguais. Enquanto que nos resultados da Figura 4.2 tem-se vazões por operador mais equilibradas na faixa dos DCs de 0, 3 à 0, 7, para os resultados da Figura 4.3 os valores de vazão só são mais equilibrados para DC 0, 5. É possível afirmar que os sistemas já apresentam escassez de recursos para atender uma taxa UDPRate = 2 Mbps.

Esse comportamento para os valores DC, e vazão por operador, são esperados à medida que a taxa oferecida de cada usuário aumenta, pois o perfil de interferência também é modificado. Com mais dados para enviar, maior será a disputa por acesso ao canal, maior também será a interferência cocanal, consequentemente causando mais erros na recepção. Além disto, para o UDPRate = 2 Mbps, o DC que prover a maior vazão é o 0, 6, indicando que para esta situação, o sistema só alcança o seu máximo caso o LTE-U tenha mais tempo de canal que o Wi-Fi, diferentemente do caso para UDPRate de 1 Mbps.

A Figura 4.4 apresenta o gráfico da vazão por DC para o caso UDPRate de 4 Mbps. Nesta situação, como esperado, há a maior diferença entre os valores máximos atingidos

(33)

Figura 4.3: Vazão vs DC para UDPRate 2 Mbps.

Figura 4.4: Vazão vs DC para UDPRate 4 Mbps.

(34)

na simulação e os valores máximos teóricos. Se esperava 80 Mbps por operador e 160 Mbps agregado de valor teórico de pico. Vê-se que devido ao novo perfil do sistema, o de maior demanda, chega-se a ter quase 60 Mbps à menos que o valor agregado esperado, confirmando que o sistema já está operando sem folga de recursos de rádio. Na verdade, devido a limitação de recursos de rádio dos sistemas, ver-se que quanto maior for a UDPRate, maior vai ser a diferença entre o valor máximo da vazão atingida e o valor máximo teórico. Isso se deve ao fato que a demanda por taxa supera o que os sistemas podem oferecer, devido também ao compartilhamento do meio de transmissão, devido a coexistência. Além disto, como já notado anteriormente, o DC que eleva a vazão sistema para máximo muda, e agora tem valor de 0, 4, indicando mais tempo de acesso ao canal para o Wi-Fi do que o LTE-U.

Os resultados apresentados até agora mostram o desempenho do sistema para uma taxa oferecida igual para os dois operadores, pois cada usuário tem a mesma UDPRate durante toda a simulação. Entretanto, mais algumas conclusões podem ser extraídas para o caso de demandas desbalanceadas.

A Figura 4.5 apresenta a vazão em função do DC para usuários LTE-U com UDPRate= 4 Mbps e usuários Wi-Fi com UDPRate= 500 kbps. Essa configuração representa justamente o maior desbalanceamento de taxas que podem ocorrer no sistema com as taxas que foram definidas na Tabela 4.1. Um vez que nessa configuração a taxa demandada pelos usuários LTE-U é muito maior que a dos usuários Wi-Fi, é esperado que o máximo desempenho agregado seja alcançado quando o LTE-U tenha mais tempo de canal do que o Wi-Fi, pois assim as demandas dos dois sistemas são atendidas quase em seus máximos. Este é exatamente o comportamento visto na Figura 4.5, em que o DC 0, 8 apresenta a vazão máxima do sistema, pois 80% do tempo do canal é destinado ao LTE-U e 20% ao Wi-Fi. Outro ponto para se notar é que mesmo quando o Wi-Fi tem mais tempo de canal, a sua vazão não muda com o valor DC de 0, 2 a 0, 7, pois o tempo de canal disponível já é superior ao demandado. Assim, a vazão fica no seu limite máximo até o momento que é utilizado um valor DC que deixa de atender a demanda do Wi-Fi (a partir de DC = 0, 8).

Já a Figura 4.6 apresenta o cenário inverso, com Wi-Fi tendo um taxa oferecida muito maior que o LTE-U. As mesmas conclusões podem ser extraídas para esse cenário, em que o DC 0, 2 é o que provê maior taxa agregada, pois atende a demanda conjunta dos sistemas coexistindo. Nota-se também que qualquer valor DC de 0, 2 a 0, 9 atende a demanda do LTE-U, pois sua vazão máxima não muda para nenhum destes valores de DC.

Como evidencia os resultados apresentados, o comportamento da vazão por operador muda para cada valor de DC e UDPRate. Assim, considerando um sistema mais realista em que as taxas mudam com o tempo, a utilização de um DC fixo não é eficiente. Nesse caso, um DC fixo pode deixar o sistema em um ponto de operação bem aquém do que pode ser ofertado, como visto nos resultados para quando o valor DC não é o ótimo ou não atende a demanda. Portanto, um ajuste adaptativo no valor do DC, em tempo real, via aprendizado de máquina, se torna uma opção interessante para esse problema. Considerando um framework/algoritmo ajustado para sempre escolher o melhor valor DC possível, dada a situação de taxa oferecida do sistema (UDPRate e médias históricas), espera-se que o sistema consiga alcançar um estado ótimo e que apresente ganhos quando

(35)

Figura 4.5: Vazão vs DC para LTE-UUDPRate= 4 Mbps e Wi-FiUDPRate= 500 kbps.

Figura 4.6: Vazão vs DC para LTE-UUDPRate= 500 kbps e Wi-FiUDPRate= 4 Mbps.

(36)

comparado ao uso de um DC fixo.

Dentro da grande área do aprendizado de máquina, há uma subárea chamada aprendizado por reforço que apresenta características propícias para ser aplicada no problema de coexistência exposto. O aprendizado por reforço é uma classe de aprendizado, assim como o aprendizado supervisionado e o não-supervisionado (Bishop, 2007), que lida com situações em que o aprendizado é feito na forma de tomadas de decisões sequenciais e de forma online (sem necessidade de um dataset) (Sutton and Barto, 2018). Relacionando com o problema da coexistência exposto, a medida que as taxas oferecidas mudam no tempo, o valor do DC ótimo também pode mudar. Dessa forma, é possível concluir que a escolha do DC ótimo, dado o estado atual do sistema, se torna uma tomada de decisão sequencial (como o aprendizado por reforço). Além disso, a troca de valor do DC no tempo tem que ser feito com o sistema em operação, afinal não se pode parar o sistema para calcular o DC ótimo, como seria, por exemplo, ao utilizar teoria clássica de otimização. Assim, o processo de escolha do DC tem que ser online(característica que o aprendizado por reforço também atende). Os dois próximos capítulos apresentam uma introdução ao aprendizado por reforço, e dois frameworks que foram modelados com base no problema de coexistência apresentado.

(37)

Capítulo 5

Solução Proposta via Q-Learning

Para solucionar o problema do ajuste adaptativo do valor de DC, dadas as condições de taxa oferecida ao sistema, um framework baseado no aprendizado por reforço é utilizado. Este capítulo apresenta a formulação necessária do aprendizado por reforço, bem como a primeira solução usada no ajuste dinâmico do DC proposta nesta dissertação.

5.1 O aprendizado por reforço

O aprendizado por reforço se caracteriza pela interação agente-ambiente. O agente é o tomador de decisões, também chamado de aprendiz. Já o ambiente engloba tudo que é externo ao agente e em que ele pode interagir. O processo de aprendizado, por sua vez, se dá à medida que o agente realiza uma ação no ambiente, e como reação, o ambiente leva o agente para uma nova situação (estado). O ambiente, em reação à ação do agente, também retorna um valor numérico, a recompensa, que o agente tenta maximizar ao longo do tempo pela escolha de suas ações.

Figura 5.1: Interação agente-ambiente.

Fonte: Adaptado de (Sutton and Barto, 2018).

Sendo mais específico, a interação entre o agente e o ambiente se dá a cada tempo discreto t. Assim, no tempo t, o agente realiza uma ação at ∈

A

t. Em reação, no tempo t + 1, o ambiente responde com uma observação/estado st+1 ∈ St e uma recompensa numérica Rt. Esse comportamento leva a uma sequência

(38)

CAPÍTULO 5. SOLUÇÃO PROPOSTA VIA Q-LEARNING 27

e o objetivo de aprendizado do agente é justamente maximizar o somatório no tempo das recompensas Rt. Em outras palavras, escolher o melhor conjunto de ações sequenciais at que retorna, ao final, as maiores recompensas no tempo.

Formalmente, uma vez que o aprendizado por reforço apresenta essas características, a sua modelagem segue um processo de decisão de Markov (MDP - Markov Decision Process). Sabe-se que em um processo de Markov, o estado futuro depende apenas do estado atual e da ação realizada, e esta suposição é aplicada praticamente em todos os problemas do aprendizado por reforço (Sutton and Barto, 2018).

Para se aplicar o aprendizado por reforço, levando em conta a formalização por MDP, há uma variedade de algoritmos. O primeiro algoritmo escolhido para este trabalho é Q-Learning, por se tratar de um dos algoritmos de aprendizado por reforço mais utilizado nos últimos anos e que se encaixa em uma vasta gama de problemas baseados em processos de decisão de Markov. A descrição do seu funcionamento e sua definição matemática são apresentadas a seguir.

5.1.1 Q-Learning

O Q-Learning é um algoritmo proposto em (Watkins and Dayan, 1992), e que apresenta simplificações no modo como resolve MDPs relacionadas ao problema do aprendizado por reforço. No QL define-se a função valor Q(s, a) que mapeia numericamente o valor de um par ação-estado. Essa mapeamento é no sentido que quanto maior o valor Q, melhor será a relação entre o par (s, a). Assim, no processo de aprendizado, o agente aprende qual a melhor ação, dado o estado que ele se encontra, por meio da função Q.

O processo de aprendizagem usando o Q-Learning baseia-se na atualização constante do mapeamento Q(s, a) até a convergência. A atualização é realizada como (Watkins and Dayan, 1992) Q(St, At) ←− Q(St, At) + α h Rt+1+ γ ∗ max a Q(St+1, a) − Q(St, At) i , (5.1)

em que α é a taxa de aprendizado que controla quanto do aprendizado é levado em conta na atualização do valor Q. Já γ é a taxa que controla o quanto das recompensas futuras é levada em conta na atualização do valor Q. Se γ é zero, somente a recompensa imediata é levada em conta. Se γ é um, somente as recompensas futuras são levadas em conta. Assim, deve se escolher um valor para γ que tenha a melhor relação entre ganho imediato e ganhos futuros, para que o processo de aprendizado seja rápido e convirja.

Com relação à convergência, o Q-Learning sempre irá convergir (Watkins and Dayan, 1992), dado o número suficiente de repetições. O pressuposto, sem a necessidade de se aprofundar na matemática da programação dinâmica, é que como cada par (s,a) na atualização do valor Q é diversas vezes visitado, isso faz com que Q convirja para o valor ideal Q∗. Uma vez que se tem Q∗, o processo de escolha da próxima ação a ser realizada dado o estado atual do agente é simplesmente feito pela relação:

a= argmax a

(39)

5.2 Solução centralizada baseada em Q-Learning

Usando como base tudo que foi apresentado até agora sobre aprendizado por reforço, um framework centralizado, baseado em Q-Learning para ajuste adaptativo do valor do DC, com o objetivo de maximizar a vazão do sistema é apresentado. Como o ajuste é no valor do DC, o algoritmo é aplicado apenas no operador LTE-U. A escolha pela operação centralizada dá-se pelo objetivo de simplificar a abordagem do cenário multicelular. Caso a operação fosse descentralizada, cada célula LTE-U operaria de forma independente na escolha do DC. Assim, o operador LTE-U seria influenciado pelas decisões entre suas próprias células, pois o ajuste do DC de uma célula influencia no perfil de interferência das outras. Isso poderia tornar a convergência do Q-Lerning mais desafiadora, além de exigir uma modelagem que também levasse em conta Teoria dos Jogos (um jogo competitivo entre as células). Por outro lado, operando de forma centralizada, sempre que o valor do DC é atualizado, todas as células do operador LTE-U assumem o mesmo valor. Na prática, isso não é um problema, pois o LTE tem a interface X2, que possibilita um protocolo de troca de sinalização rápida entre células (Holma and Toskala, 2011). O framework proposto é modelado como segue:

• Os valores de DC são definidos como as ações que o agente pode realizar. Os valores escolhidos foram

_A

= {0, 2, 0, 4, 0, 6, 0, 8}. O número de ações e seus valores de DC foram escolhidos amparados em duas premissas: (i) quanto maior for a número de ações, mais tempo demora para convergência, pois aumenta-se o número de pares (s,a) que devem ser visitados na atualização Q(s, a). Assim, há um compromisso entre número de ações e complexidade/tempo de convergência do algoritmo; (ii) para os quatro valores de DC escolhidos, dois são para mais tempo de acesso ao canal para o Wi-Fi, 0, 2 e 0, 4, e dois são para mais tempo de acesso para o LTE-U, 0, 6 e 0, 8;

• Os estados são representados pela vazão agregada do sistema,

_S

= {0, 1, 2, 3}, a cada janela do ABS, como:

Estado 0: 0 < Ttx wi f i+ Ttx lteu≤ 1∗M₄ Mbps; Estado 1: 1∗M₄ < Ttx wi f i+ Ttx lteu≤ 2∗M₄ Mbps; Estado 2: 2∗M₄ < Ttx wi f i+ Ttx lteu≤ 3∗M₄ Mbps; Estado 3: 3∗M₄ < T_{tx wi f i}+ T_{tx lteu}≤ M Mbps;

em que Ttx wi f i é a soma da vazão das quatro células Wi-Fi e Ttx lteu é a soma das quatro células LTE-U. M é o valor máximo que a vazão do sistema pode alcançar, dependendo das capacidades dos sistemas que coexistem. Assim, a cada tempo de ABS, o algoritmo checa o estado Ttx wi f i+ Ttx lteue atualiza Q(s, a) de acordo com a ação escolhida dada pela Equação 5.2;

• A recompensa para cada valor DC escolhido é definida como sendo a própria vazão do sistema Ttx wi f i+ Ttx lteudentro da janela do ABS;

• O objetivo é definido como a maximização da vazão do sistema pelo ajuste adaptativo do valor do DC no tempo.

(40)

ponto a se falar, é que M depende dos valores dos parâmetros utilizados (isto é, dos parâmetros de camada PHY de cada sistema) e também do valor do DC para cada tempo de ABS. O pseudo-algoritmo da solução centralizada baseada no Q-Learning é apresentado como segue:

Algoritmo 1: Q-learning aplicado na seleção adaptativa do valor do duty cycle DC.

1 Inicializar

2 for s ∈ S, a ∈ A do

3 Iniciar tabela-Q com valores aleatórios Q(s, a). 4 end

5 Estimar o estado inicial s. 6 Aprendizado:

7 Loop

8 Gerar número aleatório r ∈ U (0, 1) 9 if r < ε then

10 Selecionar ação a ∈

A

aleatoriamente; 11 else

12 Selecionar ação a ∈

A

de acordo com max

a Q(s, a);

13 end 14 Aplicar a;

15 Receba a recompensa imediata r, T_{tx wi f i}+ T_{tx wi f i}; 16 Observe o próximo estado s0∈ S;

17 Atualizar tabela-Q de acordo com a expressão: 18 Q(s, a) ← (1 − α)Q(s, a) + α h r+ γ max a Q(s 0_{, a)}i 19 s= s0 20 fim loop

vê-se que nesse algoritmo, além do funcionamento explicado anteriormente, há a adição de uma nova ação por meio da utilização da variável ε. Essa variável controla o grau de exploração do agente, i.e., determina quando o agente escolhe a ação pela Equação 5.2 (abordagem ε-greedy) ou aleatoriamente. Esse comportamento ajuda o agente a visitar mais pares (s,a), em vez de sempre seguir a Equação 5.2, que poderia fazê-lo ficar preso a somente um sub-conjunto de todos os pares (s,a).

5.3 Avaliação dos resultados via Q-Learning

Para avaliar o algoritmo proposto, duas simulações com mudanças dinâmicas de taxas foram realizadas. A primeira simulação apresenta um comportamento de mudanças de taxas mais simples e foi realizada para confirmar o funcionamento do algoritmo proposto. A Simulação 1 com a solução proposta é realizada como a seguir: