3.3 Etapas do Projeto
3.3.3 Teste 3 – Perfil Social do Subscritor
No setor das telecomunicações, as empresas aplicam técnicas de ARS para identificar perfis de cliente. Mais no domínio da deteção de fraude, existe a possibilidade de aplicar técnicas de ARS a redes de comunicação, para realizar uma análise da frequência e da direção da comunicação, que pode revelar padrões de comunicação entre as várias entidades. Esses padrões podem ajudar a identificar atividades fraudulentas.
Estudando a rede social formada pelos utilizadores envolvidos nas chamadas, criar-se-á um conjunto de novas variáveis, de caráter social, que serão adicionadas ao dataset (conjunto de dados) [13], usado no Teste 2. Este novo dataset será então submetido ao algoritmo de deteção de outliers.
17
4 Caso de Estudo
Neste capítulo pretende-se fazer uma descrição detalhada de todo o projeto.
4.1 O Problema
Este projeto tem como objetivo o estudo de um conjunto de chamadas telefónicas, avaliando-as como normais ou anómalas. Para isto utiliza-se uma abordagem de Data Mining não-supervisionada, mais concretamente um método de deteção de outliers baseado em distâncias. O algoritmo escolhido foi o MCOD, pois após algumas experiências foi o que obteve melhores resultados em termos de tempo de processamento e memória usada, o que vai de acordo com o que foi descrito na secção 3.1.
Foi disponibilizado um conjunto de dados composto por um dia de CDRs (das 00:00 horas às 23:59), e pretende-se simular um fluxo de dados. Para isso é escolhido aleatoriamente um conjunto de dados (composto por 20000 registos), que vai ser o lote a ser analisado. Chamemos a esse lote “Conjunto de Teste”, representado por 𝐶.
4.2 Dataset
Conforme dito anteriormente, o conjunto de dados a ser analisado neste caso de estudo é o 𝐶. É composto por 20000 registos, que correspondem às chamadas entre as 11:55 horas e as 11:57. Cada registo tem os seguintes atributos:
Timestamp; Duration; Msisdn; Other_msisdn; Contract_id; Other_contract_id; Start_cell_id; End_cell_id; Direction; Call_type;
18
Destination_type;
Dropped_call;
Voicemail.
O Timestamp [14] é um código que representa a data e a hora. Neste caso vai variar entre 1354362941 e 1354363026. O atributo Duration representa a quantidade de tempo que a chamada dura, em segundos.
Para melhor explicar os próximos atributos, é melhor utilizar dois conceitos: utilizador1 e
utilizador2. Msisdn e Other_msisdn são um código que representa o número de telefone do utilizador1 e do utilizador2, respetivamente. Contract_id e Other_contract_id são o número
de identificação do contrato do utilizador1 e do utilizador2, respetivamente. Start_cell_id e
End_cell_id representam o número das antenas que o utilizador1 e o utilizador2 usaram para
se conectar à rede. O campo Direction descreve a direção da chamada e pode ter dois valores: “I” (inbound) ou “O” (outbound). Isto significa que se o campo Direction tiver o valor “I”, é o
utilizador1 que liga para o utilizador1, enquanto que se o valor for “O”, é o utilizador2 a
realizar a chamada para o utilizador1.
O Call_type é um identificador do tipo de chamada ou serviço e pode ter um dos seguintes valores: "MO", "ON", "FI", "SV" ou "OT". Não há uma descrição precisa sobre o que estes valores significam. O atributo Destination_type toma os valores “I” para chamadas internacionais e “L” para chamadas locais. O campo Dropped_call pode ter dois valores: “Y” se a a chamada tiver “caído”, ou seja, se não tiver sido nenhum dos dois utilizadores a desligar, e “N” caso contrário. O Voicemail pode ter o valor “Y” se a chamada for parar ao voicemail e “N” caso contrário.
Para além disto, é preciso ter em conta algumas características adicionais[12]:
Os identificadores de antenas, Start_cell_id e End_cell_id, nem sempre estão disponíveis, tomando o valor “0” (zero) quando não estão;
O número do contrato do utilizador2 nem sempre está disponível, adotando o valor “-1” para esse caso. Isto pode querer dizer que o contrato desse utilizador pertence a outra operadora e por isso esse valor é desconhecido.
Todas as chamadas internacionais, onde Destination_type toma o valor “I”, têm o valor “OT” para o Call_type.
Todas as chamadas que foram para voicemail (Voicemail ter o valor “Y”) têm o
Call_type igual a “SV”, e todas elas têm o mesmo valor para o Other_msisdn.
O conjunto 𝐶 é então definido por:
𝐶𝑖= {"𝑡𝑖𝑚𝑒𝑠𝑡𝑎𝑚𝑝𝑖", "𝑑𝑢𝑟𝑎𝑡𝑖𝑜𝑛𝑖", "𝑚𝑠𝑖𝑠𝑑𝑛𝑖", "𝑜𝑡ℎ𝑒𝑟_𝑚𝑠𝑖𝑠𝑑𝑖𝑛𝑖", "𝑐𝑜𝑛𝑡𝑟𝑎𝑐𝑡_𝑖𝑑𝑖",
"𝑜𝑡ℎ𝑒𝑟_𝑐𝑜𝑛𝑡𝑟𝑎𝑐𝑡_𝑖𝑑𝑖", "𝑠𝑡𝑎𝑟𝑡_𝑐𝑒𝑙𝑙_𝑖𝑑𝑖", "𝑒𝑛𝑑_𝑐𝑒𝑙𝑙_𝑖𝑑𝑖", "𝑑𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛, 𝑐𝑎𝑙𝑙_𝑡𝑦𝑝𝑒𝑖", "𝑑𝑒𝑠𝑡𝑖𝑛𝑎𝑡𝑖𝑜𝑛_𝑡𝑦𝑝𝑒𝑖",
19
Para melhor perceber o conjunto de dados 𝐶, é importante ter uma informação mais detalhada sobre alguns dos seus atributos. Essa informação é resumida nas seguintes tabelas e gráficos: Duration: Estatística Valor Mínimo 1 Máximo 3331 Média 65.752 Desvio Padrão 97.075
Tabela 4.1 - Estatísticas do campo Duration
Figura 4.1 - Número de chamadas por duração
Other_contract_id: 11316 registos têm o valor “-1”, o que corresponde a 56.6% de
todo o conjunto;
Start_cell_id: 9024 registos têm o valor “0”, o que representa 45.1% do conjunto
𝐶;
End_cell_id: 12068 registos têm o valor “0”, ou seja 60.3%; Direction: 6219 têm o valor “I”, sendo as restantes 13781 “O”;
20
Destination_type: apenas 243 das 20000 são chamadas internacionais,
consequentemente as restantes 19757 são locais;
Figura 4.3 - Número de chamadas por tipo de destino (internacional ou local)
Dropped_call: apenas 573 têm o seu valor a “Y”, sendo as restantes 19427 “N”;
Figura 4.4 - Número de chamadas por dropped calls ("Y" e "N")
Voicemail: apenas 122 chamadas foram parar ao voicemail, enquanto as restantes
19878 foram realizadas com sucesso.
21
4.3 Ferramentas
4.3.1 WEKA
Este software, WEKA [15], foi usado essencialmente para a análise do dataset feita na secção 4.2.
Figura 4.6 - Interface do WEKA
4.3.2 MOA
O MOA (Massive Online Analysis) [16]–[18] é um software que contém um conjunto de ferramentas de Data Mining. Esta escolha deveu-se principalmente ao facto deste software permitir a análise de fluxos de dados, mas também ao facto de ser “open source” e ter um separador de deteção de outliers.
Figura 4.7 - Interface do MOA
22
O problema deste software é apresentar os resultados apenas em modo de visualização, como se verifica na Figura 4.7, não disponibilizando uma lista dos mesmos. A solução encontrada, visto ser um software open source, foi alterar o código do mesmo, acrescentando as funcionalidades pretendidas. No Anexo A é disponibilizado o código, assim como as instruções para a reutilização do mesmo.
Figura 4.8 - Código acrescentado ao MOA e resultados
Na Figura 4.8 é possível visualizar as novas funcionalidades acrescentadas: a lista de
outliers, o número de registos analisados e o número de outliers encontrados.
4.3.3 Microsoft Access 2013
O Acess 2013 [19] é uma ferramenta que permitiu fazer toda a preparação dos dados, usados nos testes realizados, incluindo a engenharia de variáveis.
23
Figura 4.9 - Interface Acess 2013
Na Figura 4.9, à esquerda, é possível ver a designação de algumas das tabelas e consultas criadas, através de queries (consultas) em SQL [20].
4.3.4 Gephi
O Gephi [21] foi a ferramenta usada para o estudo da rede social formada por todos os intervenientes das chamadas. Foi daqui que se extraiu todo o conhecimento sobre as variáveis estatísticas de caráter social adicionadas ao dataset.
24
4.4 Teste 1 – Dados Simples
Nesta secção é descrito o primeiro teste desenvolvido, em que se analisa o conjunto 𝐶 através do algoritmo MCOD do MOA. Dividir-se-á em três partes: preparação de dados, implementação e resultados.