Aprendizado de M´ aquina - Análise de Aplicações Potencialmente Nocivas em Dispositivos com Sis

O processo computacional de aprendizado de máquina busca inferir automaticamente e, portanto, generalizar, um modelo de aprendizado com base em um conjunto de dados finito e amostral. Os modelos de aprendizado utilizam-se de fun¸cões estat´ısticas para descrever as dependências entre os dados e a correla¸cão entre as entradas e sa´ıdas. De forma simples, este processo permite ao computador aprender, sem ser explicitamente programado, e otimizar sua análise e desempenho com base nos resultados de cada itera¸cão do modelo de aprendizado (de Souza Gomes,2019).

Conforme citado por (Canepa,2016), baseado na metodologia utilizada para o treinamento e tendo em vista os dados fornecidos, os tipos de aprendizado podem ser divididos em:

• Aprendizado Supervisionado: consiste em operar com uma expectativa conhecida, na qual os conjuntos de dados de entrada neste contexto são chamados de conjuntos dos rotulados, objetivando conseguir encontrar instâncias semelhantesGollapudi(2016). O objetivo é aprender a rela¸cão instância/rótulo e com base nos conhecimentos adquiridos através do treinamento, ser capaz de realizar previsões de comportamento ou tomadas de decisão.

• Aprendizado Semi-Supervisionado: assim como na supervisionada, há um conjunto de dados rotulados. A diferen¸ca é que, além dos dados rotulados, temos dados nã orotulados também. O sistema deve analisar esses conjuntos e fazer o melhor poss´ıvel com o de dados não rotulados. Este tipo de abordagem é utilizado quando o conjunto de treinamento contém registros insuficientes para obter um resultado com boa precisão Lima e Pinto(2016).

• Aprendizado Não-supervisionado: é utilizado quando não se tem um alvo espec´ıfico, isto é, não há um rótulo inerente às caracter´ısticas dadas no exemplo Gollapudi

(2016). O objetivo é agrupar os exemplos através da semelhan¸ca entre os atributos. Este tipo de abordagem geralmente é utilizada em problemas onde a aprendizagem ´

e baseada na equivalência entre as instâncias, isto é, há uma busca pelo padrão de caracter´ısticas intr´ınsecas aos exemplos dados (Alves,2018).

• Aprendizagem por Refor¸co: Na aprendizagem por refor¸co, trabalha-se com a ideia de condicionamento (saber se uma a¸cão é correta ou não) a partir de recompensas ou puni¸cões. Esses condicionamentos são modelados a partir da análise do problema, onde ao término de uma a¸cão e a partir dos resultados desta, o módulo inteligente da

O clustering é uma tarefa de aprendizado não supervisionada que visa particionar um conjunto de objetos de dados não rotulados em grupos ou clusters homogêneos. A parti¸cão é executada de maneira que objetos no mesmo grupo sejam mais semelhantes entre si do que objetos em conjuntos diferentes (Montero et al., 2014). Uma questão bastante importante durante a análise de cluster é estabelecer o que queremos dizer com objetos de dados “semelhantes”, isto é, determinar uma medida de similaridade/dissimilaridade adequada entre dois objetos. Visando destacar ao máximo em que os dois grupos diferem mais.

E uma técnica em que dados semelhantes são colocados em grupos relacionados ou homogêneos sem o conhecimento avan¸cado das defini¸cões dos grupos (Aghabozorgi et al.,

2015). Existem alguns algoritmos que realizam o processo. Para ajuda da escolha, um dos principais critérios a serem avaliados foi que não fosse necessário a identifica¸cão da quantidade de clusters existentes nos objetos a serem estudados.

Com todos os critérios avaliados, o melhor que se enquadrou às necessidades deste trabalho foi o Pvclust, que é um pacote R[i]para avaliar a incerteza na análise hierárquica de agrupamentos. A escolha se deu basicamente pelo fato de não ser necessária a identifica¸cão da quantidade de clusters existentes. Com isso, muitos dos classificadores conhecidos, como o K-means, foram descartados por este fato.

Para cada cluster no cluster hierárquico, as quantidades chamadas de p-values são calculadas por meio de reamostragem de autoescala de várias escalas. O p-value de um cluster é um valor entre 0 e 1, que indica o quão forte o cluster é suportado pelos dados. O pvclust fornece dois tipos de p-values: valor de AU (Approximately Unbiased) traduzindo para o português Aproximadamente Imparcial e valor de BP (Bootstrap Probability) traduzindo para o português Probabilidade de Inicializa¸cão. O p-value de AU, que é calculado por reamostragem de inicializa¸cão múltipla em várias escalas, é uma melhor aproxima¸cão ao p-value imparcial do que o valor de BP calculado por reamostragem de inicializa¸cão normal. O pvclust executa a análise hierárquica de cluster por meio da fun¸cão hclust e calcula automaticamente os p-values para todos os clusters contidos no cluster de dados originais (Suzuki e Shimodaira,2006).

A fun¸cão Hclust executa uma análise hierárquica de cluster usando um conjunto de diferen¸cas para os n objetos que estão sendo armazenados em cluster. Inicialmente, cada objeto é atribu´ıdo ao seu próprio cluster e, em seguida, o algoritmo prossegue iterativa- mente, em cada estágio unindo os dois clusters mais semelhantes, continuando até que exista apenas um único cluster. Em cada estágio, as distâncias entre os clusters são recal- culadas pela fórmula de atualiza¸cão de dissimilaridade de Lance-Williams, de acordo com o método de agrupamento espec´ıfico que está sendo usado que foi o Ward.D2 (R-Manual,

2019b). O método de Distância escolhido foi o binário, onde os vetores são considerados como bits binários, portanto, elementos diferentes de zero estão “ativados” e zero são “de- sativados”. A distância é a propor¸cão de bits em que apenas um está entre aqueles em que pelo menos um está (R-Manual,2019a).

[i]_{Pacote pvclust para ambiente R:}

Cap´ıtulo 3

Desenvolvimento

“Everything should be made as simple as possible, but not simpler.”

Albert Einstein

Este Cap´ıtulo está organizado da seguinte forma: Na Se¸cão 3.1 está uma breve in- trodu¸cão de como será feito o projeto, descrevendo a metodologia que será utilizada. Em seguida, na Se¸cão 3.2 está mostrando como foi feta todo o processo de explora¸cão dos dados obtidos, logo em seguida na Se¸cão 3.3 estão alguns dos experimentos que foram realizados durante a fase de testes para a verifica¸cão a veracidade dos clusters elaborados.

3.1 Procedimentos Metodol´ogicos

O desenvolvimento deste trabalho se dá, inicialmente, nas questões relacionadas à seguran¸ca dos dispositivos móveis, mais especificamente dispositivos com SO Android. Uma das principais funcionalidades será a análise de Android Package (APK), onde será poss´ıvel verificar se determinada aplica¸cão contém inten¸cões de disseminar ou alterar informa¸cões pessoais ou não. Com isso, poderá ser realizado o agrupamento em fam´ılias, de acordo com o que a aplica¸cão desejar fazer.

A implementa¸cão, se dará inicialmente, usado técnicas de análise estática, onde os PHA foram analisados através do seu código fonte, buscando Intents, Content Provider, ou algo que tenha caráter maligno, que fa¸ca com que a aplica¸cão falhe em um dos três principais atributos das seguran¸ca da informa¸cão.

Os PHA foram analisados de forma estática e classificados de acordo com quais informa¸cões desejam utilizar sem o consentimento do usuário. Foram comparados com a lista mostrada na Se¸cão 2.1.3, levando em considera¸cão que a verifica¸cão dos aplicativos avisa o usuário se ele detectar a tentativa de instala¸cão de qualquer aplicativo que se en- quadre em uma ou mais dessas categorias em seus dispositivos (Google,2017). Quando é detectado que um PHA contém recursos de várias categorias, ele é classificado com base nas caracter´ısticas mais prejudiciais.

A categoriza¸cão de caracter´ısticas mais prejudiciais é levada em considera¸cão o que a aplica¸cão visa alcan¸car. Como por exemplo, um aplicativo que obtém dados e pede pagamento para liberar tais dados como o Ransomeware é mais grave que uma aplica¸cão que tem acesso à fotos e SMS como um spyware. Tendo como base que o que agrava varia de acordo com o que se o PHA obteve. Com isso, foi feita uma compara¸cão entre o que o

22 Cap´ıtulo 3. Desenvolvimento

PHA utiliza e sua classifica¸c˜ao de acordo com o Android, buscando encontrar semelhan¸cas, afim de descobrir quais as caracter´ısticas mais utilizadas por cada tipo de PHA

No documento Análise de Aplicações Potencialmente Nocivas em Dispositivos com Sistema Operacional Android (páginas 38-42)