• Nenhum resultado encontrado

4.2 Processos Internos do Modelo Quantify

4.2.1 Aquisic¸˜ao de Dados HUMINT

Prop˜oe-se com esta etapa do modelo Quantify o desenvolvimento de um processo que `a partir de informac¸˜ao gerada por humanos, possa gerar informac¸˜oes relevantes para ajudar a identificar situac¸˜oes de interesse, classificando-as de forma coerente e disponibilizando-as para o uso do processo de fus˜ao de dados e informac¸˜oes.

Em cen´arios complexos, h´a m´ultiplas fontes de dados dispon´ıveis, tais como: ´audios va- riados, mensagens textuais de redes sociais, bancos de dados diversos, imagens de cˆameras e informac¸˜oes provenientes de sistemas diversos. Cada escopo de aplicac¸˜ao tem particularidades das fontes e dos dados de entrada utilizadas para a realizac¸˜ao da avaliac¸˜ao de uma situac¸˜ao. Neste processo interno do modelo Quantify, s˜ao tratadas fontes de dados HUMINT, tanto em capturas de ´audio quanto em mensagens textuais. Ao final do processo busca-se obter obje- tos, atributos e situac¸˜oes preliminares, todos identificados e classificados de acordo com um dom´ınio de aplicac¸˜ao.

Para que tal objetivo seja atingido, o processo de “Aquisic¸˜ao de Dados HUMINT” ´e estru- turado em quatro est´agios (Figura 4.2), a saber: obtenc¸˜ao de sentenc¸as, an´alise gramatical de sentenc¸as e busca e identificac¸˜ao de informac¸˜oes relevantes. Com esta rotina inicial, tal pro- cesso interno objetiva suportar preliminarmente o processo de fus˜ao de dados e informac¸˜oes e consequentemente a avaliac¸˜ao de situac¸˜oes. As pr´oximas subsec¸˜oes descrevem tais etapas em detalhes.

4.2.1.1 Obtenc¸˜ao de Sentenc¸as

Nesta etapa do processo ocorre a obtenc¸˜ao de sentenc¸as (ou relatos) gerados por humanos, e que cont´em em seu corpo, informac¸˜oes que podem ser relevantes para SAW. Assim, caso o relato esteja em formato n˜ao estruturado, como em ´audio, h´a a preocupac¸˜ao em transcrevˆe-lo para an´alise computacional.

Para tal, t´ecnicas de processamento de linguagem natural s˜ao utilizadas para transcrever o ´audio e formatar em uma estrutura de tipo String. Tal etapa pode ser realizada com uma ferramenta Speech to Text como a fornecida pelo Google (Google, 2015). Cada palavra captu- rada ´e enviada aos servidores do Google que retornam as palavras identificadas. Utilizando tal ferramenta para a captura de dados ´e poss´ıvel realizar a transcric¸˜ao da linguagem natural para texto em Portuguˆes com uma taxa de acerto de at´e 92%. O mesmo percentual pode ser obtido na captura de dados provenientes de redes sociais como o Twitter, utilizando sua API p´ublica. Posts que relatam uma situac¸˜ao s˜ao buscados para a an´alise com base nos objetos identificados

Figura 4.2: Processo de Aquisic¸˜ao de Dados HUMINT (cinza claro) e etapas adjacentes (cinza escuro)

pelo processamento da linguagem natural.

Depois de ter os dados capturados, transcritos e armazenados de forma estruturada, os dados podem ent˜ao ser enviados, por exemplo, via WebService para a realizac¸˜ao da primeira an´alise, uma an´alise gramatical da sentenc¸a, realizada para identificar padr˜oes e sequˆencias l´ogicas de caracteres e palavras.

4.2.1.2 An´alise Gramatical de Sentenc¸as

Nesta etapa, o texto de entrada deve ser analisado por uma ferramenta de verificac¸˜ao grama- tical, como a CoGrOO. Assim, ´e poss´ıvel adicionar r´otulos (tags) como: substantivos, n´umero, objeto, ou qualquer outra classificac¸˜ao. Tamb´em ´e poss´ıvel conectar as frases obtidas no texto de entrada. Ap´os a classificac¸˜ao das palavras e frases associadas, o resultado ´e encapsulado, por exemplo, em formato JSON que cont´em o texto completo e classificac¸˜oes realizadas, e sub- metido a uma an´alise final e mais completa em busca do significado de cada uma das palavras, atrav´es de palavras chaves pr´e-definidas ou de sua classificac¸˜ao dentro do texto apresentado.

4.2.1.3 Busca e Identificac¸˜ao de Objetos Relevantes

Esta etapa objetiva realizar uma an´alise buscando elementos definidos como importantes na verificac¸˜ao dos requisitos.

Durante o processo de definic¸˜ao destes requisitos s˜ao definidas palavras que podem ter um significado importante na an´alise de um relato, gerando assim listas de palavras classificadas em diferentes categorias, como tagCor (etiqueta para cor) e tagTipoFisico (etiqueta para tipo f´ısico). Desta maneira sempre que uma palavra de alguma dessas listas ´e encontrada, novas an´alises nas palavras pr´oximas s˜ao realizadas, buscando significados adicionais, tais como estado, situac¸˜ao e at´e qualidade de objetos, pessoas ou situac¸˜oes. Ao analisar a classificac¸˜ao de uma palavra, ´e poss´ıvel inferir qual tipo de informac¸˜ao ele representa, tais como enderec¸os, nomes, etc. Para determinar a possibilidade de uma pr´oxima palavra, s˜ao analisadas v´arias palavras em bloco e comparadas a um gloss´ario, constru´ıdo com base nas necessidades do dom´ınio.

Utilizando palavras-chave, ´e feita a conex˜ao e a classificac¸˜ao de cada objeto encontrado e seus atributos, como por exemplo um objeto e atributos que o descrevem. Durante este est´agio s˜ao usadas palavras-chaves que j´a foram definidas atrav´es de an´alise de diversas sentenc¸as. Exemplos de palavras chaves s˜ao mostrados na Figura 4.3.

Figura 4.3: Amostra de categorias contendo palavras-chaves durante a analise

A an´alise das palavras ´e feita comparando o lexema, que ´e a palavra exata que foi obtida nos inputs do sistema, com as palavras chaves em alguma das categorias j´a definidas. Caso ela seja encontrada, e definida como um poss´ıvel objeto. Em complemento, pode ser realizada uma busca por adjetivos que possam descrever o objeto e melhorar os resultados, como mostra a Figura 4.4.

Figura 4.4: PseudoC´odigo detalhando a an´alise Objeto-Caracteristicas

H´a a possibilidade de que as novas informac¸˜oes inferidas pelo sistema possam ser submeti- das como novas informac¸˜oes ao gloss´ario ou como alterac¸˜oes, com base nas v´arias palavras en-

contradas durante a an´alise, o que resulta em aumento da precis˜ao e qualidade com a utilizac¸˜ao do sistema. Este processo n˜ao ´e automatizado e sua implementac¸˜ao demandaria a atuac¸˜ao do humano para indicar a qual classe de objetos uma palavra pertence.

Ao final, os objetos identificados s˜ao encapsulados em um modelo objeto JSON e sub- metido `a “Avaliac¸˜ao de Qualidade de Dados e Informac¸˜oes”, e posteriormente `a “Fus˜ao de Informac¸˜oes com crit´erios de Qualidade”. Os dados ent˜ao encontrados s˜ao armazenados e pro- pagados, gerando uma primeira situac¸˜ao.

Os objetos, atributos e propriedades geradas por esta fase s˜ao submetidos a uma avaliac¸˜ao, a fim de quantificar as informac¸˜oes de acordo com as dimens˜oes de completude, atualidade, con- sistˆencia, relevˆancia, precis˜ao sint´atica, completude temporal e certeza, discutidos na pr´oxima sec¸˜ao. Neste m´odulo, ´ındices de qualidade s˜ao atribu´ıdos `as informac¸˜oes com o objetivo de in- formar ao operador sobre tais medidas. Essas pontuac¸˜oes s˜ao tamb´em utilizadas como crit´erios de fus˜ao, a ser tamb´em discutido na pr´oxima sec¸˜ao.

A pr´oxima sec¸˜ao descreve o processo de “Avaliac¸˜ao da Qualidade de Dados e Informac¸˜oes”.