Aquisic¸˜ao de Dados HUMINT - Processos Internos do Modelo Quantify

4.2 Processos Internos do Modelo Quantify

4.2.1 Aquisic¸˜ao de Dados HUMINT

Propõe-se com esta etapa do modelo Quantify o desenvolvimento de um processo que à partir de informação gerada por humanos, possa gerar informações relevantes para ajudar a identificar situações de interesse, classificando-as de forma coerente e disponibilizando-as para o uso do processo de fusão de dados e informações.

Em cenários complexos, há múltiplas fontes de dados dispon´ıveis, tais como: áudios va- riados, mensagens textuais de redes sociais, bancos de dados diversos, imagens de câmeras e informações provenientes de sistemas diversos. Cada escopo de aplicação tem particularidades das fontes e dos dados de entrada utilizadas para a realização da avaliação de uma situação. Neste processo interno do modelo Quantify, são tratadas fontes de dados HUMINT, tanto em capturas de áudio quanto em mensagens textuais. Ao final do processo busca-se obter objetos, atributos e situações preliminares, todos identificados e classificados de acordo com um dom´ınio de aplicação.

Para que tal objetivo seja atingido, o processo de “Aquisição de Dados HUMINT” é estruturado em quatro estágios (Figura 4.2), a saber: obtenção de sentenças, análise gramatical de sentenças e busca e identificação de informações relevantes. Com esta rotina inicial, tal processo interno objetiva suportar preliminarmente o processo de fusão de dados e informações e consequentemente a avaliação de situações. As próximas subseções descrevem tais etapas em detalhes.

4.2.1.1 Obtenção de Sentenças

Nesta etapa do processo ocorre a obtenção de sentenças (ou relatos) gerados por humanos, e que contém em seu corpo, informações que podem ser relevantes para SAW. Assim, caso o relato esteja em formato não estruturado, como em áudio, há a preocupação em transcrevê-lo para análise computacional.

Para tal, técnicas de processamento de linguagem natural são utilizadas para transcrever o áudio e formatar em uma estrutura de tipo String. Tal etapa pode ser realizada com uma ferramenta Speech to Text como a fornecida pelo Google (Google, 2015). Cada palavra captu- rada é enviada aos servidores do Google que retornam as palavras identificadas. Utilizando tal ferramenta para a captura de dados é poss´ıvel realizar a transcrição da linguagem natural para texto em Português com uma taxa de acerto de até 92%. O mesmo percentual pode ser obtido na captura de dados provenientes de redes sociais como o Twitter, utilizando sua API pública. Posts que relatam uma situação são buscados para a análise com base nos objetos identificados

Figura 4.2: Processo de Aquisic¸˜ao de Dados HUMINT (cinza claro) e etapas adjacentes (cinza escuro)

pelo processamento da linguagem natural.

Depois de ter os dados capturados, transcritos e armazenados de forma estruturada, os dados podem então ser enviados, por exemplo, via WebService para a realização da primeira análise, uma análise gramatical da sentença, realizada para identificar padrões e sequências lógicas de caracteres e palavras.

4.2.1.2 An´alise Gramatical de Sentenc¸as

Nesta etapa, o texto de entrada deve ser analisado por uma ferramenta de verificação grama- tical, como a CoGrOO. Assim, é poss´ıvel adicionar rótulos (tags) como: substantivos, número, objeto, ou qualquer outra classificação. Também é poss´ıvel conectar as frases obtidas no texto de entrada. Após a classificação das palavras e frases associadas, o resultado é encapsulado, por exemplo, em formato JSON que contém o texto completo e classificações realizadas, e sub- metido a uma análise final e mais completa em busca do significado de cada uma das palavras, através de palavras chaves pré-definidas ou de sua classificação dentro do texto apresentado.

4.2.1.3 Busca e Identificac¸˜ao de Objetos Relevantes

Esta etapa objetiva realizar uma análise buscando elementos definidos como importantes na verificação dos requisitos.

Durante o processo de definição destes requisitos são definidas palavras que podem ter um significado importante na análise de um relato, gerando assim listas de palavras classificadas em diferentes categorias, como tagCor (etiqueta para cor) e tagTipoFisico (etiqueta para tipo f´ısico). Desta maneira sempre que uma palavra de alguma dessas listas é encontrada, novas análises nas palavras próximas são realizadas, buscando significados adicionais, tais como estado, situação e até qualidade de objetos, pessoas ou situações. Ao analisar a classificação de uma palavra, é poss´ıvel inferir qual tipo de informação ele representa, tais como endereços, nomes, etc. Para determinar a possibilidade de uma próxima palavra, são analisadas várias palavras em bloco e comparadas a um glossário, constru´ıdo com base nas necessidades do dom´ınio.

Utilizando palavras-chave, é feita a conexão e a classificação de cada objeto encontrado e seus atributos, como por exemplo um objeto e atributos que o descrevem. Durante este estágio são usadas palavras-chaves que já foram definidas através de análise de diversas sentenças. Exemplos de palavras chaves são mostrados na Figura 4.3.

Figura 4.3: Amostra de categorias contendo palavras-chaves durante a analise

A análise das palavras é feita comparando o lexema, que é a palavra exata que foi obtida nos inputs do sistema, com as palavras chaves em alguma das categorias já definidas. Caso ela seja encontrada, e definida como um poss´ıvel objeto. Em complemento, pode ser realizada uma busca por adjetivos que possam descrever o objeto e melhorar os resultados, como mostra a Figura 4.4.

Figura 4.4: PseudoC´odigo detalhando a an´alise Objeto-Caracteristicas

Há a possibilidade de que as novas informações inferidas pelo sistema possam ser submeti- das como novas informações ao glossário ou como alterações, com base nas várias palavras en-

contradas durante a análise, o que resulta em aumento da precisão e qualidade com a utilização do sistema. Este processo não é automatizado e sua implementação demandaria a atuação do humano para indicar a qual classe de objetos uma palavra pertence.

Ao final, os objetos identificados são encapsulados em um modelo objeto JSON e sub- metido à “Avaliação de Qualidade de Dados e Informações”, e posteriormente à “Fusão de Informações com critérios de Qualidade”. Os dados então encontrados são armazenados e pro- pagados, gerando uma primeira situação.

Os objetos, atributos e propriedades geradas por esta fase são submetidos a uma avaliação, a fim de quantificar as informações de acordo com as dimensões de completude, atualidade, con- sistência, relevância, precisão sintática, completude temporal e certeza, discutidos na próxima seção. Neste módulo, ´ındices de qualidade são atribu´ıdos às informações com o objetivo de in- formar ao operador sobre tais medidas. Essas pontuações são também utilizadas como critérios de fusão, a ser também discutido na próxima seção.

A próxima seção descreve o processo de “Avaliação da Qualidade de Dados e Informações”.

No documento AO DIRIGIDO POR HUMANOS E CIENTE DE QUALIDADE DE INFORMAC ¸ ˜ AO (páginas 104-107)