• Nenhum resultado encontrado

Solução de business intelligence 2.0 para extração e análise de dados a partir do twitter

N/A
N/A
Protected

Academic year: 2021

Share "Solução de business intelligence 2.0 para extração e análise de dados a partir do twitter"

Copied!
138
0
0

Texto

(1)

JÔNATAS ANDRADE TAVARES

SOLUÇÃO DE BUSINESS INTELLIGENCE 2.0 PARA EXTRAÇÃO E ANÁLISE DE DADOS A PARTIR DO TWITTER

(2)

2014

JÔNATAS ANDRADE TAVARES

SOLUÇÃO DE BUSINESS INTELLIGENCE 2.0 PARA EXTRAÇÃO E ANÁLISE DE DADOS A PARTIR DO TWITTER

Trabalho de Conclusão de Curso apresentado ao Curso de Graduação em Sistemas da Informação da Universidade do Sul de Santa Catarina, como requisito parcial à obtenção do título de Bacharel em Sistemas da Informação.

Orientador: Flavio Ceci, MEng.

(3)

2014

JÔNATAS ANDRADE TAVARES

SOLUÇÃO DE BI 2.0 PARA EXTRAÇÃO E ANÁLISE DE DADOS UTILIZANDO FONTES DE DADOS NÃO ESTRUTURADAS A PARTIR DO TWITTER.

Este Trabalho de Conclusão de Curso foi julgado ade-quado à obtenção do título de Bacharel em Sistemas de Informação e aprovado em sua forma final pelo Curso de Graduação em Sistemas da Informação da Universi-dade do Sul de Santa Catarina.

Florianópolis, 10 de Novembro de 2014.

Prof. Flávio Ceci, MEng.

Universidade do Sul de Santa Catarina

Prof. Saulo Popov Zambiasi, Dr. Universidade do Sul de Santa Catarina

Prof. Julio Goncalves Reinaldo, Bel. Universidade do Sul de Santa Catarina

(4)

AGRADECIMENTOS

Agradeço a Deus por me permitir estar aqui neste momento concluindo mais uma jornada.

Agradeço aos meus pais, por me apoiarem, dar forças e estarem sempre presentes nos momentos mais difíceis incentivando, tanto emocionalmente como financeiramente.

Agradeço a minha família, por me dar apoio, carinho e incentivo.

Agradeço ao professor e orientador Flavio Ceci, por todo apoio prestado durante a elaboração deste trabalho.

Agradeço também aos colegas que fizeram parte desta caminhada, compartilhan-do conhecimento e auxílio.

Por fim, agradeço a todos que de forma direta ou indireta fizeram parte da minha vida acadêmica.

(5)

RESUMO

De acordo com sua crescente evolução, a internet transformou-se em um ambiente rico de informações, contendo diversos tipos de assuntos. Por consequência disto, este ambiente tornou-se muito atrativo às organizações. Contudo, com essa imensa quantidade de informações, as organizações necessitam adquirir ferramentas que possibilitem a coleta das informações pertinentes ao seu âmbito e às introduza em suas bases de conhecimento. O Business Inteligence (BI) 2.0 é um conjunto de ferramentas de grande contribuição para estas organizações, permite que as informações contidas na Web 2.0 sejam introduzidas nos seus repositórios de dados, disponibilizando, assim, informações necessárias para uma análise mais ágil, melhorando e auxiliando no processo de tomada de decisão. Diante deste contexto e com a proposta de apresentar um exemplo deste conjunto de ferramentas, este trabalho possui como proposta de solução apresentar, assim, uma solução de BI 2.0. Para isso, foi desenvolvido um experimento que permite a extração de informações contidas na web de maneira não estruturada, mais especificamente informações da rede social Twitter, realize o processo de transformação dos dados coletados, utilizando o processo de ETL, e os insira em uma base de dados, possibilitando realizar uma análise das informações obtidas, graficamente. Os resultados obtidos neste experimento foram satisfatórios fornecendo a importância de existirem estes conjuntos de ferramentas, tendo em vista a agilidade e a facilidade de obtenção de informações relacionadas ao âmbito da análise realizada.

(6)

ABSTRACT

According to its growing trend, the Internet has become a rich information environment, containing many kinds of matters. By consequence, this environment has become very attractive to organizations. However, with this immense amount of information, organizations need to acquire tools that enable the collection of information relevant to their context and to enter into their knowledge bases. The Business Intelligence (BI) 2.0 is a set of large contribution to these organizations tools, allows the information contained in the Web 2.0 are introduced in their data repository, thus providing information necessary for a more agile analysis, improving and aiding in the decision-making process. Given this context and with the proposal to provide an example of this toolkit, as this paper has proposed solution thus present a BI 2.0. For this, we developed an experiment that allows the extraction of information contained in the web of unstructured manner, specifically information from the social network Twitter, perform the transformation of the data collected using the ETL process, and insert them into a base data, allowing to perform an analysis of the information obtained graphically. The results obtained in this experiment were satisfactory providing the importance of these toolkits exist, given the speed and the ease of obtaining information relating to the scope of the analysis.

Keywords: Business Intelligence 2.0. ETL. Web. Twitter. Information Extraction. .

(7)

LISTA DE FIGURAS

Figura 1 - Funções de um sistema de informação. ... 20

Figura 2 – Níveis hierárquicos da informação... 21

Figura 3 - Classificação dos Sistemas de Informação ... 24

Figura 4 - Arquitetura de BI ... 29

Figura 5 - O processo de ETL ... 31

Figura 6 - Etapas do processo KDT. ... 39

Figura 7 - Etapas Metodológicas. ... 43

Figura 8 - Fluxograma da proposta de solução... 44

Figura 9 - Arquitetura Tecnológica. ... 45

Figura 10 - Diferentes perspectivas em UML ... 46

Figura 11 - Requisitos Funcionais ... 50

Figura 12 - Requisitos Não Funcionais ... 52

Figura 13 - Regras de Negócio ... 53

Figura 14 - Protótipo da tela de login ... 54

Figura 15 - Protótipo da tela inicial ... 55

Figura 16 - Protótipo da tela de termos ... 56

Figura 17 - Protótipo da tela de histórico ... 56

Figura 18 - Protótipo da tela de entidades ... 57

Figura 19 - Casos de Uso ... 58

Figura 20 - Modelo de Domínio ... 62

Figura 21 - Modelo de Robustez ... 63

Figura 22 - Modelo de Sequência do Caso de Uso UC002 - Primeira Parte ... 65

Figura 23 - Modelo de Sequência do Caso de Uso UC002 - Segunda Parte ... 66

Figura 24 - Modelo de Sequência do Caso de Uso UC002 - Terceira Parte ... 67

Figura 25 - Diagrama de Classes ... 68

Figura 26 - Proposta de Solução ... 69

Figura 27 - Ferramentas Tecnológicas ... 70

Figura 28 - Relacionamento das Ferramentas com a Proposta de Solução ... 72

Figura 29 - Tela Login ... 78

Figura 30 - Tela Login Incorreto ... 79

Figura 31 - Tela Inicial ... 79

Figura 32 - Tela Inicial Status Stop ... 80

Figura 33 - Tela Termos ... 80

Figura 34 - Termo Cadastrado com Sucesso ... 81

Figura 35 - Confirmação de exclusão ... 81

Figura 36 - Sucesso na Exclusão do Termo ... 82

Figura 37 - Tela Histórico ... 83

Figura 38 - Tela Entidades... 84

Figura 39 - Sucesso no Upload ... 84

Figura 40 – Logout ... 85

(8)

Figura 42 - Modelo Dimensional... 89

Figura 43 - Carga Dimensão Cargo ... 94

Figura 44 - Carga Dimensão Evento ... 94

Figura 45 - Step Table Input Evento ... 95

Figura 46 - Table Output Evento ... 95

Figura 47 - Carga Dimensão Partido ... 96

Figura 48 - Table Input Partido ... 96

Figura 49 - Table Output Partido ... 97

Figura 50 - Carga Dimensão Pessoa ... 97

Figura 51 - Table Input Pessoa ... 98

Figura 52 - Table Output Pessoa ... 98

Figura 53 - Carga Dimensão Tempo ... 99

Figura 54 - Table Input Tempo... 99

Figura 55 - Table Output Tempo ... 100

Figura 56 - Carga Dimensão Termo ... 100

Figura 57 - Table Input Termo ... 101

Figura 58 - Table Output Termo ... 101

Figura 59 - Carga Dimensão Assunto... 102

Figura 60 - Table Input Assunto ... 102

Figura 61 - Table Output Assunto ... 103

Figura 62 - Carga Dimensão Semente ... 103

Figura 63 - Table Input Semente ... 104

Figura 64 - Table Output Semente ... 104

Figura 65 - Carga est_fato ... 105

Figura 66 - Table Input Tweetid ... 106

Figura 67 - Table Input est_entidades ... 106

Figura 68 - Table Input est_termos ... 107

Figura 69 - Merge Join est_fato ... 107

Figura 70 - Lookup Semente ... 108

Figura 71 - Lookup Cargo ... 108

Figura 72 - Lookup Evento ... 109

Figura 73 - Lookup Partido ... 109

Figura 74 - Lookup Pessoa ... 110

Figura 75 - Lookup Tempo ... 110

Figura 76 - Lookup Assunto ... 111

Figura 77 - Lookup Termos ... 111

Figura 78 - Insert e Update est_fato ... 112

Figura 79 - Carga fato_tcc ... 113

Figura 80 - Table Input fato_tcc ... 113

Figura 81 - Insert Update fato_tcc ... 114

Figura 82 - Cubo OLAP ... 115

Figura 83 - Análise Cubo OLAP ... 116

Figura 84 - Total Tweets Candidatos Presidência ... 117

(9)

Figura 86 - Total Tweets Presidência Assunto ... 119

Figura 87 - Total Tweets Termo Presidência ... 119

Figura 88 - Cenário de Avaliação ... 121

Figura 89 – Gráfico Questão 1 ... 122

Figura 90 - Gráfico Questão 2 ... 123

Figura 91 - Gráfico Questão 3 ... 124

Figura 92 - Gráfico Questão 4 ... 124

Figura 93 - Gráfico Questão 5 ... 125

Figura 94 - Gráfico Questão 6 ... 126

Figura 95 - Gráfico Questão 7 ... 126

Figura 96 - Gráfico Questão 8 ... 127

Figura 97 - Gráfico Questão 9 ... 128

(10)

LISTA DE QUADROS

Quadro 1 - Tabela diferencial entre modelo Dimensional e ER. ... 30

Quadro 2 - Tabela Redes Sociais ... 36

Quadro 3 - Comparativo entre BI e BI2.0 ... 36

Quadro 4 - Tipos de diagramas oficiais da UML ... 48

(11)

SUMÁRIO 1 INTRODUÇÃO ... 13 1.1 PROBLEMÁTICA ... 14 1.2 OBJETIVOS ... 15 1.2.1 Objetivo Geral ... 15 1.2.2 Objetivos Específicos... 16 1.3 JUSTIFICATIVA ... 16 1.4 ESTRUTURA DA MONOGRAFIA ... 18 2 REVISÃO BIBLIOGRÁFICA ... 19 2.1 SISTEMAS DE INFORMAÇÃO ... 19

2.1.1 Dado, Informação, Conhecimento e Inteligência ... 21

2.1.1.1 Dado ... 22

2.1.1.2 Informação ... 23

2.1.1.3 Conhecimento... 23

2.1.1.4 Inteligência ... 23

2.1.2 Classificação dos Sistemas de Informação ... 24

2.1.3 Sistemas de Apoio a Decisão (SAD) ... 25

2.2 BUSINESS INTELLIGENCE ... 27 2.2.1 Histórico e Definições ... 27 2.2.2 Arquitetura de BI ... 28 2.2.2.1 Modelagem Dimensional ... 30 2.2.2.2 ETL... 31 2.2.2.3 Mineração de Dados ... 32 2.2.2.4 Relatórios e OLAP ... 34 2.2.3 Business Intelligence 2.0 ... 35 2.3 EXTRAÇÃO DE INFORMAÇÃO ... 38

2.3.1 Reconhecimento de entidades nomeadas (NER) ... 38

2.3.2 Descoberta de conhecimento em texto (KDT) ... 39

2.4 WEB 2.0 ... 40

3 MÉTODO ... 41

3.1 CARACTERIZAÇÃO DO TIPO DE PESQUISA ... 41

3.2 ETAPAS METODOLÓGICAS ... 42

3.3 PROPOSTA ... 44

3.3.1 Fluxograma da proposta de solução ... 44

3.3.2 Arquitetura Tecnológica ... 45

3.4 DELIMITAÇÕES ... 45

4 PROJETO DE SOLUÇÃO PARA O EXTRATOR DE DADOS ... 46

4.1 UML ... 46

4.2 MODELAGEM DA SOLUÇÃO DE COLETA PROPOSTA ... 48

4.2.1 Requisitos ... 48

(12)

4.2.1.2 Requisitos Não Funcionais ... 51 4.2.2 Regras de Negócio ... 53 4.2.3 Protótipos de Tela... 54 4.2.4 Casos de uso ... 58 4.2.5 Modelo de domínio ... 61 4.2.6 Diagrama de Robustez ... 62 4.2.7 Diagrama de Sequencia ... 64 4.2.8 Modelo de classes ... 67 5 DESENVOLVIMENTO ... 69 5.1 PROPOSTA DE SOLUÇÃO ... 69 5.2 FERRAMENTAS TECNOLÓGICAS... 70 5.3 EXPERIMENTO ... 73 5.3.1 Dicionário de Dados ... 74 5.3.2 Cenário de Aplicação... 75 5.3.3 Histórico do desenvolvimento ... 76 5.4 PROTÓTIPO DESENVOLVIDO ... 78 5.4.1 Coletor ... 78

5.4.2 Banco de Dados Relacional... 85

5.4.3 Modelo Dimensional ... 89

5.4.4 ETL ... 93

5.4.5 Cubo OLAP ... 114

5.4.6 Análise ... 115

5.5 AVALIAÇÃO ... 117

5.5.1 Análise da Infraestrutura de BI desenvolvida ... 117

5.5.2 Questionário ... 120

5.5.3 Cenário de Avaliação ... 121

5.5.4 Resultados ... 122

5.6 CONSIDERAÇÕES DO CAPÍTULO ... 129

6 CONCLUSÕES E TRABALHOS FUTUROS ... 130

6.1 CONCLUSÕES ... 130

(13)

1 INTRODUÇÃO

É notório que cada vez mais as soluções de Business Intelligence (BI) estão sendo utilizadas nas organizações. Silva (2011) afirma que BI consiste na transformação metódica e consciente dos dados provenientes de quaisquer fontes de dados (estruturados e não estruturados) em novas formas de proporcionar informação e conhecimento dirigidos aos negócios e orientados aos resultados. O uso dessas soluções tornou-se mais frequente, tendo em vista a sua abrangência, pois podem ser utilizadas em qualquer área de atuação das organizações, auxiliando nas tomadas de decisões.

O mercado, por sua vez, torna-se mais competitivo. São inúmeras as empresas de diversos tipos de segmentos, contribuindo para uma melhoria nos serviços oferecidos e na busca pela satisfação dos clientes. Nesta busca, nota-se que a satisfação do cliente só é alcançada quando se atinge a sua necessidade de negócio.

Com isso, as empresas começaram a procurar ferramentas com o intuito de conhecer melhor o ambiente de negócio dos clientes. Eis que surgem ferramentas que, através de várias fontes de informações, extraem os dados, com interesse nos relacionados ao ambiente de negócio do cliente, e os transformam em informações úteis para a melhoria e apoio nas decisões do cliente e das próprias organizações.

Para Reginato e Nascimento (2007), BI tem como objetivos transformar grandes quantidades de dados em informações de qualidade, para a tomada de decisão, de modo a possibilitar uma visão sistêmica do negócio e auxiliar na distribuição uniforme dos dados entre os usuários.

Assim, o BI gradativamente foi evoluindo, a procura por informações foi aumentando e a necessidade de satisfazer o cliente tornou-se prioridade para as empresas. As melhorias nas ferramentas de BI também foram constantes, até que começaram a aparecer informações úteis também na Web.

No mundo globalizado, a informação está disponível nos diversos veículos de comunicação. Contudo, atualmente, tem crescido a quantidade de usuários e clientes que usam a Web para se expressarem ou para divulgarem informações de seu próprio conhecimento ou ainda de conhecimento mútuo. Devido à facilidade de se expressar, o ser humano tem adotado a Web como um meio de se comunicar com pessoas em todos os lugares do mundo, sem precisar sair de casa.

(14)

Com esse aumento de informação, as organizações descobriram que um dos melhores caminhos para descobrirem informações relevantes aos seus clientes, ou até mesmo à própria organização, era a captura dessa informação na Web.

Com o avanço da tecnologia, foram se criando também ambientes para facilitar a comunicação entre as pessoas, e a Web foi se transformando, ganhando ferramentas de uso cotidiano, melhorando a comunicação interpessoal. Para Ceci (2012), as pessoas estão cada vez mais produzindo dados de maneira involuntária, seja escutando música on-line, fazendo buscas como Google, Bing e Yahoo, navegando em sites, interagindo em redes sociais, entre outros. Segundo Marteleto (2001), redes sociais são conjuntos de participantes autônomos, unindo ideias e recursos em torno de valores e interesses compartilhados.

Este trabalho tem como finalidade desenvolver uma solução de BI que permita usar as informações contidas nessas redes sociais, neste caso, é usado o Twitter, para inseri-las em um repositório de dados, a fim de apoiar uma decisão futura.

No primeiro capítulo, é apresentada a problemática, objetivos gerais e específicos, justificativa, e uma seção que demonstra como esta monografia está organizada.

1.1 PROBLEMÁTICA

Conforme exposto anteriormente, Business Intelligence possui uma grande impor-tância para as organizações em se tratando de tomada de decisão. Contudo, nem sempre as informações obtidas de uma fonte de dados estruturados são satisfatórias para a organização que, por sua vez, necessita buscar dados em outras fontes. De acordo com Inmon et al. (2008), dados estruturados são dados que vem repetidamente no mesmo formato e layout. Muitas or-ganizações enfrentam problemas com a busca das informações. Em alguns casos, o processo de captura dessas informações é muito custoso, como por exemplo, as informações obtidas das próprias bases relacionais das organizações. Dessa forma, as empresas necessitam buscar informações em outras fontes de dados, como, é o caso das fontes não estruturadas.

Segundo Nelson (2010), Business Intelligence 2.0 prevê a revisão dos princípios de disponibilização de dados e de exploração de informações, associando ao BI tradicional os recursos oferecidos pela Web 2.0, focando na colaboração em comunidades de informação, no uso de novas tecnologias da Web tal como XML, RSS, MASHUPS e Ajax, e nos conceitos de

(15)

integração pela Web Semântica através de ontologias compartilhadas. Segundo Prada (2008), web semântica é um novo passo no desenvolvimento da internet marcado principalmente pela organização do conteúdo e pela interação inteligente do usuário com o material disponibiliza-do na rede.

As redes sociais são fontes de dados interessantes para os negócios das organiza-ções, pois armazenam informaorganiza-ções, como, por exemplo, dados de localização ou de pretensão futura dos clientes, importante para a decisão das tendências futuras do negócio. Segundo Baldan et al.(2011), as redes sociais se tornaram um dos principais canais de comunicação das organizações com o seu cliente final.

Segundo Lunardi (2011, apud CECI, 2012 p.54), as informações de redes sociais são muito importantes para organização e podem auxiliar a inteligência competitiva, a análise de opinião sobre os produtos e serviços da organização.

Contudo, os dados de fontes estruturadas somados com os dados de fontes não es-truturadas e, ainda, convergindo para um único ponto, no caso o Data Warehouse (DW), acar-retam em um grande acúmulo de informações, trazendo preocupações para as organizações que necessitam que esses dados sejam tratados e analisados de forma a gerar informações úteis aos seus negócios. Desta forma, como definir um ferramental computacional para tratar essa quantidade massiva de dados de modo a analisar e gerar inteligência à organização que, por sua vez, depende da tomada de decisão correta para dar um melhor andamento nos seus negócios? Como realizar a extração destes dados nas fontes não estruturadas, como, por e-xemplo, a rede social Twitter?

1.2 OBJETIVOS

Nesta sessão, são apresentados o objetivo geral e os objetivos específicos.

1.2.1 Objetivo Geral

O objetivo deste trabalho é disponibilizar uma solução de BI 2.0 que realize a ex-tração e análise de dados, utilizando fontes de dados não estruturados do Twitter a partir de recursos da Web 2.0, a fim da demonstração de alguns indicadores.

(16)

1.2.2 Objetivos Específicos

- definir ferramental computacional para apoiar a implementação da solução de BI 2.0;

- propor uma solução para extração, transformação e carga de dados não estruturados; - apresentar um protótipo para análise dos dados armazenados;

- formular uma solução baseada em análise de dados da Web 2.0; - documentar os resultados e constatações obtidas.

1.3 JUSTIFICATIVA

A crescente procura pelo conhecimento nas organizações, gradativamente, vem ganhando espaço e traz como consequência um acúmulo expressivo de informações. Com isso, percebemos uma grande dependência de recursos computacionais, devido à necessidade do armazenamento das informações. Contudo, o interesse das organizações vai além do sim-ples armazenamento de informação. As organizações necessitam que se crie um relaciona-mento entre os dados, apresentando-os de forma a gerar uma certa inteligência para tomada de decisões futuras.

Segundo Ceci (2010), há bastante tempo, as organizações utilizam seus dados o-peracionais para gerar informação que os ajudem na etapa de tomada de decisão. Mas nunca se produziu tantos dados no ambiente virtual como nos dias de hoje. O surgimento de uma série de dispositivos que mantém cada vez mais as pessoas conectadas proporciona uma ver-dadeira avalanche de novos dados por segundo.

Com auxilio de ferramentas de BI, as organizações encontram a forma de melho-rar a tomada de decisão e o armazenamento de informações a medida que é realizada a con-vergência de dados de diversas fontes para as bases de conhecimento. Segundo Côrtes (2002, apud SELL, 2006 p.25), Business Intelligence é um conjunto de conceitos e metodologias que visa a apoiar a tomada de decisões nos negócios, a partir da transformação do dado em infor-mação e da inforinfor-mação em conhecimento.

(17)

Apesar da grande quantidade de informações armazenadas em suas bases de nhecimento, as organizações também perceberam a crescente utilização das redes sociais co-mo forma de geração de informação. Com uma melhor análise desses dados, chegou-se a con-clusão de que se inseridos em um contexto de negócio, poderiam ser a peça chave para a to-mada de decisão. Desta forma, as soluções de BI evoluíram e surge um novo conceito deno-minado BI 2.0.

Na visão de Pintas e Siqueira (2011), a maior deficiência das soluções tradicionais de BI está na latência entre o acontecimento do evento e a tomada de decisão. Segundo os autores em questão, o BI 2.0 tem como foco atacar essa latência.

A utilização do BI 2.0, além de outros assuntos, foi escolhida com o objetivo de buscar resolver este problema relacionado à extração e análise dos dados não estruturados e estruturados contidos no DW.

Mediante esta nova abordagem de BI, as organizações esperam uma melhora na expressividade perante o mercado, buscando novas necessidades dos clientes. O BI 2.0 possui um foco a mais para a organização, ao entender e ouvir os clientes, buscando milhares de in-formações de usuários espalhados na web.

Este trabalho propõe a utilização do BI 2.0, aliado com ferramentas da rede social do Twitter, utilizando uma abordagem inovadora para a extração de informações e inserção em um repositório de dados com o intuito de uma demonstração da tomada de decisão de uma organização.

(18)

1.4 ESTRUTURA DA MONOGRAFIA

A monografia se encontra dividida em seis capítulos com o seguinte conteúdo: Capítulo 1 – Apresenta o propósito, introdução, os objetivos, a justificativa e a estrutura da monografia.

Capítulo 2 - Referencial teórico, apresentando os principais temas e conceitos relacionados ao tema Business Intelligence 2.0.

Capítulo 3 – Apresenta o método de pesquisa adotado.

Capítulo 4 – A modelagem para a proposta de solução é descrita.

Capítulo 5 – Demonstrada a proposta de solução, bem como informações e avaliação dos re-sultados.

(19)

2 REVISÃO BIBLIOGRÁFICA

Este capítulo tem como principal objetivo apresentar um referencial bibliográfico para amparar os temas e assuntos abordados na monografia, além de auxiliar no seu desenvol-vimento. Desta forma, o capítulo foi estruturado para que apresente quatro assuntos princi-pais: sistemas de informação, Business Intelligence, extração de Informação e web 2.0. Tais assuntos são base das referências contidas neste capítulo.

O capítulo ainda contém um detalhamento de cada um destes assuntos, ou seja, os assuntos foram analisados e explanados para melhor entendimento do contexto geral da mo-nografia.

No detalhamento desses assuntos principais, existem alguns subitens, como uma introdução dos conceitos sobre dado, informação e conhecimento, além da classificação dos sistemas de informação.

Contudo, o foco principal se dá nos assuntos tangíveis ao tema da monografia, desta forma, este capítulo ainda contempla os principais conceitos de Business Intelligence 2.0, ETL, modelagem dimensional, mineração de dados, reconhecimento de entidades nome-adas (NER), descoberta de conhecimento em texto (KDT) e Web 2.0.

2.1 SISTEMAS DE INFORMAÇÃO

Conforme Manãs (1999, apud CECI, 2012), um sistema de informação é um con-junto interdependente das pessoas, das estruturas da organização, das tecnologias de informa-ção (hardware e software), dos procedimentos e métodos que deveriam permitir à empresa dispor, no tempo desejado, das informações de que necessita (ou necessitará) para seu funcio-namento atual e para sua evolução.

Segundo Laudon e Laudon (1998), um sistema de informação (SI) pode ser defi-nido tecnicamente como um conjunto de componentes inter-relacionados que coletam (ou recuperam), processam, armazenam e distribuem informações destinadas a apoiar à tomada de decisões, à coordenação e o controle de uma organização. Além de dar apoio à tomada de decisões, à coordenação e ao controle, esses sistemas também auxiliam os gerentes e traba-lhadores a analisar problemas, visualizar assuntos complexos e criar novos produtos.

(20)

Comple-ta que estes sistemas contêm informações sobre pessoas, locais e itens significativos para a organização ou para o ambiente que a cerca.

Os autores Laudon e Laudon (1998), ainda, relatam que três atividades em um sis-tema de informação geram conclusões que as organizações necessitam para tomar decisões, controlar operações, analisar problemas e criar novos produtos ou serviços. Essas atividades são entrada, processamento e saída (Figura 1). A entrada captura ou coleta dados brutos de dentro da organização ou de seu ambiente externo. O processamento converte esses dados brutos em uma forma mais significativa. A saída transfere as informações processadas às pes-soas que as utilizarão ou às atividades nas quais elas serão empregadas. Os sistemas de infor-mação também requerem um feedback, que é uma resposta à ação adotada a determinados membros da organização para ajudá-los a avaliar ou corrigir o estágio de entrada.

Figura 1 - Funções de um sistema de informação.

Fonte: Adaptado de Laudon e Laudon (1998).

Em análise a figura 1, nota-se que o fluxo de atividades não possui fim, ou seja, os sistemas de informações possuem, assim, um fluxo contínuo de atividades, de acordo com as citadas por Laudon e Laudon (1998).

(21)

2.1.1 Dado, Informação, Conhecimento e Inteligência

Conforme o texto introdutório deste trabalho, a concentração de dados de todos os tipos de fontes é cada vez maior. Esta informação é consequência das crescentes quantidades de informações dos diversos assuntos injetadas na rede. Para contribuir com esta crescente, as empresas estão começando a adotar novas práticas de captura do conhecimento.

Com o objetivo de explanar melhor sobre este assunto, a figura 2, apresenta o re-lacionamento entre Dado, Informação, Conhecimento e Inteligência, termos que são aborda-dos e conceituaaborda-dos nos itens.

Figura 2 – Níveis hierárquicos da informação.

(22)

Em análise a figura 2, nota-se que dado, informação, conhecimento e inteligência são itens distintos, porém podem ser interligados de forma a gerar conteúdo necessário para a tomada de decisão de uma empresa.

2.1.1.1 Dado

Segundo Davenport e Prusak (1998), dados são um conjunto de fatos distintos e objetivos, relativos a eventos, na forma de registros estruturados de transações, os quais des-crevem apenas parte de um fato ocorrido. Ainda que não forneçam julgamento, interpretação ou qualquer base sustentável para a tomada de ação, são importantes, porque constituem a matéria prima essencial para a criação da informação.

Já para Fialho et al. (2006), dados são representações simbólicas para descrições de atributos de qualquer nível.

Para Moresi (2000), dados compreendem a classe mais baixa da informação e in-cluem os itens que representam fatos, textos, gráficos, imagens estáticas, sons, etc. Representa a matéria prima a ser utilizada na produção de informações.

A análise concentra-se em dois tipos de dados, sendo eles, os dados estruturados e não estruturados.

Inmon et al.(2008) definem dados estruturados como sendo dados que vêm repeti-damente no mesmo formato e layout, geralmente oriundos dos sistemas transacionais. En-quanto dados não estruturados referem-se ao fato de que nenhuma estrutura identificável está disponível, seja por meio de metadados ou pelo seu próprio conteúdo (SINT et al., 2009).

Contudo, existe outro tipo de dado, conhecido como semiestruturado. De acordo com o conceito de Sint et al.(2009), dados semiestruturados são dados sem esquemas ou que são autodescritos, pois não há nenhum metadado externo do tipo ou estrutura de dados.

Para exemplificar melhor o termo, Barbieri (2001) confirma que os dados que ou-trora eram meros representantes de fatos comuns como nome, endereço, telefone, etc., hoje, sofisticam-se na representação de imagens, vídeos, sons, dados temporais, indicadores eco-nômicos, planilhas, páginas HTML e estruturas XML.

Laudon e Laudon (2010) completam que dados são sequências de fatos ainda não analisados, representativos de eventos que ocorrem nas organizações ou no ambiente físico, antes de terem sido organizados e arranjados de uma forma que as pessoas possam entendê-los e usá-entendê-los.

(23)

2.1.1.2 Informação

Informação é definida como uma mensagem, geralmente na forma de documento ou uma comunicação audível ou visível, com um emitente e um receptor, cuja finalidade é mudar o modo de como o destinatário vê algo e de exercer algum impacto sobre seu julga-mento e comportajulga-mento, segundo Davenport e Prusak (1998). Outros autores possuem defini-ções similares ao assunto.

Segundo Fialho et al. (2006), informação é um conjunto de dados que são proces-sados corretamente e tornam-se compreensíveis, ou seja, apresentem um significado, criando padrões e acionando significados na mente dos indivíduos.

Já para Moresi (2000), as informações são dados que passam por algum tipo de processamento para serem exibidos em forma inteligível para as pessoas que irão utilizá-los.

Laudon e Laudon (2010) simplificam o conceito de informação e diz que são da-dos apresentada-dos em uma forma significativa e útil para os seres humanos.

2.1.1.3 Conhecimento

Para Fialho et al. (2006), pode-se definir conhecimento como um conjunto com-pleto de informações, dados e relações que auxiliamos indivíduos na tomada de decisão, à realização de tarefas e à geração de novas informações e conhecimentos.

Para Moresi (2000), o conhecimento são as informações que foram analisadas e avaliadas sobre a sua confiabilidade, sua relevância e sua importância. O conhecimento é ob-tido pela interpretação e integração de vários dados e informações.

2.1.1.4 Inteligência

Para Moresi (2000), a inteligência é a informação como oportunidade, ou seja, o conhecimento contextualmente relevante que permite atuar com vantagem no ambiente consi-derado.

Inteligência é a arte de aplicar conhecimento imperfeito. É a arte de perceber cien-tificamente os desafios selvagens. Não importa quanta informação se obtém; a incerteza sem-pre existirá. E mesmo assim decisões terão de ser tomadas (FULD, 2006).

(24)

Além disso, “a inteligência pressupõe a faculdade de apreender, aprender e com-preender, buscando a adaptação ou transformação de maneira satisfatória [...] e atualmente a capacidade emocional” (ROBERTO, 2004).

2.1.2 Classificação dos Sistemas de Informação

Segundo Laudon e Laudon (1998), os sistemas de informação são classificados de acordo com níveis hierárquicos, sendo eles: sistemas de nível operacional, sistemas de nível de produção de conhecimento, sistemas de nível gerencial e sistemas de nível estratégico. Segue uma ilustração figura 3 e um detalhamento desses três níveis hierárquicos.

Figura 3 - Classificação dos Sistemas de Informação

Fonte: Adaptado de Laudon e Laudon (1998).

Os Sistemas de Nível Operacional são destinados ao suporte das atividades do ne-gócio da empresa, tendo como função ou acompanhando da rotina, indicando o nível das ven-das, compras, fluxo de caixa, emissão de notas fiscais. São sistemas ligados ao cotidiano das empresas e suas operações, cujo nome é Sistemas de Informação Transacionais (SIT), for-mando a base de informações para os Sistemas de Informação Gerenciais (SIG) e Sistemas de Apoio à Decisão (SAD).

(25)

Os Sistemas de Nível de Produção de Conhecimento apoiam o processo de coleta e armazenamento de novo conhecimento associado ao negócio, para a administração da conti-nuidade das tarefas cotidianas.

Os Sistemas de Nível Gerencial são destinados ao controle e monitoramento das atividades relacionadas ao nível operacional, indicando simulações de cenários estruturados, sendo um sistema com o foco na média gerência da empresa, e podem ser divididos em dois tipos de sistemas: os Sistemas de Informações Gerenciais (SIG), os quais são destinados ao suporte das atividades, agregando dados internos e apresentando resumos das transações ope-racionais, permitindo acompanhar o andamento e comparar desempenhos; e os Sistemas de Apoio à Decisão (SAD), destinados a apoiar a decisão em situações rotineiras e semiestrutu-radas.

Os Sistemas de Nível Estratégico são destinados às situações e decisões não estru-turadas, tais como: tendência, posicionamento da empresa, mudanças no ambiente interno e externo, e são classificados como Sistemas de Suporte aos Executivos (SSE), com base na comunicação e utilização de informações externas (LAUDON; LAUDON, 1998).

2.1.3 Sistemas de Apoio a Decisão (SAD)

Os Sistemas de Apoio à Decisão estão diretamente ligados com a camada gerenci-al da organização, a que está ligada às atividades estratégicas. Esses sistemas atuam sobre repositórios de dados dimensionais (data warehouses) e bases de dados com valores consoli-dados, a fim de facilitar a entrega de informações estratégicas para apoio à decisão (CECI, 2012).

De acordo com Turban et al.(2009), os Sistemas de Apoio à Decisão são sistemas baseados em regras que normalmente oferecem uma solução em uma área funcional (como finanças e produção) a um problema de gestão específico e repetitivo comum em um setor de negócio.

Ramos (2005) afirma que os Sistemas de Apoio à Decisão ajudam os gerentes a tomarem decisões não usuais, que se alteram com rapidez e que não são facilmente especifi-cadas com antecedência. A autora ainda completa que usualmente tratam informações inter-nas obtidas a partir dos sistemas de processamento de transações (SPT) ou dos SIG, mas tam-bém recorrem a informações de fontes externas, tais como o valor corrente das ações ou os preços dos produtos de concorrentes.

(26)

Vinhal (1998) detalha o SAD em uma lista, contendo um conjunto de característi-cas ideais que aqui são resumidas:

1. um SAD deve servir de apoio ao processo decisório principalmente em pro-cessos semi estruturados e não estruturados, onde estão casados o julgamento humano com as informações computacionais provenientes dos modelos (o jul-gamento humano nunca é substituído);

2. o suporte deve ser estendido a todos os níveis de uma cadeia de planejamento, ajudando na integração entre os níveis;

3. o suporte deve ser estendido tanto a indivíduos (decisão independente) quanto a grupos (decisão interdependente). Muitos problemas organizacionais envol-vem decisões em grupo;

4. um SAD deve englobar todos os níveis do processo decisório, ou seja, análise do problema, modelagem, escolha e implementação;

5. um SAD deve suportar vários tipos de processos de tomada de decisão e esti-los;

6. um SAD deve ser adaptativo;

7. um SAD deve ser fácil de manipular (flexibilidade conversacional); 8. um SAD deve visar a efetividade na tomada de decisão e não a eficiência; 9. o tomador de decisão deve aprender com o uso do SAD, e esse aprendizado

deve gerar novas demandas com relação ao seu uso (adaptabilidade); 10. um SAD deve ser fácil de construir e de fácil manutenção;

11. um SAD avançado é equipado com uma base de conhecimento e modelos de inferência sobre a mesma.

Ainda, Kaster, Medeiros e Rocha (2002) completam que os sistemas de apoio a decisão são sistemas que fornecem mecanismos para facilitar a interação do usuário, através de interfaces e pacotes específicos de software, com modelos de análise e dados de um deter-minado domínio para gerar e avaliar soluções alternativas.

Laudon e Laudon (2010) concluem que os sistemas de apoio à decisão ajudam os gerentes de nível médio a tomar decisões não usuais. Eles focam problemas únicos e que se alteram com rapidez, para os quais não existe um procedimento de resolução totalmente pre-definido.

(27)

2.2 BUSINESS INTELLIGENCE

De acordo com Turban et al.(2009), o ambiente de negócios no qual as empresas operam atualmente está se tornando cada vez mais complexo e mutante. O volume de infor-mações armazenadas nos bancos de dados das organizações é cada vez maior. Contudo, ape-nas o armazenamento dessas informações não é suficiente, há a necessidade de analisá-las e utilizá-las de forma inteligente na tomada de decisões das empresas. Turban et al.(2009), ain-da, completam que o processamento dessas informações, na estrutura das decisões necessá-rias, deve ser feito de forma rápida, com frequência em tempo real e comumente exige algum apoio computadorizado.

Esta sessão trata dos principais conceitos do BI para suprir esta necessidade de analise, tratamento e transformação dos dados necessários para a tomada de decisão da em-presa.

2.2.1 Histórico e Definições

Segundo Côrtes (2002), Business Intelligence é um conjunto de conceitos e meto-dologias que visa ao apoio à tomada de decisões nos negócios a partir da transformação do dado em informação e da informação em conhecimento.

Para o autor Barbieri (2001), de forma mais ampla, BI pode ser entendido como a utilização de variadas fontes de informação para se definir estratégias de competitividade nos negócios da empresa.

Turban et al.(2009) explicam que os principais objetivos do BI são permitir o a-cesso interativo aos dados (às vezes, em tempo real), proporcionar a manipulação desses da-dos e fornecer aos gerentes e a analistas de negócios a capacidade de realizar a análise ade-quada. Os autores ainda completam que BI baseia-se na transformação de dados em informa-ções, depois em decisões e, finalmente, em ações.

De acordo com o histórico de Business Intelligence, segundo Turban et al.(2009), o termo BI foi cunhado pelo Gartner Group em meados da década de 1990. Contudo, o con-ceito iniciou muito antes com suas raízes nos sistemas de geração de relatórios SIG dos anos 1970. Durante esses períodos, os sistemas de geração de relatórios eram estáticos,

(28)

bidimensi-onais e não possuíam recursos de análise. No início dos anos 1980, surgiu o conceito de sis-temas de informações executivas (EIS). Esse conceito expandiu o suporte computadorizado aos gerentes e executivos de nível superior. Alguns dos recursos introduzidos foram sistemas de geração de relatórios dinâmicos multidimensionais (ad hoc ou sobdemanda), prognósticos e previsões, análise de tendências, detalhamento, acesso a status e fatores críticos de sucesso. Esses recursos apareceram em dezenas de produtos comerciais até o meio da década de 1990. Depois, os mesmos recursos e alguns recursos novos apareceram sob o nome de BI.

Já, para Ceci (2012), o termo BI foi patenteado pela empresa Gartner, mas, na prá-tica, esse conceito já era aplicado muito antes do invento dos computadores pelos povos anti-gos.

Em um contexto histórico, Primak (2008) deduziu que a sociedade do Oriente Médio antigo utilizava-se dos princípios básicos de BI, quando cruzavam informações obtidas pela natureza para auxiliar na tomada de decisão das aldeias. A análise do comportamento das marés, o levantamento dos períodos chuvosos e de seca, a movimentação e posicionamento dos astros era a forma de obter informações que serviam de base para a tomada de decisões importantes para a comunidade.

2.2.2 Arquitetura de BI

Sell (2006) destaca três iniciativas de arquiteturas, são elas: SEWASIE (BER-GAMASCHI et al., 2005), BIKM (CODY et al., 2002) e a proposta de Priebe e Pernul (2003).

Sewasie é uma arquitetura que se encontra em desenvolvimento para suportar buscas de informações em fontes de dados diversos para o suporte a negociações (BERGA-MASCHI et al.; 2004, 2005; CATARCI et al. 2004).

Já, o Bikm (CODY et al., 2002) busca suportar a localização e a recomendação de documentos ao tomador de decisão à medida que o usuário explora cubos de dados em ferra-mentas OLAP.

E, ainda, a proposta de Priebe e Pernul (2003) objetiva uma abordagem para ma-pear cubos e documentos para possibilitar buscas integradas de recursos.

Turban et al.(2009, p.28) concluem que BI tem quatro grandes componentes: um data warehouse (DW) com seus dados-fonte a análise de negócios, uma coleção de ferramen-tas para manipular e analisar os dados no data warehouse, incluindo data mining; business

(29)

performance management(BPM) para monitoria e análise do desempenho e uma interface de usuário (como o dashboard). De acordo com Cruz (2008) BPM é o nome dado a um conjunto de múltiplos elementos, conceitos e metodologias que juntos tem a finalidade de tratar de forma holística processos de negócio. A figura 4 demonstra uma arquitetura de alto nível do BI.

Figura 4 - Arquitetura de BI

Fonte: Adaptado de Turban et al.(2009, p.30).

A figura 4 representa a arquitetura, em alto nível de Business Intelligence. Na re-presentação, existem três ambientes: Ambiente de DW, Ambiente de Análise de Negócios e Ambiente de Desempenho e Estratégia. Após a extração dos dados nas variadas fontes de da-dos existentes, no Ambiente de DW, a equipe técnica transforma estes dada-dos e realiza a cria-ção do DW. No ambiente de análise de negócios, os usuários, por sua vez, acessam o DW criado, analisam os dados e fornecem os resultados para respectivos gerentes e executivos com o objetivo de realizar as devidas estratégias para seu negócio.

Observa-se que o DW é de extrema importância para o negócio. Para facilitar e agilizar as pesquisas, o DW, geralmente, é modelado de forma Dimensional. Na próxima se-ção, é descrito melhor esta modelagem.

(30)

2.2.2.1 Modelagem Dimensional

Para Silva (2011), o modelo dimensional, também conhecido como esquema es-trela, organiza os dados de uma forma intuitiva, que é focado no alto desempenho das consul-tas e é orientado à estratificação de informação.

Barbieri (2001) define o modelo dimensional como uma estrutura que modifica a ordem de distribuição de campos por entre as tabelas, permitindo uma formatação estrutural mais voltada para os muitos pontos de entradas específicos (as chamadas dimensões) e menos para os dados granulares em si (os chamados fatos). O autor ainda completa que nesta estrutu-ra os dados estarão numa forma quase estelar, em que várias tabelas de entestrutu-radas estarão se relacionando com algumas (poucas) tabelas de informações, criando uma notação mais sinté-tica, legível e objetiva.

No quadro 1, encontra-se a diferença do modelo dimensional para o modelo rela-cional (ER) de dados, de acordo com Barbieri (2001).

Quadro 1 - Tabela diferencial entre modelo Dimensional e ER.

Modelo Dimensional Modelo Relacional

Padrão de estrutura mais fácil e intuitiva Modelo mais complexo

Anterior ao MER, anos 80 Ênfase nos Bancos de Dados Relacionais, anos 70

Tabelas Fato e tabelas Dimensão Tabelas que representam Dados e Relacio-namentos

Tabelas Fato são o núcleo – normalizadas Todas as tabelas são comumente normaliza-das

Tabelas Dimensão são os pontos de entrada As tabelas são indistintamente acessadas e de filtro inicial

Tabelas Dimensão opcionalmente normali-zada

Todas as tabelas são comumente normaliza-das

Modelo mais facilmente “joined” Maior dificuldade de “join” pelo número maior de tabelas

Leitura mais fácil do modelo por usuários não especializados

Maior dificuldade de leitura pelo usuário não especializado

(31)

Analisando o quadro desenvolvido por Barbieri (2001), percebe-se que o modelo dimensional tem o intuito de gerar uma melhor performance para as pesquisas realizadas em um banco de dados, pois apresenta um padrão fácil e intuitivo, possibilitando a utilização mais rápida dos “join”.

2.2.2.2 ETL

Segundo Ceci (2012), ETL (Extraction, Transformation and Loading) é um pro-cesso responsável por extrair os dados das bases operacionais (transacionais) da organização, efetuar transformações a fim de gerar informações válidas para a análise e apoio ao processo decisório e, por último, armazená-las em um repositório que facilite o acesso às informações.

Turban et al.(2009) definem ETL como um processo que consiste em extração (leitura dos dados de um ou mais bancos de dados), transformação (conversão dos dados ex-traídos de sua forma anterior na forma em que precisam estar, para que sejam colocados em um data warehouse ou apenas em outro banco de dados e carga (colocação dos dados no data warehouse). A figura 5 demonstra os processos de ETL.

Figura 5 - O processo de ETL

Fonte: Adaptado de Turban et al. (2009).

Barbieri (2001) divide o conceito de ETL em cinco pontos:

- Filtro de Dados: Relaciona os procedimentos e condições para se eliminar os e-lementos de dados indesejáveis no modelo Dimensional,

- Integração de Dados: Define a forma de se correlacionar informações existentes em fontes distintas, e que deverão ser integradas no sistema gerencial.

(32)

- Condensação de Dados: Define a forma de se reduzir volumes de dados visando obter informações resumidas e sumariadas.

- Conversão de dados: Define os procedimentos para se transformar dados em u-nidades, formatos e dimensões diferentes.

- Derivação de Dados: Define os meios e fórmulas para se produzir dados virtuais, a partir de dados existentes.

Através dos pontos citados acima, de acordo com Barbieri (2001), o processo de ETL, dentro do conceito dos pontos já conhecidos do processo que seriam: Extração, Transforma-ção e Carga, existe um detalhamento de cada ponto, resultando no aparecimento de cinco pon-tos distinpon-tos.

2.2.2.3 Mineração de Dados

Segundo Sezões et al. (2006), mineração de dados ou data mining é um conceito que engloba todos os processos, que através de uma diversidade de ferramentas tecnológicas de análise, permitem descobrir padrões e relações num determinado conjunto de dados.

Turban et al.(2009) conceitua data mining como uma classe de análise de infor-mações, baseada em bancos de dados, a qual procura padrões ocultos em uma coleção de da-dos que podem ser usada-dos para prever comportamentos futuros.

Contudo Barbieri (2001) define data mining como uma forma de busca de infor-mações baseadas em algoritmos que objetivam o reconhecimento de padrões escondidos nos dados e não necessariamente revelados pelas outras abordagens analíticas, como OLAP.

Laudon e Laudon (2010) concluem que data mining fornece percepções dos dados corporativos que não podem ser obtidas com o OLAP, descobrindo padrões e relacionamentos ocultos em grandes bancos de dados e inferindo regras a partir deles para prever comporta-mentos futuros.

Segundo Sferra e Corrêa (2003), Data Mining, ou Mineração de Dados, pode ser entendido como o processo de extração de informações, sem conhecimento prévio, de um grande banco de dados e seu uso para tomada de decisões. É uma metodologia aplicada em diversas áreas que usam o conhecimento, como empresas, indústrias e instituições de pesqui-sa. Data Mining define o processo automatizado de captura e análise de grandes conjuntos de dados para extrair um significado, sendo usado tanto para descrever características do passado como para predizer tendências para o futuro.

(33)

Ainda segundo Sferra e Corrêa (2003), existem alguns métodos tradicionais de Data Mining, listados abaixo:

- Classificação: associa ou classifica um item a uma ou várias classes categóricas pré-definidas. Uma técnica estatística apropriada para classificação é a análise discriminante. Os objetivos dessa técnica envolvem a descrição gráfica ou algébrica das características dife-renciais das observações de várias populações, além da classificação das observações em uma ou mais classes predeterminadas. A idéia é derivar uma regra que possa ser usada para classi-ficar, de forma otimizada, uma nova observação a uma classe já rotulada.

- Modelos de Relacionamento entre Variáveis: associa um item a uma ou mais va-riáveis de predição de valores reais, consideradas vava-riáveis independentes ou exploratórias. Técnicas estatísticas como regressão linear simples, múltipla e modelos lineares por transfor-mação são utilizadas para verificar o relacionamento funcional que, eventualmente, possa existir entre duas variáveis quantitativas, ou seja, constatar se há uma relação funcional entre X e Y.

- Análise de Agrupamento (Cluster): associa um item a uma ou várias classes ca-tegóricas (ou clusters), em que as classes são determinadas pelos dados, diversamente da clas-sificação em que as classes são pré-definidas. Os clusters são definidos por meio do agrupa-mento de dados baseados em medidas de similaridade ou modelos probabilísticos. A análise de cluster (ou agrupamento) é uma técnica que visa a detectar a existência de diferentes gru-pos dentro de um determinado conjunto de dados e, em caso de sua existência, determinar quais são eles.

- Sumarização: determina uma descrição compacta para um dado subconjunto. As medidas de posição e variabilidade são exemplos simples de sumarização. Funções mais so-fisticadas envolvem técnicas de visualização e a determinação de relações funcionais entre variáveis.As funções de sumarização são frequentemente usadas na análise exploratória de dados com geração automatizada de relatórios, sendo responsáveis pela descrição compacta de um conjunto de dados. A sumarização é utilizada, principalmente, no pré-processamento dos dados, quando valores inválidos são determinados por meio do cálculo de medidas estatís-ticas – como mínimo, máximo, média, moda, mediana e desvio padrão amostral –, no caso de variáveis quantitativas, e, no caso de variáveis categóricas, por meio da distribuição de fre-qüência dos valores. Técnicas de sumarização mais sofisticadas são chamadas de visualiza-ção, que são de extrema importância e imprescindíveis para se obter um entendimento, muitas vezes intuitivo, do conjunto de dados. Exemplos de técnicas de visualização de dados incluem

(34)

diagramas baseados em proporções, diagramas de dispersão, histogramas e box plots, entre outros.

- Modelo de Dependência: descreve dependências significativas entre variáveis. Modelos de dependência existem em dois níveis: estruturado e quantitativo. O nível estrutu-rado especifica, geralmente em forma de gráfico, quais variáveis são localmente dependentes. O nível quantitativo especifica o grau de dependência, usando alguma escala numérica.

- Regras de Associação: determinam relações entre campos de um banco de da-dos. A idéia é a derivação de correlações multivariadas que permitam subsidiar as tomadas de decisão. A busca de associação entre variáveis é, frequentemente, um dos propósitos das pes-quisas empíricas. A possível existência de relação entre variáveis orienta análises, conclusões e evidenciação de achados da investigação. Uma regra de associação é definida como se X então Y, ou X ⇒ Y, onde X e Y são conjuntos de itens e X ∩ Y = ∅. Diz-se que X é o antece-dente da regra, enquanto Y é o seu consequente. Medidas estatísticas como correlação e testes de hipóteses apropriados revelam a frequência de uma regra no universo dos dados minera-dos.

- Análise de Séries Temporais: determina características sequenciais, como dados com dependência no tempo. Seu objetivo é modelar o estado do processo extraindo e regis-trando desvios e tendências no tempo. Correlações entre dois instantes de tempo, ou seja, as observações de interesse, são obtidas em instantes sucessivos de tempo – por exemplo, a cada hora, durante 24 horas – ou são registradas por algum equipamento de forma contínua, como um traçado eletrocardiográfico. As séries são compostas por quatro padrões: tendência, varia-ções cíclicas, variavaria-ções sazonais e variavaria-ções irregulares. Há vários modelos estatísticos que podem ser aplicados a essas situações, desde os de regressão linear (simples e múltiplos), os lineares por transformação e regressões assintóticas, além de modelos com defasagem, como os autorregressivos (AR) e outros deles derivados.

2.2.2.4 Relatórios e OLAP

Segundo Ceci (2012), relatórios são utilizados até hoje pelas organizações. O seu uso possibilita a apresentação de dados e informações de maneira estática, é basicamente uma “fotografia” de um cenário ou situação. A interação com o usuário é muito baixa, permitindo apenas o consumo do seu conteúdo.

(35)

Sezões et al. (2006) definem que OLAP (online analytical processing) é um con-ceito que se refere a aplicações informáticas que permitem efetuar, de forma rápida e partilha-da, a análise de informação multidimensional, originária de diversas fontes de dados.

Barbieri (2001) confirma que OLAP representa a característica de se trabalhar os dados, com operadores dimensionais, possibilitando uma forma múltipla e combinada de aná-lise.

Turban et al.(2009) concluem que OLAP se refere a uma variedade de atividades normalmente executadas por usuários finais em sistemas online. Normalmente, OLAP inclui atividades como geração e resposta de consultas, solicitação de relatórios e gráficos ad hoc e execução dos mesmos, realização de análises estatísticas tradicionais ou modernas e constru-ção de apresentações visuais.

Laudon e Laudon (2010) informam que OLAP permite a análise multidimensional de dados, de forma que os usuários vejam os mesmos dados de diferentes maneiras, pois usa múltiplas dimensões.

2.2.3 Business Intelligence 2.0

Segundo Martins (2008), o propósito dos ambientes de BI 2.0 é melhorar o de-sempenho dos processos de tomada de decisão, reduzindo o tempo entre a ocorrência de um evento no ambiente transacional e o momento quando uma decisão é tomada no ambiente informacional.

De acordo com Nelson (2010), BI 2.0 implica um “afastamento do armazém de dados padrão que as ferramentas de inteligência de negócios têm usado” e que “dará lugar ao contexto e a necessidade de relacionar informações de forma rápida a partir de muitas fontes”.

Nelson (2010) lista alguns termos usados em BI 2.0: - alertas proativos e notificações;

- evento dirigido / Tempo real / Acesso instantâneo às informações; - análise avançada;

- integração empresarial;

- mashups e integração de portaisBI; - móvel / Acesso ubíquo;

- melhoria da visualização, Rich Interfaces (RIA); - análise in-memory.

(36)

No quadro 2, Nelson (2010) ainda criou um conceito chave e as lições apresenta-das pelo BI 2.0 da rede social utilizada.

Quadro 2 - Tabela Redes Sociais

Web 2.0 / Rede Social Conceito Chave Lições do BI 2.0 Twitter Curtas, concisas atualizações.

A informação flui continua-mente e as pessoas podem prestar atenção e re-tweets e codificar conforme necessário. Os usuários do Twitter têm evoluído a plataforma para torná-lo mais útil (por exem-plo, hash tags). Informalidade leva à rápida disseminação.

Em tempo real, o fluxo contínuo de decisões, o status sobre o negó-cio, processamento de eventos complexos. Plataforma evolui a-través do uso / orgânicos evolução não planejada de recursos.

Explicação sucinta do estado do negócio. Pesquisa comentários; Gerar nuvens de palavras que for-necem uma visualização da "vibe" ou sentimento do negócio. Tags e comentários de usuários. Enviar informações digno de nota

(Qualquer coisa na web que você acha que é interessante) - associá-la a dados ou objetos.

Fonte: Nelson 2010.

Para uma melhor interpretação do assunto, Xavier e Pereira (2009) também cria-ram um quadro (Quadro 3), porém com um comparativo entre BI e BI 2.0.

Quadro 3 - Comparativo entre BI e BI2.0

BI BI 2.0

Consumo estático de relatórios. Comunidades de usuários dinâmicas, cola-boração ativa e compartilhamento imediato das informações.

Envio e apresentação de relatórios estáticos para os usuários.

Fornecimento de informações dinâmicas e interativas, com usuários elaborando seus próprios relatórios ou assinando as informa-ções de que necessitam.

(37)

disponibi-dentro da organização. lizadas para a empresa como um todo. BI para uns poucos usuários especializados. BI para todos dentro da organização, na

me-dida em que for necessário.

Relatórios orientados para a impressão. Aplicações de geração de relatórios interati-vas e baseadas na Web.

Gráficos com barras estatísticas e gráficos circulares segmentados.

Visualização de dados intuitiva, dinâmica e interativa.

OLAP para análise. OLAP junto a alternativas inovadoras,

me-nos complexas e de alto desempenho e gera-ção ad hoc de relatórios.

Instalação, upgrade e uso complexos e de alto consumo de tempo.

Instalação, upgrades e uso simplificados.

Relatórios baseados no desktop ou em HTML estáticos.

Relatórios integrados com eventos e proces-sos automatizados; relatórios como serviços na Web (via XML).

Fonte: Xavier e Pereira (2009).

Analisando o quadro desenvolvido por Xavier e Pereira (2009), percebe-se que o BI 2.0 trouxe vantagens no que diz respeito à dinâmica das atividades, à economia e à rentabi-lidade. A simplificação das tarefas também é evidente no comparativo entre BI e BI 2.0.

Segundo Ceci (2010), de acordo com as características principais apresentadas no quadro, podem-se levantar:

- aumento da quantidade de usuários à aplicação de BI na organização (mais setores a utilizam, tirando o foco somente da camada gerencial);

- aplicações mais simples e intuitivas, com melhora no tempo de resposta; - combinação dos dados dos repositórios da organização com dados dispo-níveis na Web.

Na visão de Pintas e Siqueira (2011), a maior deficiência das soluções tradicionais de BI está na latência entre o acontecimento do evento e a tomada de decisão. Segundo os autores em questão, o BI 2.0 tem como foco atacar essa latência.

Ainda segundo os autores Pintas e Siqueira (2011), podemos dividir a latência en-tre o acontecimento de um evento e a tomada de decisão em três partes: latência de dados, latência de análise e a latência de decisão. Segundo Nicholls (2006 apud PINTAS e SIQUEI-RA, 2011), o objetivo do BI 2.0 é reduzir todas as três latências, desta forma maximizando o valor de cada decisão tomada. Este aumento de valor representa menor tempo para a identifi-cação de um risco ou uma oportunidade para a empresa.

(38)

2.3 EXTRAÇÃO DE INFORMAÇÃO

Um dos problemas que as organizações têm enfrentado para trabalhar com o co-nhecimento é como encontrá-lo, recuperá-lo, armazená-lo, e compartilhá-lo entre os seus membros (CECI, 2010). Como o foco dessa monografia são as redes sociais, as quais con-templam informações que podem auxiliar na tomada de decisão, se faz necessária a utilização de recursos para extração desses dados necessários para a organização.

Na sessão seguinte, estão descritos conceitos e informações sobre estes recursos necessários para a extração de informações, sendo eles o Reconhecimento de entidades nome-adas (NER) e Descoberta de conhecimento em texto.

2.3.1 Reconhecimento de entidades nomeadas (NER)

Para Ceci, Pietrobon e Gonçalves (2012), Reconhecimento de Entidades Nomea-das (NER) é considerado uma parte da extração de informações, onde o objetivo é encontrar e categorizar seções de texto em categorias pré-estabelecidas.

Segundo Zhu, Uren e Motta (2005), NER é um técnica da área de extração de in-formação (EI) que tem como função reconhecer entidades em textos de diferentes tipos e de diferentes domínios.

Ceci (2012) explica que o NER (Named Entity Recognition) é uma técnica que tem como objetivo encontrar as “fronteiras” de um termo no texto e, se disponível uma base de conhecimento, também classificar este termo, como, por exemplo, pode-se reconhecer o termo “Unisul Virtual” e apresentá-lo como uma organização.

Para Negri e Magnini (2004), NER tem como tarefa identificar e categorizar enti-dades mencionadas (pessoas, organizações, locais), expressões temporais (hora e data) e al-guns tipos de expressão numérica (percentual e valor monetário) escritos em um texto.

Segundo Ceci (2010), seguem algumas vantagens na utilização de sistemas NER, conforme segue abaixo:

- auxiliar no processo de recuperação de informação: o sistema NER identifica as entidades do texto antes do processo de indexação, fazendo com que seja indexada a entidade, que pode ser comporta de vários termos, em vez de apenas os termos;

(39)

- detecção de eventos: por meio das datas encontradas nos textos, pode-se fazer uma relação com os termos próximos e verificar a evolução destes;

- manutenção em ontologias: através das entidades levantadas pelo sistema NER, pode-se verificar qual delas é uma possível classe da ontologia em questão e quais termos estão relacionados com a classe a fim de atualizar essa ontologia (GIU-LIANO, 2009).

Segundo Gonçalves (2006), o processo de NER constitui-se na análise de cada documento através da utilização de bases de conhecimento e de análises de padrões léxicos, possibilitando assim a extração e a nomeação de elementos textuais.

2.3.2 Descoberta de conhecimento em texto (KDT)

O processo KDT é definido como a extração de padrões relevantes e não triviais a partir de bases de dados semi ou não estruturadas. Também, utiliza técnicas da mineração de dados, mas, nesse caso, usam-se técnicas de processamento de linguagem natural para extrair conceitos de texto e mais uma vez análises estatísticas, mas para recuperar padrões e técnicas de visualização, permitindo análises interativas (GONÇALVES, 2006).

De acordo com Feldman e Hirs (1997), o processo KDT pode ser definido como a extração não trivial de informações implícitas, previamente desconhecidas e potencialmente úteis de grandes bases textuais.

Mooney e Nahm (2003) completam que é um processo para encontrar padrões in-teressantes e úteis, modelos, direções, tendências ou regras a partir de textos não estruturados.

Na figura 6, apresentam-se as etapas do processo KDT.

Figura 6 - Etapas do processo KDT.

(40)

Através da interpretação da figura 6, nota-se que o processo do KDT, segundo uma visão dos autores Mooney e Nahm (2003), possui fases desde a extração da informação até a geração do conhecimento, o qual pode ser utilizado no processo decisório de uma orga-nização, por exemplo.

2.4 WEB 2.0

De acordo com Bressan (2007), em linhas gerais, Web 2.0 diria respeito a uma segunda geração de serviços e aplicativos da rede e a recursos, tecnologias e conceitos que permitem um maior grau de interatividade e colaboração na utilização da Internet.

Segundo Moura (2012), o termo Web 2.0 está associado a aplicações Web, em que o objetivo principal é facilitar os seguintes aspectos: compartilhamento de informações de maneira interativa, interoperabilidade, desenvolvimento com foco no usuário e colaboração na World Wide Web (WWW).

Coutinho e Bottentuit (2007) concluem que a Web 2.0 é uma forma de utilização colaborativa da internet, em que o conhecimento é compartilhado de maneira coletiva e des-centralizado de autoridade para utilizá-lo e reeditá-lo.

Segundo Primo (2007), a Web 2.0 é a segunda geração de serviços online, carac-terizada por potencializar as formas de publicação, ampliação das formas de produção coope-rada e compartilhamento e organização de informações.

Silva (2013) acrescenta que a Web 2.0 é considerada por muitos como uma rede em forma de plataforma, em que milhares de softwares são oferecidos como serviços, que são frequentemente atualizados e, quanto mais utilizados, melhores ficam suas aplicações.

Segundo Corrêa (2012), a web 2.0 instalou uma nova espécie de participação do leitor enquanto co-autor do conteúdo que circula pela Internet. Dessa forma, percebe-se um avanço considerável na relação leitor-autor, eliminando barreiras que impediam uma comuni-cação direta entre esses. O cidadão comum tem agora acesso quase ilimitado a todo e qual-quer assunto postado na rede, inclusive resultados de pesquisa e inovação científica e tecnoló-gica, podendo, inclusive, interagir diretamente com o autor e seu conteúdo.

(41)

3 MÉTODO

Este capítulo possui como objetivo realizar uma abordagem sobre a metodologia utilizada neste trabalho. Este capítulo está estruturado contendo os subitens, caracterização do tipo de pesquisa, etapas metodológicas, propósito das etapas, proposta de solução e delimita-ções.

3.1 CARACTERIZAÇÃO DO TIPO DE PESQUISA

Segundo Menezes e Silva (2005), pesquisa é um conjunto de ações, propostas pa-ra encontpa-rar a solução papa-ra um problema, que tem por base procedimentos pa-racionais e siste-máticos. A pesquisa é realizada quando se tem um problema e não se têm informações para solucioná-lo.

Para Kauark, Manhães e Medeiros (2010), em se tratando de ciência, pesquisa é a busca de solução a um problema que alguém queira saber a resposta.

Contudo esta seção, além dos conceitos de pesquisa, busca também citar os tipos de pesquisa. A importância de conhecer os tipos de pesquisas existentes está na necessidade de definição dos instrumentos e procedimentos que um pesquisador precisa utilizar no plane-jamento da sua investigação (KAUARK, MANHÃES e MEDEIROS, 2010).

De acordo com Menezes e Silva (2005, p.20), existem várias formas de classificar as pesquisas. Do ponto de vista da sua natureza, podem ser: Pesquisa Básica e Pesquisa Apli-cada, já do ponto de vista da forma de abordagem do problema, podem ser: Pesquisa Quanti-tativa e Pesquisa QualiQuanti-tativa.

Segundo uma abordagem do ponto de vista da sua natureza, utiliza-se como tipo de pesquisa neste trabalho a Pesquisa Aplicada. Segundo Menezes e Silva (2005), a pesquisa aplicada objetiva gerar conhecimentos para aplicação prática e dirigidos à solução de proble-mas específicos. Envolve verdades e interesses locais.

Já, no ponto de vista da forma de abordagem, este trabalho utiliza como tipo de pesquisa a “Qualitativa”. Segundo Menezes e Silva (2005), a pesquisa qualitativa considera

Referências

Documentos relacionados

Todavia, essa negociata diplomática entre inglêses e franceses foi protestada pela Alemanha, tendo então lugar um con- gresso internacional em Algeciras (Espanha), que foi favorável

O segundo Beneficiário será designado pelo Segurado na Proposta de Adesão, podendo ser substituído a qualquer tempo, mediante solicitação formal assinada pelo próprio Segurado, para

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

Ao realizar este método de trabalho ficou evidente a necessidade de aprimorar o serviço prestado, sendo assim objetivou-se neste estudo compreender o entendimento da equipe da ESF

Analysis of relief and toponymy of the landscape based on the interpretation of the military topographic survey: Altimetry, Hypsometry, Hydrography, Slopes, Solar orientation,

Figura 38 – Acompanhamento diário de peso dos animais tratados com ENSJ39 via oral e intraperitoneal, LE39 e LBR via intraperitoneal para avaliação da toxicidade aguda.. Dados

 Caminho simples que contém todas as arestas do grafo (e,. consequentemente, todos os