Aula01_Linguagens de Produção da Informação

(1)

Linguagens de Produção e

Representação da Informação

(2)

Motivação

• O crescimento da quantidade de informação eletrônica disponível por meio da Internet é uma realidade que pode ser percebida em todos os campos do

conhecimento humano.

– A web é o mais rico repositório de informações na história humana.

• Devido a esse volume de informações, torna-se cada vez maiores os problemas de acesso e recuperação de qualquer tipo de informação na rede.

– Diversos métodos e tecnologias foram criadas para minimizar tais problemas na Web e em sistemas de informação documental.

(3)

Problemas de acesso e recuperação

de informação na Web

• Indisponibilidade de ferramentas que possibilitem a

discriminação da informação (garantam a relevancia das

primeiras fontes retornadas) e filtragem eficiente neste

ambiente de crescimento acentuado das fontes de informação digitalizada e grande volume de informações.

• Falta do uso de formas padronizadas para a estruturação e armazenamento de informações, isto é, os conteúdos não se encontram estruturados semanticamente de forma rigorosa. • Baixa qualidade dos conteúdos, seja por problemas de correção

ortográfica, gramatical ou conceitual.

• Acentuada volatilidade dos dados, endereços e páginas. • Acentuada redundância de conteúdos.

(4)

Dificuldades de acesso e

recuperação de informação dos

usuários

• Falta de conhecimento ao elaborar questões que reflitam seus objetivos de busca.

• Inabilidade para interpretar, classificar, priorizar ou filtrar grandes quantidades de informação

retornadas pelos sistemas de busca.

• Perda de tempo (horas) examinando informações que podem ser totalmente desnecessárias,

(5)

Problemática da Disciplina

• O que de fato escrevemos num documento?

– Conhecimento, Informação, ou Dado?

• Como produzir e representar documentos de

forma a maximizar a apreensão de informação

e conhecimento por parte dos usuários e

softwares?

• Como os softwares podem auxiliar os usuários

na recuperação de informação em grandes

(6)

Dados x Informação

• Dados – são fatos registrados e

inter-relacionados por meio de símbolos e

convenções léxico-sintático-semântica.

– Léxico – símbolos de um vocabulário

– Sintático – relação de ordem, grafia e concordância entre símbolos (sintaxe)

– Semântico – significado de grupos de léxicos – Exemplo:

• Vannevar Bush. As we may think. The Atlantic

(7)

Dados x Informação

• Informação – é a interpretação semântica

sobre dados contextualizados, útil na

construção de conhecimento ou tomada de

decisão.

– Aquilo que é potencialmente útil para informar – Exemplo:

• Vannevar Bush. As we may think. The Atlantic

(8)

Estrutura dos documentos e

processamento computacional

• O Texto livre e processado pelo computador como dado não-estruturado, e requer processamento computacional pesado para manipulação (indexação, classificação, extração de informação, descoberta de conhecimento, etc.). • “Os dados semi-estruturados não estão em forma de um texto livre, que

requer processamento pesado, mas também não estão sujeitos às restrições impostas por uma estrutura rígida”. Os campos semânticos do documento e respectivos conteúdos estão explicitamente definidos (metadados);

• “Os dados estruturados representam instâncias de entidades e relações

através de regras rígidas e bem definidas”. Possibilita a aplicação de filtros e junção de dados, ordenamento, contagem, agrupamento e extração de dados. Formato rígido de tabelas ou registro-atributo-valor.

Dados não-estruturados Dados semi-estruturados Dados estruturados

Texto livre _{páginas HTML,}Emails,

arquivos XML

Banco de Dados Relacionais

(9)

Exercícios

• Descreva que características tem um e-mail para ser considerado dado semi-estruturado.

• Tomando o conteúdo do corpo da mensagem de um e-mail de sua caixa de e-e-mails, descreva as regras

léxico-sintático-semânticas utilizadas na sua produção.

• Quais as tarefas que a semi-estruturação dos e-mails potencializa para os usuários dos servidores de

(10)

Projetos Mundiais de estruturação

dos documentos da Web

• O World Wide Web Consortium (W3C) criado em 1994, tem como objetivo liderar o desenvolvimento da Web (referencial quanto às especificações

normativas e metodológicas) em relação às suas tecnologias e interoperabilidade.

• Principais projetos e tecnologias de estuturação das informações:

– XML (eXtensible Markup Language) - sintaxe básica para estruturação de documentos visando intercâmbio de dados em formato texto semi-estruturado – Dublin Core (Dublin Core Metadada Initiative) - descrição de recursos por

meio de metadados

– TEI (Text Enconding Initiative) - codificação de documentos contendo conhecimento

– Web Semantica ou Ontologia de Web ou Web de Dados - organização

semântica das informações, adicionando significado e interpretação lógica aos documentos através da representação explícita do conhecimento (semântica legível por máquina), base para o desenvolvimento de serviços e aplicações mais inteligentes

(11)

Gerações da Web

Terceira Geração

-significado separado da estrutura

-máquinas realizando inferências visando auxiliar na interpretação do significado e da relevância das informações

-baseada em RDF, OWL, Topic Maps, SKOS, SPARQL

Segunda Geração

-estrutura separada da apresentação

-metadados para representação e organização da informação -baseada em XML, XSL

Primeira Geração

-apresentação separada da localização

-publicação rápida e acesso irrestrito a textos integrais -baseada em HTML, CSS, PDF

(12)

Metadados

• Documentos digitais tem seu conteúdo processável por computador, mas a eficácia do processamento pelo computador e o tempo de leitura humana

dificultam a descoberta, recuperação e apropriação do conhecimento em tempo hábil para grandes coleções • Os metadados são dados descritivos úteis para

humanos realizarem o julgamento de relevância

durante a recuperação de informação, e permitem o processamento pelo computador da natureza, função e assuntos de um documento (entre outras

(13)

Linguagem Documentária (LD)

• Como preencher o campo assunto dos metadados?

• A linguagem documentária compreende o conjunto de regras, símbolos e termos previamente

estabelecidos, formando uma linguagem artificial para a indicação do conteúdo temático dos documentos.

– Metalinguagem que utiliza uma construção simbólica com a finalidade de ser instrumento de conversão de uma linguagem em outra.

– Linguagem de indexação é uma especialização de uma LD, sendo uma linguagem artificial utilizada para registro ou indicação dos temas

contidos nos documentos, dotada de vocabulário controlado e regida por uma sintaxe própria.

(14)

Processamento de Linguagem

Natural (PLN)

• O conteúdo dos Documentos e expressões de busca são objetos linguísticos expressos em linguagem

natural.

• O PLN é um conjunto de técnicas computacionais para a análise de textos em um ou mais níveis

linguísticos com o propósito de simular o processamento humano da língua.

• O PLN tem aplicações na indexação automática, na

sumarização automática e na recuperação de informação de documentos

.

(15)

Exercícios

• Para o seguinte artigo na scielo:

http://dx.doi.org/10.1590/S1413-99362013000400003

• Quais são as linguagens utilizadas na

publicação (produção) do artigo?

• Quais são as linguagens e estruturas utilizadas

na representação do artigo?

• Qual o padrão de metadados utilizado para

representação do artigo? Onde se encontra?

(16)

Conclusão

• São linguagens de produção da informação: – Linguagens naturais (ex.: português, inglês) – Linguagens de marcação (ex.: HTML, XML) • São linguagens de representação da informação:

– Linguagens documentárias (ex.: Tesauros) – Linguagens de marcação (ex.: HTML, XML) • São estruturas de representação da informação:

– Metadados (ex.: Dublin Core)

(17)

Referências

• (FERNEDA, 2012)

– Capítulo 7 e 12

Aula01_Linguagens de Produção da Informação

Linguagens de Produção e

Representação da Informação

Motivação

Problemas de acesso e recuperação

de informação na Web

Dificuldades de acesso e

recuperação de informação dos

usuários

Problemática da Disciplina

• O que de fato escrevemos num documento?

• Como produzir e representar documentos de

forma a maximizar a apreensão de informação

e conhecimento por parte dos usuários e

softwares?

• Como os softwares podem auxiliar os usuários

na recuperação de informação em grandes

Dados x Informação

• Dados – são fatos registrados e

inter-relacionados por meio de símbolos e

convenções léxico-sintático-semântica.

Dados x Informação

• Informação – é a interpretação semântica

sobre dados contextualizados, útil na

construção de conhecimento ou tomada de

decisão.

Estrutura dos documentos e

processamento computacional

Exercícios

Projetos Mundiais de estruturação

dos documentos da Web

Gerações da Web

Metadados

Linguagem Documentária (LD)

Processamento de Linguagem

Natural (PLN)

.

Exercícios

• Para o seguinte artigo na scielo:

http://dx.doi.org/10.1590/S1413-99362013000400003

• Quais são as linguagens utilizadas na

publicação (produção) do artigo?

• Quais são as linguagens e estruturas utilizadas

na representação do artigo?

• Qual o padrão de metadados utilizado para

representação do artigo? Onde se encontra?

Conclusão

Referências

• (FERNEDA, 2012)

• (BAEZA-YATES & RIBEIRO-NETO, 2013)