Linguagens de Produção e
Representação da Informação
Motivação
• O crescimento da quantidade de informação eletrônica disponível por meio da Internet é uma realidade que pode ser percebida em todos os campos do
conhecimento humano.
– A web é o mais rico repositório de informações na história humana.
• Devido a esse volume de informações, torna-se cada vez maiores os problemas de acesso e recuperação de qualquer tipo de informação na rede.
– Diversos métodos e tecnologias foram criadas para minimizar tais problemas na Web e em sistemas de informação documental.
Problemas de acesso e recuperação
de informação na Web
• Indisponibilidade de ferramentas que possibilitem a
discriminação da informação (garantam a relevancia das
primeiras fontes retornadas) e filtragem eficiente neste
ambiente de crescimento acentuado das fontes de informação digitalizada e grande volume de informações.
• Falta do uso de formas padronizadas para a estruturação e armazenamento de informações, isto é, os conteúdos não se encontram estruturados semanticamente de forma rigorosa. • Baixa qualidade dos conteúdos, seja por problemas de correção
ortográfica, gramatical ou conceitual.
• Acentuada volatilidade dos dados, endereços e páginas. • Acentuada redundância de conteúdos.
Dificuldades de acesso e
recuperação de informação dos
usuários
• Falta de conhecimento ao elaborar questões que reflitam seus objetivos de busca.
• Inabilidade para interpretar, classificar, priorizar ou filtrar grandes quantidades de informação
retornadas pelos sistemas de busca.
• Perda de tempo (horas) examinando informações que podem ser totalmente desnecessárias,
Problemática da Disciplina
• O que de fato escrevemos num documento?
– Conhecimento, Informação, ou Dado?
• Como produzir e representar documentos de
forma a maximizar a apreensão de informação
e conhecimento por parte dos usuários e
softwares?
• Como os softwares podem auxiliar os usuários
na recuperação de informação em grandes
Dados x Informação
• Dados – são fatos registrados e
inter-relacionados por meio de símbolos e
convenções léxico-sintático-semântica.
– Léxico – símbolos de um vocabulário
– Sintático – relação de ordem, grafia e concordância entre símbolos (sintaxe)
– Semântico – significado de grupos de léxicos – Exemplo:
• Vannevar Bush. As we may think. The Atlantic
Dados x Informação
• Informação – é a interpretação semântica
sobre dados contextualizados, útil na
construção de conhecimento ou tomada de
decisão.
– Aquilo que é potencialmente útil para informar – Exemplo:
• Vannevar Bush. As we may think. The Atlantic
Estrutura dos documentos e
processamento computacional
• O Texto livre e processado pelo computador como dado não-estruturado, e requer processamento computacional pesado para manipulação (indexação, classificação, extração de informação, descoberta de conhecimento, etc.). • “Os dados semi-estruturados não estão em forma de um texto livre, que
requer processamento pesado, mas também não estão sujeitos às restrições impostas por uma estrutura rígida”. Os campos semânticos do documento e respectivos conteúdos estão explicitamente definidos (metadados);
• “Os dados estruturados representam instâncias de entidades e relações
através de regras rígidas e bem definidas”. Possibilita a aplicação de filtros e junção de dados, ordenamento, contagem, agrupamento e extração de dados. Formato rígido de tabelas ou registro-atributo-valor.
Dados não-estruturados Dados semi-estruturados Dados estruturados
Texto livre páginas HTML,Emails,
arquivos XML
Banco de Dados Relacionais
Exercícios
• Descreva que características tem um e-mail para ser considerado dado semi-estruturado.
• Tomando o conteúdo do corpo da mensagem de um e-mail de sua caixa de e-e-mails, descreva as regras
léxico-sintático-semânticas utilizadas na sua produção.
• Quais as tarefas que a semi-estruturação dos e-mails potencializa para os usuários dos servidores de
Projetos Mundiais de estruturação
dos documentos da Web
• O World Wide Web Consortium (W3C) criado em 1994, tem como objetivo liderar o desenvolvimento da Web (referencial quanto às especificações
normativas e metodológicas) em relação às suas tecnologias e interoperabilidade.
• Principais projetos e tecnologias de estuturação das informações:
– XML (eXtensible Markup Language) - sintaxe básica para estruturação de documentos visando intercâmbio de dados em formato texto semi-estruturado – Dublin Core (Dublin Core Metadada Initiative) - descrição de recursos por
meio de metadados
– TEI (Text Enconding Initiative) - codificação de documentos contendo conhecimento
– Web Semantica ou Ontologia de Web ou Web de Dados - organização
semântica das informações, adicionando significado e interpretação lógica aos documentos através da representação explícita do conhecimento (semântica legível por máquina), base para o desenvolvimento de serviços e aplicações mais inteligentes
Gerações da Web
Terceira Geração
-significado separado da estrutura
-máquinas realizando inferências visando auxiliar na interpretação do significado e da relevância das informações
-baseada em RDF, OWL, Topic Maps, SKOS, SPARQL
Segunda Geração
-estrutura separada da apresentação
-metadados para representação e organização da informação -baseada em XML, XSL
Primeira Geração
-apresentação separada da localização
-publicação rápida e acesso irrestrito a textos integrais -baseada em HTML, CSS, PDF
Metadados
• Documentos digitais tem seu conteúdo processável por computador, mas a eficácia do processamento pelo computador e o tempo de leitura humana
dificultam a descoberta, recuperação e apropriação do conhecimento em tempo hábil para grandes coleções • Os metadados são dados descritivos úteis para
humanos realizarem o julgamento de relevância
durante a recuperação de informação, e permitem o processamento pelo computador da natureza, função e assuntos de um documento (entre outras
Linguagem Documentária (LD)
• Como preencher o campo assunto dos metadados?
• A linguagem documentária compreende o conjunto de regras, símbolos e termos previamente
estabelecidos, formando uma linguagem artificial para a indicação do conteúdo temático dos documentos.
– Metalinguagem que utiliza uma construção simbólica com a finalidade de ser instrumento de conversão de uma linguagem em outra.
– Linguagem de indexação é uma especialização de uma LD, sendo uma linguagem artificial utilizada para registro ou indicação dos temas
contidos nos documentos, dotada de vocabulário controlado e regida por uma sintaxe própria.
Processamento de Linguagem
Natural (PLN)
• O conteúdo dos Documentos e expressões de busca são objetos linguísticos expressos em linguagem
natural.
• O PLN é um conjunto de técnicas computacionais para a análise de textos em um ou mais níveis
linguísticos com o propósito de simular o processamento humano da língua.
• O PLN tem aplicações na indexação automática, na
sumarização automática e na recuperação de informação de documentos
.
Exercícios
• Para o seguinte artigo na scielo:
http://dx.doi.org/10.1590/S1413-99362013000400003
• Quais são as linguagens utilizadas na
publicação (produção) do artigo?
• Quais são as linguagens e estruturas utilizadas
na representação do artigo?
• Qual o padrão de metadados utilizado para
representação do artigo? Onde se encontra?
Conclusão
• São linguagens de produção da informação: – Linguagens naturais (ex.: português, inglês) – Linguagens de marcação (ex.: HTML, XML) • São linguagens de representação da informação:
– Linguagens documentárias (ex.: Tesauros) – Linguagens de marcação (ex.: HTML, XML) • São estruturas de representação da informação:
– Metadados (ex.: Dublin Core)
Referências
• (FERNEDA, 2012)
– Capítulo 7 e 12