• Nenhum resultado encontrado

Aula01_Linguagens de Produção da Informação

N/A
N/A
Protected

Academic year: 2021

Share "Aula01_Linguagens de Produção da Informação"

Copied!
17
0
0

Texto

(1)

Linguagens de Produção e

Representação da Informação

(2)

Motivação

• O crescimento da quantidade de informação eletrônica disponível por meio da Internet é uma realidade que pode ser percebida em todos os campos do

conhecimento humano.

– A web é o mais rico repositório de informações na história humana.

• Devido a esse volume de informações, torna-se cada vez maiores os problemas de acesso e recuperação de qualquer tipo de informação na rede.

– Diversos métodos e tecnologias foram criadas para minimizar tais problemas na Web e em sistemas de informação documental.

(3)

Problemas de acesso e recuperação

de informação na Web

• Indisponibilidade de ferramentas que possibilitem a

discriminação da informação (garantam a relevancia das

primeiras fontes retornadas) e filtragem eficiente neste

ambiente de crescimento acentuado das fontes de informação digitalizada e grande volume de informações.

• Falta do uso de formas padronizadas para a estruturação e armazenamento de informações, isto é, os conteúdos não se encontram estruturados semanticamente de forma rigorosa. • Baixa qualidade dos conteúdos, seja por problemas de correção

ortográfica, gramatical ou conceitual.

• Acentuada volatilidade dos dados, endereços e páginas. • Acentuada redundância de conteúdos.

(4)

Dificuldades de acesso e

recuperação de informação dos

usuários

• Falta de conhecimento ao elaborar questões que reflitam seus objetivos de busca.

• Inabilidade para interpretar, classificar, priorizar ou filtrar grandes quantidades de informação

retornadas pelos sistemas de busca.

• Perda de tempo (horas) examinando informações que podem ser totalmente desnecessárias,

(5)

Problemática da Disciplina

• O que de fato escrevemos num documento?

– Conhecimento, Informação, ou Dado?

• Como produzir e representar documentos de

forma a maximizar a apreensão de informação

e conhecimento por parte dos usuários e

softwares?

• Como os softwares podem auxiliar os usuários

na recuperação de informação em grandes

(6)

Dados x Informação

• Dados – são fatos registrados e

inter-relacionados por meio de símbolos e

convenções léxico-sintático-semântica.

– Léxico – símbolos de um vocabulário

– Sintático – relação de ordem, grafia e concordância entre símbolos (sintaxe)

– Semântico – significado de grupos de léxicos – Exemplo:

• Vannevar Bush. As we may think. The Atlantic

(7)

Dados x Informação

• Informação – é a interpretação semântica

sobre dados contextualizados, útil na

construção de conhecimento ou tomada de

decisão.

– Aquilo que é potencialmente útil para informar – Exemplo:

• Vannevar Bush. As we may think. The Atlantic

(8)

Estrutura dos documentos e

processamento computacional

• O Texto livre e processado pelo computador como dado não-estruturado, e requer processamento computacional pesado para manipulação (indexação, classificação, extração de informação, descoberta de conhecimento, etc.). • “Os dados semi-estruturados não estão em forma de um texto livre, que

requer processamento pesado, mas também não estão sujeitos às restrições impostas por uma estrutura rígida”. Os campos semânticos do documento e respectivos conteúdos estão explicitamente definidos (metadados);

• “Os dados estruturados representam instâncias de entidades e relações

através de regras rígidas e bem definidas”. Possibilita a aplicação de filtros e junção de dados, ordenamento, contagem, agrupamento e extração de dados. Formato rígido de tabelas ou registro-atributo-valor.

Dados não-estruturados Dados semi-estruturados Dados estruturados

Texto livre páginas HTML,Emails,

arquivos XML

Banco de Dados Relacionais

(9)

Exercícios

• Descreva que características tem um e-mail para ser considerado dado semi-estruturado.

• Tomando o conteúdo do corpo da mensagem de um e-mail de sua caixa de e-e-mails, descreva as regras

léxico-sintático-semânticas utilizadas na sua produção.

• Quais as tarefas que a semi-estruturação dos e-mails potencializa para os usuários dos servidores de

(10)

Projetos Mundiais de estruturação

dos documentos da Web

• O World Wide Web Consortium (W3C) criado em 1994, tem como objetivo liderar o desenvolvimento da Web (referencial quanto às especificações

normativas e metodológicas) em relação às suas tecnologias e interoperabilidade.

• Principais projetos e tecnologias de estuturação das informações:

– XML (eXtensible Markup Language) - sintaxe básica para estruturação de documentos visando intercâmbio de dados em formato texto semi-estruturado – Dublin Core (Dublin Core Metadada Initiative) - descrição de recursos por

meio de metadados

– TEI (Text Enconding Initiative) - codificação de documentos contendo conhecimento

– Web Semantica ou Ontologia de Web ou Web de Dados - organização

semântica das informações, adicionando significado e interpretação lógica aos documentos através da representação explícita do conhecimento (semântica legível por máquina), base para o desenvolvimento de serviços e aplicações mais inteligentes

(11)

Gerações da Web

Terceira Geração

-significado separado da estrutura

-máquinas realizando inferências visando auxiliar na interpretação do significado e da relevância das informações

-baseada em RDF, OWL, Topic Maps, SKOS, SPARQL

Segunda Geração

-estrutura separada da apresentação

-metadados para representação e organização da informação -baseada em XML, XSL

Primeira Geração

-apresentação separada da localização

-publicação rápida e acesso irrestrito a textos integrais -baseada em HTML, CSS, PDF

(12)

Metadados

• Documentos digitais tem seu conteúdo processável por computador, mas a eficácia do processamento pelo computador e o tempo de leitura humana

dificultam a descoberta, recuperação e apropriação do conhecimento em tempo hábil para grandes coleções • Os metadados são dados descritivos úteis para

humanos realizarem o julgamento de relevância

durante a recuperação de informação, e permitem o processamento pelo computador da natureza, função e assuntos de um documento (entre outras

(13)

Linguagem Documentária (LD)

• Como preencher o campo assunto dos metadados?

• A linguagem documentária compreende o conjunto de regras, símbolos e termos previamente

estabelecidos, formando uma linguagem artificial para a indicação do conteúdo temático dos documentos.

– Metalinguagem que utiliza uma construção simbólica com a finalidade de ser instrumento de conversão de uma linguagem em outra.

– Linguagem de indexação é uma especialização de uma LD, sendo uma linguagem artificial utilizada para registro ou indicação dos temas

contidos nos documentos, dotada de vocabulário controlado e regida por uma sintaxe própria.

(14)

Processamento de Linguagem

Natural (PLN)

• O conteúdo dos Documentos e expressões de busca são objetos linguísticos expressos em linguagem

natural.

• O PLN é um conjunto de técnicas computacionais para a análise de textos em um ou mais níveis

linguísticos com o propósito de simular o processamento humano da língua.

• O PLN tem aplicações na indexação automática, na

sumarização automática e na recuperação de informação de documentos

.

(15)

Exercícios

• Para o seguinte artigo na scielo:

http://dx.doi.org/10.1590/S1413-99362013000400003

• Quais são as linguagens utilizadas na

publicação (produção) do artigo?

• Quais são as linguagens e estruturas utilizadas

na representação do artigo?

• Qual o padrão de metadados utilizado para

representação do artigo? Onde se encontra?

(16)

Conclusão

• São linguagens de produção da informação: – Linguagens naturais (ex.: português, inglês) – Linguagens de marcação (ex.: HTML, XML) • São linguagens de representação da informação:

– Linguagens documentárias (ex.: Tesauros) – Linguagens de marcação (ex.: HTML, XML) • São estruturas de representação da informação:

– Metadados (ex.: Dublin Core)

(17)

Referências

• (FERNEDA, 2012)

– Capítulo 7 e 12

• (BAEZA-YATES & RIBEIRO-NETO, 2013)

Referências

Documentos relacionados

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

Esta realidade exige uma abordagem baseada mais numa engenharia de segu- rança do que na regulamentação prescritiva existente para estes CUA [7], pelo que as medidas de segurança

(05/06/2003 disponível em: <www.folha.com.br>) Esses dados mostram que existe uma grande preocupação mundial com os recursos hídricos potáveis. 02) A preservação das

No entanto, quando se eliminou o efeito da soja (TABELA 3), foi possível distinguir os efeitos da urease presentes no grão de soja sobre a conversão da uréia em amônia no bagaço

Internal sac armature (Fig. 5) consisting of two basal spine-shaped straight sclerites, 2.8 times as long as wide (Fig. 5a) or as in figure 5A; two long, laminar and median

O tipo de células fusiformes tem especial afinidade para a grande tuberosidade e parede posterior do estômago; linfosarcoma e o sarcoma de células redondas são as

Cheliped carpus with 12–18 simple dorsal setae; propodus bearing a large, with brown-bordered dorsal crest (V. glandurus), or a distal margin curved and pointed