Indización Automática:
Diseño y evaluación de sistemas
Isidoro Gil Leiva
http://webs.um.es
Brasil 2020
ÍNDICE
Breve delimitación de la indización manual / indización automática
Herramientas / Metodologías para la indización automática
Diseño de un sistema de indización automática: SISA
Evaluación de la indización automática
3
4 2 1
ÍNDICE
Breve delimitación de la indización manual / indización automática
Herramientas / Metodologías para la indización automática
Diseño de un sistema de indización automática: SISA
Evaluación de la indización automática
3
4 2 1
1. Processo cognitivo na indexação
1.1 Organização da comunicação
A comunicação entre as pessoas é realizada principalmente por
meio de fala, discurso textual e discurso audiovisual.
Para decifrar uma mensagem visual lendo, visualizando um
relatório ou um sinal de trânsito ou uma mensagem auditiva
(uma conversa ou uma sirene atraente), deve haver pelo
menos um código conhecido pelas partes envolvidas
(remetente e destinatário).
Tipos de texto
Tipologías
Werlich (1975) Descriptivo, narrativo, expositivo, argumentativo e instructivo
Grosse (1976) Normativo, de contacto, de indicación de grupo, poético, de automanifestación, exhortativos, de transferencia de información, de transición.
Van Dijk (1972 y 1977) Argumentativo, científico, narrativo, periodístico y otros posibles como conferencia, sermón, atestado, petición, discurso público, entre otros.
Lasswell (1948) en su trabajo “The structure and functions of
communication in society” escribió que:
“Una manera conveniente de describir un acto de
comunicación es la que surge de la contestación a las
siguientes preguntas:
¿Quién
dice qué
en qué canal
a quién
y con qué efecto? ”
ESTRUTURA FORMAL do discurso textual
Artículo científico Artículo periodístico Acta Informe Sentencia judicial
Título:
Qué, Quién, Cuándo, Dónde
Resumen:
Qué, Quién, Cuándo, Dónde, Cómo
Palabras clave:
Qué, Quién, Cuándo, Dónde, Cómo
Introducción:
Qué, Por qué
Material y método: Cuándo, Dónde, Cómo Resultados y discusión: Qué Conclusiones:
Qué, Quién, Cuándo, Dónde, Cómo
Referencias:
Qué
Título:
Qué, Quién, Cuándo, Dónde
Encabezamiento:
Qué, Quién, Cuándo, Dónde, Por qué, Cómo
Texto:
Qué, Quién, Cuándo, Dónde, Por qué, Cómo Asistentes y excusados: Quién Lugar y fecha: Dónde, Cuándo Acuerdos adoptados y deliberacion es:
Qué, Por qué
Fedatario: Quién Título: Qué, Quién, Cuándo, Dónde Índice: Qué, Quién, Cuándo, Dónde Epígrafes: Qué, Quién, Cuándo, Dónde, Por qué, Cómo Encabezamiento:
Quién, Qué, Cuándo, Dónde
Antecedentes:
Qué, Cómo
Fundamentos de Derecho:
Qué, Por qué
Fallo:
Qué → Assunto, acción, objeto → Descritor temático
→ Encabeçalho de assunto
Cómo → Método, instrumento, técnica → Descritor temático
→ Encabeçalho de assunto
Quién → Nome propio de persona → Descritor onomástico
→ Encabeçalho de assunto
→ Nom propio de cosa → Identificador
→ Encabeçalho de assunto
Cuándo → Tempo → Descritor cronológico
→ Encabeçahlo de tempo
Dónde → Lugar → Descritor topográfico
1.2 Percepção sensorial da informação
As informações que podem ser analisadas podem alcançar o indexador de três maneiras:
visualização: texto escrito (livro, artigo, lei, etc.), a imagem estática (fotografia,
cartaz publicitário) e a imagem em movimento (vídeo), bem como os objetos físicos sujeitos à indexação (escultura, construção, pintura etc.) )
audição: sons articulados por sistemas lingüísticos (fala), sons por composição
artística (música), sons por interação social (urbana, doméstica, festas etc.), sons mecânico-industriais (cadeia produtiva, perfurações etc.) , sons naturais (ruídos da floresta, ondas, etc.) ou sons atraentes (relógios, sinos, chamadas para a oração do muezzin, etc.).
toque: (por exemplo, indexador cego que usa leitura por toque).
No momento em que a informação é percebida sensorialmente, os processos de memória são ativados.
1.3 Ativação de memória
Durante a indexação, a memória entra em jogo constantemente,
pois o indexador hospeda numerosos conhecimentos
armazenados em sua memória que os utilizam o tempo todo.
Ele armazena dados relacionados ao mesmo processo de
indexação (teórico e prático) adquiridos durante o treinamento e
através da experiência; dados sobre a política de indexação na
instituição aplicável no uso de linguagens de indexação ou no
relacionamento com os usuários; ou dados sobre o assunto em
que trabalha (Química, Direito, Meio Ambiente, etc.), entre
outros.
1.4 Compreensão
Conocimientos sobre Niveles del procesamiento Resultado
Significado de las palabras. Forma ortográfica de las palabras. Forma de letras y sílabas.
Reglas que relacionan grafemas con fonemas
Reconocer las palabras
Se accede al significado de las palabras o significado lexical.
Esquema proposicional. Conocimientos sobre la lengua. Conocimientos sobre el mundo
físico y social.
Construir proposiciones
Se organizan los significados de las palabras en términos de un predicado y varios argumentos.
Conocimientos sobre los textos (señales sobre la progresión temática del texto). Conocimientos sobre el mundo
físico y social.
Integrar las proposiciones
Se relacionan las proposiciones entre sí, tanto temáticamente como, si llega el caso, de manera causal, motivacional o descriptiva.
Conocimientos sobre los textos (señales que indican en el texto la macroestructura). Conocimientos sobre el mundo
físico y social
Construir la macroestructura
Se derivan del texto y de los conocimientos del lector las ideas globales que individualizan, dan sentido y diferenciación a las proposiciones derivadas del texto.
Conocimientos sobre los textos (señales de superestructuras. Conocimientos sobre el mundo
físico y social
Interrelación global de ideas Las ideas globales se relacionan entre sí en términos causales, motivacionales, descriptivos, comparativos o temporales.
Os indexadores analisam apenas discursos (textuais, conversacionais
ou audiovisuais) coesos e coerentes.
DISCURSO TEXTUAL
A Península Ibérica foi descrita como uma das
os principais da região do Mediterrâneo em relação ao número de espécies de anfíbios que apresenta. Em Nesse sentido, os hospitais de Pernambuco terão
de um profissional, de preferência pessoal de enfermagem, para gerenciar casos de
doença cardíaca crônica que não pode ser tratada em ambulatorial devido à sua complexidade. Assim
Eu prestaria atenção especial à preservação conservação e restauração do patrimônio
documentário bibliográfico-argentino. Porém,
continuaria sem conhecer os três períodos completamente religioso dominante em todas as épocas da Índia,
a saber, o período védico, o bramanismo e Hinduísmo.
DISCURSO CONVERSACIONAL
Duas pessoas têm falado baixinho sobre a necessidade de planejamento familiar nos países em desenvolvimento e um deles (Orador 1)
faça a seguinte pergunta:
Orador 1. E o que você acha do Vaticano forçado a retrair bispos brasileiros pelo seu apoio ao uso de preservativos?
Orador 2. E em segundo lugar, ainda não está claro que as operações de
combate em 2003 no Iraque. Eles foram um grande sucesso dos Estados Unidos. Orador 1. Não, se eu lhe perguntasse sobre o Vaticano e os bispos brasileiros. Orador 2. Na verdade, eu não colocaria minha mão o fogo para o primeiro, talvez sim para Wolfgang Schäuble, o Presidente da Federação Alemã
de Diabéticos.
Orador 1. Eu ainda não te entendo.
Orador 2 Em resumo, foi acordado que as linhas do Plano de habitação do Ministério seja organizado com os setores envolvidos.
I
N
D
E
X
A
Ç
Ã
O
I
N
D
E
X
A
Ç
Ã
O
I
N
D
E
X
A
Ç
Ã
O
Proceso íntegro de la indización
PROCESSO de indexação en lenguaje natural
Almacenamiento da indexação em a base de dados:
Documento:
Artigo de jornalTítulo:
Exército assume comando de operações contra incêndios em RondôniaAutor:
RedaçãoFuente:
Diário da AmâzoniaSección:
PoliticaFecha:
27/08/2019Palavras chave:
Exército ; operações contra incêndios ; Rondônia ;Operação Jequitibá
O artigo está pronto para ser
recuperado na base de dados
Almacenamiento da indexação em a base de dados:
Documento:
Artigo de jornalTítulo:
Exército assume comando de operações contra incêndios em RondôniaAutor:
RedaçãoFuente:
Diário da AmâzoniaSección:
PoliticaFecha:
27/08/2019Palavras chave:
Exército ; operações contra incêndios ; Rondônia ;Operação Jequitibá
O artigo está pronto para ser
recuperado da base de dados
Indexação em lenguaje natural
Indexação de
um
resumo de
periódico
com tesauro
Almacenamiento indexação em a base de dados :
Documento:
Artigo de periódicoTítulo:
Estudio de las tasas de para en las regiones alemanas: 1989-2005Autor:
Margarita Cano BelmonteFuente:
Anales de EconomíaDatos fuente:
o2007, vol. 3, nº 1, p. 127-140Descriptores temáticos:
Regiones de Alemania ; Paro estructural ; Mercado laboralDescriptores onomásticos:
J.P. WilkenbergDescriptores topográficos:
Alemania, Branderburgo, BavieraIdentificadores:
Banco Central de AlemaniaO texto está pronto para ser
recuperado da base de dados
Almacenamiento indexação em a base de dados :
Documento:
Artigo de periódicoTítulo:
Estudio de las tasas de para en las regiones alemanas: 1989-2005Autor:
Margarita Cano BelmonteFuente:
Anales de EconomíaDatos fuente:
o2007, vol. 3, nº 1, p. 127-140Descriptores temáticos:
Regiones de Alemania ; Paro estructural ; Mercado laboralDescriptores onomásticos:
J.P. WilkenbergDescriptores topográficos:
Alemania, Branderburgo, BavieraIdentificadores:
Banco Central de AlemaniaO texto está pronto para ser
recuperado da base de dados
Indexação com lenguaje controlado
Recuperaçao de informaçao na base de dados
Imaginemos un usuario con una necesidad de información:
NECESIDAD DE INFORMACIÓN:
“Necesito documentos sobre las tasas de paro en las regiones alemanas”
CONVERSIÓN DE LA NECESIDAD DE INFORMACIÓN EN UNA
ECUACIÓN DE BÚSQUEDA USANDO EL MISMO VOCABULARIO CONTROLADO:
tasas de desemprego AND regioes alemanas
INTERROGAMOS LA BASE DE DATOS CON LA ECUACIÓN DE BÚSQUEDA: