Metadatos y documentos XML/RDF

para Recuperacion


Recuperación y organización de la información

¿Qué son los Metadatos?

Son datos que describen otros datos, es decir, información relativa a los propios datos que facilitan su catalogación y además proporcionan información semántica asociada. En general, un grupo de metadatos se refiere a un grupo de datos, llamado recurso.

El concepto de metadatos es análogo al uso de índices para localizar objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores, títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos.

Para varios campos de la informática como la recuperación de información o la web semántica, los metadatos son un enfoque importante para construir un puente sobre el intervalo semántico [1].

Debido a que los metadatos son datos en sí mismos, es posible crear metadatos sobre metadatos. Aunque, a primera vista, parece absurdo, los metadatos sobre metadatos pueden ser muy útiles. Por ejemplo, fusionando dos imágenes y sus metadatos distintos puede ser muy importante deducir cual es el origen de un grupo de metadatos.

[1] - La diversidad de significado de dos descripciones de la misma cosa por causa de usar lenguajes de expresividad distintos.


Uso de los Metadatos

Los metadatos se utilizan en ámbitos muy diversos: bases de datos relacionales, aplicaciones data warehouse, sistemas de ficheros, etc. La posibilidad de definir cómo es la información contenida en un lugar, hace de los metadatos una herramienta de amplio espectro.

Este documento se va a centrar sobre el uso de los metadatos mencionado más frecuentemente, la recuperación de información. Usando informaciones adicionales los resultados son más precisos, y el usuario se ahorra filtraciones manuales complementarias. Los metadatos añaden semántica al código de las páginas, lo cual puede ayudar a los motores de búsqueda, indexadores, etc. a encontrar aquello que estamos buscando.

En una primera aproximación, el código HTML con el que se definían las páginas, no tenía ningún tipo de información semántica, debido a que HTML es un lenguaje de marcado, únicamente se define la forma de la página, no el contenido de la misma.

La aplicación de los metadatos en el diseño de páginas web aporta a la descripción de la forma de las páginas, información sobre su contenido. Incluso se pueden llegar a definir estructuras de datos y las interrelaciones entre los mismos (véanse las secciones XML y RDF).

El uso de lenguajes para la definición de metadatos estandarizados, tales como XML ó RDF permiten el intercambio de información entre diferentes máquinas, con diferentes sistemas operativos, favoreciendo así la recuperación. Nacen con este propósito diferentes estándares como Dublin Core Metadata Initiative que pretenden definir una serie de vocabularios de metadatos para describir recursos. De esta forma se puede crear un lenguaje estandarizado que defina recursos de forma internacional. Esto facilita el acceso y la recuperación de información.

Clasificación de los Metadatos

Según la función que proporcionan, se pueden clasificar en:

Tipo

Objetivo

Ejemplos

Descriptivos

Describen e identifican recursos de información. Permite a los usuarios la búsqueda y recuperación de la información.

Dublin Core o Etiquetas META de HTML
Estructurales

Facilitan la navegación y la presentación de los recursos. Proporcionan información sobre la estructura interna de los documentos, así como la relación entre ellos.

XML y RDF o SGML
Administrativos

Facilitan la gestión de conjuntos de recursos. Incluye la gestión de derechos y sobre control de acceso y uso.

MOA2


Estructura de los Metadatos

Los metadatos están estructurados por un mínimo de elementos tales como por ejemplo: título, autor, fecha de creación, etc.

Típicamente, los elementos que conforman un metadato están definidos por algún estándar o perfil, donde los usuarios que deseen compartir metadatos están de acuerdo con el significado preciso de cada elemento.

A continuación se muestran los metadatos utilizados en HTML para categorizar, describir y poder así distinguir los documentos.


Metainformacion en HTML

La forma de asignar metainformación a los documentos HTML es mediante las etiquetas <META>. Existen diversos tipos de etiquetas <META>, pero las más utilizadas son: description, que muestra información general sobre la página como su temática o su responsable, keywords, que contiene las palabras claves significativas, junto con las definidas en el estándar Dublin Core.

Especificación de Metadatos HTML

Cada elemento <META> especifica una tupla de propiedad junto con su valor. Los principales atributos que tiene son name, content, scheme y http-equiv. El atributo name identifica unívocamente a la propiedad y content le asigna un valor. Se puede de esta forma, por ejemplo, asignar en un mismo documentos metadatos en función del idioma:

<META name="keywords" lang="en" content="Information Retrieval">
<META name="keywords" lang="es" content="Recuperacion Informacion">

El significado de una propiedad y sus valores asignados estan asociados a un diccionario llamado perfil. El estándar Dublin Core es un ejemplo de perfil.

Por ejemplo, este documento HTML contiene los siguientes metadatos:

<META name="Author" content="Julio César Ayllón Bonet"/>
<META name="title" content="Recuperacion y acceso a la informacion - Metadatos y documentos XML/RDF para recuperacion - Metadatos"/>
<META name="Keywords" content="metadatos, recuperacion,xml,rdf,acceso,informacion"/>
<META name="Description" content="Recuperacion y acceso a la informacion - Metadatos y documentos XML/RDF para recuperacion - Metadatos"/>
<META name="robots" content="all,index,follow,archive"/>
<META name="revisit" content="2 days"/>
<META name="revisit-after" content="2 days"/>
<META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"/>
<META name="verify-v1" content="A1vebOcHu8F7l46CVCDVKl5Fb ... /U0="/>


Evolución de los Metadatos

Los metadatos en lenguaje HTML usando <META> tiene muchas limitaciones debido principalmente a su ambigüedad y a la cantidad de alternativas existentes. Por ello, en la especificación de HTML 4.01 del W3C, se introdujo el concepto de RDF (Resource Description Framework) para definir metadatos siguiendo la sintaxis de XML.


Metadatos Dublin Core

Motivación y Objetivos

La iniciativa de Metadatos de Dublin Core (DCMI), llamada también Dublin Core, es una organización dedicada a fomentar la adopción extensa de los estándares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir recursos que permitan sistemas más inteligentes del descubrimiento del recurso.

Se creó en 1995 con el propósito de crear estándares que facilitaran la descripción y recuperación de recursos de información. Se creó un conjunto de descriptores que hoy en día es el mas extendido en la Web.

Estos metadatos intentan establecer en la red los datos necesarios para describir, identificar y encontrar un documento. Si este estándar se usara mundialmente, se conseguiría que todas las aplicaciones automáticas que intentan indizar la información de Internet, como los buscadores, tendrían toda la información necesaria para manipular los documentos en su propia cabecera, facilitando su indización y provocando una mejora de eficiencia de los motores de búsqueda.

Descripción de Dublin Core

Dublin Core es un sistema de 15 definiciones semánticas descriptivas que pretenden transmitir un significado semántico a las mismas. Cada definición es opcional, puede repetirse y aparecer en cualquier orden.

Este sistema de definiciones fue diseñado específicamente para proporcionar un vocabulario de características "base", capaces de proporcionar la información descriptiva básica sobre cualquier recurso, sin que importe el formato de origen, el área de especialización o el origen cultural.

Los elementos de Dublin Core puede clasificarse en tres categorías según el tipo de información que contengan:

Sobre el contenido del recurso

Etiqueta DC

Descripción

DC.Title

Título. El nombre dado al recurso

DC.Subject

Materias y palabras clave. El tema del contenido del recurso

DC.Description

Descripción del contenido del recurso. Puede incluir un resumen, una tabla de contenidos, etc

DC.Source

Fuente. Referencia al recurso del que deriva el documento actual

DC.Languaje

Lengua. El idioma del contenido del recurso

DC.Relation

Relación. Una referencia a un recurso relacionado con el contenido

DC.Coverage

Cobertura. Ámbito del contenido del recurso. Puede tratarse de un especificación geográfica, temporal o legal



Sobre la propiedad intelectual del recurso

Etiqueta DC

Descripción

DC.Creator

Autor. Responsable de la creación del contenido. Puede ser una entidad, una persona o un servicio

DC.Publisher

Editor. Responsable de que el recurso se encuentre disponible

DC.Contributor

Colaborador. Responsable de hacer colaboraciones al contenido del recurso

DC.Rights

Derechos. Información sobre los derechos de la propiedad intelectual del recuso, como por ejemplo el copyright



Sobre la instancia del recurso

Etiqueta DC

Descripción

DC.Date

Fecha. Fecha asociada a la creación o modificación del recurso. Se suele seguir la notación AAAA-MM-DD

DC.Type

El tipo o categoría del contenido. Palabras clave de un vocabulario que describen la naturaleza del recurso

DC.Format

Formato. Descripción física del recurso, como su tamaño, duración, dimensiones, etc. si son aplicables. Se suelen usar tipos MIME

DC.Identifier

Identificación. Referencia unívoca para el contenido del recurso. Por ejemplo una URL o un ISBN



Metadatos y Documentos XML/RDF para recuperacion Descárgate la información completa en formato *.doc

Metadatos y Documentos XML/RDF para recuperacion Descárgate la información completa en formato *.pdf

No olvides enlazarme en tu página. Gracias !!!

Nombre del link: Metadatos y documentos XML/RDF para recuperacion