Metadatos y documentos XML/RDF
para Recuperacion
Recuperación y organización de la información
¿Qué son los Metadatos?
Son datos que describen otros datos, es decir, información relativa a los propios datos que facilitan su catalogación y además proporcionan información semántica asociada. En general, un grupo de metadatos se refiere a un grupo de datos, llamado recurso.
El concepto de metadatos es análogo al uso de índices para localizar objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores, títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos.
Para varios campos de la informática como la recuperación de información o la web semántica, los metadatos son un enfoque importante para construir un puente sobre el intervalo semántico [1].
Debido a que los metadatos son datos en sí mismos, es posible crear metadatos sobre metadatos. Aunque, a primera vista, parece absurdo, los metadatos sobre metadatos pueden ser muy útiles. Por ejemplo, fusionando dos imágenes y sus metadatos distintos puede ser muy importante deducir cual es el origen de un grupo de metadatos.
[1] - La diversidad de significado de dos descripciones de la misma cosa por causa de usar lenguajes de expresividad distintos.
Uso de los Metadatos
Los metadatos se utilizan en ámbitos muy diversos: bases de datos relacionales, aplicaciones data warehouse, sistemas de ficheros, etc. La posibilidad de definir cómo es la información contenida en un lugar, hace de los metadatos una herramienta de amplio espectro.
Este documento se va a centrar sobre el uso de los metadatos mencionado más frecuentemente, la recuperación de información. Usando informaciones adicionales los resultados son más precisos, y el usuario se ahorra filtraciones manuales complementarias. Los metadatos añaden semántica al código de las páginas, lo cual puede ayudar a los motores de búsqueda, indexadores, etc. a encontrar aquello que estamos buscando.
En una primera aproximación, el código HTML con el que se definían las páginas, no tenía ningún tipo de información semántica, debido a que HTML es un lenguaje de marcado, únicamente se define la forma de la página, no el contenido de la misma.
La aplicación de los metadatos en el diseño de páginas web aporta a la descripción de la forma de las páginas, información sobre su contenido. Incluso se pueden llegar a definir estructuras de datos y las interrelaciones entre los mismos (véanse las secciones XML y RDF).
El uso de lenguajes para la definición de metadatos estandarizados, tales como XML ó RDF permiten el intercambio de información entre diferentes máquinas, con diferentes sistemas operativos, favoreciendo así la recuperación. Nacen con este propósito diferentes estándares como Dublin Core Metadata Initiative que pretenden definir una serie de vocabularios de metadatos para describir recursos. De esta forma se puede crear un lenguaje estandarizado que defina recursos de forma internacional. Esto facilita el acceso y la recuperación de información.
Clasificación de los Metadatos
Según la función que proporcionan, se pueden clasificar en:
Tipo |
Objetivo |
Ejemplos |
| Descriptivos | Describen e identifican recursos de información. Permite a los usuarios la búsqueda y recuperación de la información. |
Dublin Core o Etiquetas META de HTML |
| Estructurales | Facilitan la navegación y la presentación de los recursos. Proporcionan información sobre la estructura interna de los documentos, así como la relación entre ellos. |
XML y RDF o SGML |
| Administrativos | Facilitan la gestión de conjuntos de recursos. Incluye la gestión de derechos y sobre control de acceso y uso. |
MOA2 |
Estructura de los Metadatos
Los metadatos están estructurados por un mínimo de elementos tales como por ejemplo: título, autor, fecha de creación, etc.
Típicamente, los elementos que conforman un metadato están definidos por algún estándar o perfil, donde los usuarios que deseen compartir metadatos están de acuerdo con el significado preciso de cada elemento.
A continuación se muestran los metadatos utilizados en HTML para categorizar, describir y poder así distinguir los documentos.
Metainformacion en HTML
La forma de asignar metainformación a los documentos HTML es mediante las etiquetas <META>. Existen diversos tipos de etiquetas <META>, pero las más utilizadas son: description, que muestra información general sobre la página como su temática o su responsable, keywords, que contiene las palabras claves significativas, junto con las definidas en el estándar Dublin Core.
Especificación de Metadatos HTML
Cada elemento <META> especifica una tupla de propiedad junto con su valor. Los principales atributos que tiene son name, content, scheme y http-equiv. El atributo name identifica unívocamente a la propiedad y content le asigna un valor. Se puede de esta forma, por ejemplo, asignar en un mismo documentos metadatos en función del idioma:
<META name="keywords" lang="en" content="Information Retrieval">
<META name="keywords" lang="es" content="Recuperacion Informacion">
El significado de una propiedad y sus valores asignados estan asociados a un diccionario llamado perfil. El estándar Dublin Core es un ejemplo de perfil.
Por ejemplo, este documento HTML contiene los siguientes metadatos:
<META name="Author" content="Julio César Ayllón Bonet"/>
<META name="title" content="Recuperacion y acceso a la informacion - Metadatos y documentos XML/RDF para recuperacion - Metadatos"/>
<META name="Keywords" content="metadatos, recuperacion,xml,rdf,acceso,informacion"/>
<META name="Description" content="Recuperacion y acceso a la informacion - Metadatos y documentos XML/RDF para recuperacion - Metadatos"/>
<META name="robots" content="all,index,follow,archive"/>
<META name="revisit" content="2 days"/>
<META name="revisit-after" content="2 days"/>
<META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"/>
<META name="verify-v1" content="A1vebOcHu8F7l46CVCDVKl5Fb ... /U0="/>
Evolución de los Metadatos
Los metadatos en lenguaje HTML usando <META> tiene muchas limitaciones debido principalmente a su ambigüedad y a la cantidad de alternativas existentes. Por ello, en la especificación de HTML 4.01 del W3C, se introdujo el concepto de RDF (Resource Description Framework) para definir metadatos siguiendo la sintaxis de XML.
Metadatos Dublin Core
Motivación y Objetivos
La iniciativa de Metadatos de Dublin Core (DCMI), llamada también Dublin Core, es una organización dedicada a fomentar la adopción extensa de los estándares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir recursos que permitan sistemas más inteligentes del descubrimiento del recurso.
Se creó en 1995 con el propósito de crear estándares que facilitaran la descripción y recuperación de recursos de información. Se creó un conjunto de descriptores que hoy en día es el mas extendido en la Web.
Estos metadatos intentan establecer en la red los datos necesarios para describir, identificar y encontrar un documento. Si este estándar se usara mundialmente, se conseguiría que todas las aplicaciones automáticas que intentan indizar la información de Internet, como los buscadores, tendrían toda la información necesaria para manipular los documentos en su propia cabecera, facilitando su indización y provocando una mejora de eficiencia de los motores de búsqueda.
Descripción de Dublin Core
Dublin Core es un sistema de 15 definiciones semánticas descriptivas que pretenden transmitir un significado semántico a las mismas. Cada definición es opcional, puede repetirse y aparecer en cualquier orden.
Este sistema de definiciones fue diseñado específicamente para proporcionar un vocabulario de características "base", capaces de proporcionar la información descriptiva básica sobre cualquier recurso, sin que importe el formato de origen, el área de especialización o el origen cultural.
Los elementos de Dublin Core puede clasificarse en tres categorías según el tipo de información que contengan:
Sobre el contenido del recurso
Etiqueta DC |
Descripción |
| DC.Title | Título. El nombre dado al recurso |
| DC.Subject | Materias y palabras clave. El tema del contenido del recurso |
DC.Description |
Descripción del contenido del recurso. Puede incluir un resumen, una tabla de contenidos, etc |
DC.Source |
Fuente. Referencia al recurso del que deriva el documento actual |
DC.Languaje |
Lengua. El idioma del contenido del recurso |
DC.Relation |
Relación. Una referencia a un recurso relacionado con el contenido |
DC.Coverage |
Cobertura. Ámbito del contenido del recurso. Puede tratarse de un especificación geográfica, temporal o legal |
Sobre la propiedad intelectual del recurso
Etiqueta DC |
Descripción |
| DC.Creator | Autor. Responsable de la creación del contenido. Puede ser una entidad, una persona o un servicio |
| DC.Publisher | Editor. Responsable de que el recurso se encuentre disponible |
DC.Contributor |
Colaborador. Responsable de hacer colaboraciones al contenido del recurso |
DC.Rights |
Derechos. Información sobre los derechos de la propiedad intelectual del recuso, como por ejemplo el copyright |
Sobre la instancia del recurso
Etiqueta DC |
Descripción |
| DC.Date | Fecha. Fecha asociada a la creación o modificación del recurso. Se suele seguir la notación AAAA-MM-DD |
| DC.Type | El tipo o categoría del contenido. Palabras clave de un vocabulario que describen la naturaleza del recurso |
DC.Format |
Formato. Descripción física del recurso, como su tamaño, duración, dimensiones, etc. si son aplicables. Se suelen usar tipos MIME |
DC.Identifier |
Identificación. Referencia unívoca para el contenido del recurso. Por ejemplo una URL o un ISBN |
WIKI de recuperacion y organizacion de la informacion
- Pagina principal del WIKI
- Evaluacion de los principales buscadores web
- Sistemas de Question-Answering
- Metadatos y documentos XML/RDF para recuperacion
- Lenguajes de recuperacion: XML-Query, XQL y Tolog
- Lenguajes de recuperacion: SeRQL y SPARQL
- Almacenamiento, consulta y razonamiento: Sesame y Jena
- Modelos de recuperacion
- Motores de recuperacion de documentos XML/RDF
- Procesamiento del Lenguaje Natural
- Usabilidad y accesibilidad en el posicionamiento
- Clasificacion supervisada
- Clasificacion no supervisada: clustering y Kohonen
- Fusion de ontologias de metadatos FCA, Onions y Prompt
- Mineria de textos web