domingo, 17 de junio de 2012

OPERACIÓN ARCA DE NOÉ DIGITAL

PLANTEAMIENTO:

"Tras las sesiones dedicadas a analizar el estado actual del universo de la información y las transformaciones que se están derivando del desarrollo del Universo de la 2.0 y de plantear el propósito perseguido con la asignatura, llega el momento de iniciar lo que vamos a denominar como la Operación Arca de Noe Digital.

El objetivo es situar en el Universo 2.0, a través de los blogs individuales de los estudiantes y en la Wikipedia, los contenidos correspondientes a Indización y Resumen en Documentación científica.

Se desarrollarán la siguiente de tarea:
  1. Individual, a través del blog, publicando por cada uno de los temas de la guía docente (a partir del tema 2) una ficha resumen de cada uno de ellos que contenga: Ficha esquema del tema, con comentario de los aspectos más detacados, al menos 5 referencias a contenidos del mismo y una análisis de la oportunidades de los asuntos tratados en el tema, en el universo 2.0"
El enunciado de los temas de la asignatura es el siguiente. En base a los mismos elaboraré el post correspondiente. 
TEMARIO DE LA ASIGNATURA: http://dl.dropbox.com/u/32590393/TIR_Documentacion_cientifica-11-12.pdf.


INDIZACIÓN: 

La indización consiste en extraer los conceptos fundamentales del contenido de un documento y representarlos mediante unos términos adecuados, bien procedentes del lenguaje natural empleados por los autores o de un lenguaje documental previamente seleccionado, como es el tesauro. Las variables que intervienen en el proceso de indización son las siguientes: nivel de análisis, cualificación y pericia de los indizadores, tipo y volumen de información que va a indizarse, disponibilidad de tiempo, medios económicos y características del sistema de almacenamiento de la base de datos .


Se podría definir como la técnica del análisis documental para representar y describir el contenido de los documentos, mediante conceptos principales contenidos en ellos(palabras clave) o vocabularios controlados (descriptores, términos o encabezamientos de materia), con el fin de guiar al usuario en la recuperación de los documentos que necesita

Para María Pinto, la organización del conocimiento trata de optimizar la organización de los repertorios de conocimiento existentes en un dominio, para facilitar la recuperación, creación y compartición de conocimiento entre la comunidad de usuarios. Mientras que la gestión del conocimiento permite asegurar estratégicamente que los asuntos y flujos de conocimiento se conozcan y se utilicen en términos de valor empresarial.

Aunque existen múltiples formas de organizar el conocimiento, haremos uso de las formas documentales más consolidadas en el funcionamiento de los sistemas de información, pues se ha constatado que su empleo facilita la economía cognitiva de gestores y usuarios al conseguir representar el máximo de información sobre un objeto usando el mínimo de recursos conceptuales. Nos referimos a la clasificación documental, las ontologías y los topics maps (mapas temáticos) .

1.- CLASIFICACIÓN DOCUMENTAL: En la clasificación documental intervienen estas variables: la estructura del documento primario, la estructura del sistema de clasificación, la capacidad cognitiva del analista en la descripción de la materia del documento, el contexto en el que se crea y usa el sistema de clasificación, el contexto documental y la intertextualidad entre el sistema de clasificación y los documentos clasificados por ese sistema.

 2.- ONTOLOGÍAS: Las ontologías ofrecen el conocimiento de un dominio de forma compartida y consensuada, ya sea entre personas, sistemas heterogéneos. Se definen como una especificación formal (legible por máquina), explicita de una conceptualización compartida, en la que los conceptos están organizados en forma de taxonomía

Tipologías:
  • Ontologías de un dominio: se representa el conocimiento especializado pertinente de un dominio o subdominio.
  • Ontologías genéricas: se representan conceptos generales del conocimiento
  • Ontologías representacionales o meta-ontologías: se especifican las conceptualizaciones que subyacen a los formalismos de representación del conocimiento
  • Ontologías creadas para una actividad o tarea específica, son las ontologías creadas para una aplicación específica.
 Usos:  Se han construido ontologías específicas para aplicaciones en traducción automática, ciencias de la salud, recuperación de información., pero sobretodo se han empleado en la gestión del conocimiento y en la web semántica
 EJEMPLOS:
1.-  Ejemplo de La ontología de Mikrokosmos y su reutilización para el subdominio del cáncer, en Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento, M. Chantal Pérez Hernández, red iris, vol 18, 2002. disponible en http://elies.rediris.es/elies18/533.html 

2.- Otro ejemplo: disponible en http://enterprise.eui.upm.es/grupos/ACL2.pdf 



Sobre la indización debemos señalar que no es lo mismo la indización manual que la automática, todo esto según María Pinto.

Con la indización automática se trata de lograr un sistema automático que sea capaz de asignar a los documentos un modo de representarlos que permita su eficaz recuperación.
Distinguiremos tres tipos de indización automática:
  • Indización asistida por ordenador: tras obtenerse los conceptos intelectualmente y asignarles términos de descripción, el almacenamiento de éstos se efectúa con apoyo informático.
  • Indización semiautomática: el ordenador extrae los conceptos, pero los términos son propuestos por una persona
  • Indización automática: el ordenador hace la extracción de los conceptos y valida su representación como descriptores. 

Se ofrecen algunos programas de indización automática con su página web:
3.- TOPIC MAPS:


Es un documento o conjunto de documentos SGML y XML, interrelacionados en un espacio multidimensional en el que las localizaciones son topics (temas). Son herramientas empleadas para la gestión del conocimiento y la optimización de la recuperación de información.
Su diseño se ajusta a la norma ISO/IEC 13250-2000, que contiene una descripción no formal de los tipos de objetos que componen un topic map, así como una sintaxis XML de representación e intercambio.
Las aplicaciones de los topic maps pueden ser:
  • navegación: muestra todos los conceptos relacionados con el concepto central, siendo más intuitivo navegar en este espacio que en otro sistema de recuperación de información
  • mejora las preguntas en Internet
  • agentes personales para mejorar la eficiencia en el acceso a la web.
    Ofrece un conjunto organizado de topics, de enlaces sobre los recursos documentales indizados por estos topics, y las infinitas relaciones semánticas entre estos temas. Describe la organización de la información y cómo acceder a ésta, a través de los siguientes mecanismos:
    • gestión de varios nombres para cada topic
    • gestión de ocurrencias enlazando estos topics y los documentos externos indizados
    • gestión de relaciones semánticas, jerárquicas o no, entre los topics vía asociaciones
    • clasificación, simple o múltiple, de los topics con topics
    • mecanismo de filtraje de los topics permitiendo filtrar y personalizar el índice en función de los usuarios
    • mecanismo de identificación universal de los temas permitiendo identificar de manera única un tema representado en diferentes topic maps
    • capacidad de intercambiar y fusionar diferentes topic map
     EJEMPLOS:
    1.- http://www.techquila.com/tmsamples/xtm/punk/music-xtm.xml. http://www.techquila.com/topicmaps/tmworld/
 LOS TESAUROS:




El tesauro es un lenguaje de indización controlado constituido por un conjunto de términos descriptores y no descriptores, y un sistema de relaciones que definen su contenido semántico.
La función principal del tesauro es controlar los sinónimos de forma que, documentos que tratan sobre los mismos temas o parecidos no sean indizados bajo términos diferentes.
En general, un tesauro interrelaciona los términos para construir un lenguaje documental estructurado, que es utilizado por los usuarios para la búsqueda de información en las bases de datos. 

Según Domènec Turuguet"  El tesauro es una de las herramientas más útiles de la Documentación. En el período que siguió a su aparición en el siglo pasado, y luego sobre todo, con la documentación moderna, fue considerado como indispensable para el tratamiento idóneo de la información. Sin embargo, con el advenimiento de la informatización y las bases de datos documentales consultables por texto libre, pasó a un segundo término. Ahora su uso se ha revitalizado nuevamente, y se considera imprescindible para un tratamiento correcto de las bases documentales.
El origen de la palabra tesauro hay que buscarlo en el mundo clásico latino y griego, donde tesauro era sinónimo de diccionario o tesoro de una determinada lengua. Ya en épocas más recientes (s. XVI), se tiene constancia del Thesaurus puerilis, de Onofre Pou, en catalán.
Pero, más acorde con el significado actual, el vocablo se deriva del Thesaurus de Peter Mark Roget, médico inglés que en 1805, cuando tenía 26 años, concibió para su uso particular un catálogo clasificado de palabras. No fue, sin embargo, hasta 1852, a la edad de 73 años, que publica por primera vez el Roget's Thesaurus, del cual por lo menos se ha hecho una treintena de ediciones."


METODOLOGÍA:
En la práctica la indización de un documento se desarrolla en estas tres etapas:
1.- Examen del documento: para determinar el tema de que trata.

2.- Análisis conceptual: para segmentar el documento en unidades y elementos de análisis más operativos, anotar las palabras reflejando el tema principal, subdividir el texto según el tema y seleccionar los conceptos significativos.

3.- Traducción al lenguaje del sistema. seleccionando los descriptores pertinentes del tesauro.

NORMATIVA:
1.- La norma ANSI Z39.19:1993, y su correspondiente norma española UNE 50-106-90 (AENOR).
2.- la norma ANSI Z39.19:1 993, de la American National Standards Institute
3.-UNE 50-121-91 Documentación. Métodos para el análisis de documentos, determinación de su contenido y selección de los términos de indización que equivale a la ISO 5963:1985. Documentation. Methods for examining documents, determining their subjects and selecting indexing terms.
4.- UNE 50-125-1997 Documentación. Directrices para el establecimiento y desarrollo de tesauros multilingües, equivalente a la norma ISO 5964:1985 Guidelines for the Establishment and Development of Multiingual Thesauri.


DISEÑO DEL TESAURO:

Para el diseño y elaboración de un tesauro, se pueden seguir una serie de fases o etapas, establecidas en su mayoría en la norma UNE 50-106-90; la norma UNE 50-121-91 usada para la indización; y las recomendaciones de Aitchison en su manual práctico de Uso y construcción de tesauros, en su última edición. Estas fases son las que a continuación se detallan:
  1. Campo Temático
  2. Recopilación de los términos . La segunda fase consiste en la recopilación del vocabulario principalmente a través de la recogida de todos los términos que se encuentran en la literatura consultada y aquellos que se puede extraer de las conversaciones con expertos en el tema.
  3. Control Terminológico . La normalización del vocabulario se puede llevar a cabo mediante la creación de un fichero alfabético, con el vocabulario ya depurado evitando con su elaboración la duplicación de entradas, el control gramatical de género y número de las expresiones y sirve, al mismo tiempo, como mecanismo de actualización del lenguaje, porque en él se registran las posibles incidencias de cada término.  Al construir un tesauro es preciso fijar una terminología inequívoca, que supere sinonimias y polisemias, eligiendo, en la medida de lo posible, la trascripción, más comúnmente utilizada.
    La polisemia se define como la existencia de significantes con varios significados, es perjudicial en el tesauro y debe ser controlada.
    La sinonimia se produce cuando un solo concepto está representado por varios significantes. En un lenguaje documental la sinonimia es beneficiosa siempre que esté controlada, pues ofrece todas las entradas posibles al sistema documental. Lo más habitual es elegir una expresión como descriptor y mantener los sinónimos como no descriptores.
  1. Agrupación en Categorías, Subcategorías
Es la parte más importante y más difícil de construir. Se trata de crear una única estructura jerárquica del tesauro, que presenta sistemática y sintéticamente toda la información que hay en el mismo.
Consiste en dividir en áreas temáticas de afinidad probada la futura lista de descriptores, dando una denominación a cada campo semántico, a cada subcampo, etc., constituyendo la estructura básica en la que distribuimos posteriormente los descriptores del fichero alfabético.
  1. Establecimiento de la estructura conceptual .
Consiste en el establecimiento de los distintos elementos constitutivos del tesauro: los descriptores , los no descriptores, y las notas de alcance. Los descriptores se estructuran en campos semánticos según áreas temáticas, que pretenden reflejar la interdisciplinariedad del tesauro.

ESTABLECIMIENTO DE LA ESTRUCTURA CONCEPTUAL

  •  Descriptores
  •   No descriptores
  • Notas de alcance
ESTABLECIMIENTO DE LA ESTRUCTURA RELACIONAL
  • De equivalencia
  • Jerárquicas
  • Asociativas 
 PRESENTACIÓN DEL TESAURO:

Los términos que componen el tesauro y sus relaciones se pueden representar de varias formas, siendo las más comunes la presentación alfabética, la presentación jerárquica y la presentación gráfica.

  • Presentación alfabética.Describe las relaciones de equivalencia considerando el número clasificatorio del descriptor.
  • Presentación jerárquica. Contiene los descriptores estructurados en función de categorías o jerarquías.
  • Presentación permutada.Existen dos tipos de índices permutados, el índice KWIC (Key Word In Context) y el índice KWOC (Key Word Out Context).
  • Presentación gráfica. Muestran sobre todo las relaciones jerárquicas existentes entre descriptores y por lo general, los reenvíos hacia términos asociados se indican en los márgenes del esquema gráfico
 EJEMPLOS DE TESAUROS:
1.- TESAURO DE LA UNESCO: http://databases.unesco.org/thessp/
2.- TESAURO DE CIENCIAS DE LA DOCUMENTACIÓN. http://www3.unileon.es/dp/abd/tesauro/pagina/tesdocumentacion/docutes.htmhttp://www3.unileon.es/dp/abd/tesauro/pagina/tesdocumentacion/docutes.htm

3.- TESAURO EUROPEO DE LA EDUCACIÓN. http://www.doredin.mec.es/documentos/TEESP.pdf.
4.- TESAURO DE LA ORGANIZACIÓN INTERNACIONAL DEL TRABAJO ( OIT): http://www.ilo.org/thesaurus/defaultes.asp


5.- TESAURO DEL CINDOC: http://thes.cindoc.csic.es/index_esp.php




 










No hay comentarios:

Publicar un comentario