"Tras las sesiones dedicadas a analizar el estado actual del universo de la información y las transformaciones que se están derivando del desarrollo del Universo de la 2.0 y de plantear el propósito perseguido con la asignatura, llega el momento de iniciar lo que vamos a denominar como la Operación Arca de Noe Digital.
El objetivo es situar en el Universo 2.0, a través de los blogs individuales de los estudiantes y en la Wikipedia, los contenidos correspondientes a Indización y Resumen en Documentación científica.
Se desarrollarán la siguiente de tarea:
- Individual, a través del blog, publicando por cada uno de los temas de la guía docente (a partir del tema 2) una ficha resumen de cada uno de ellos que contenga: Ficha esquema del tema, con comentario de los aspectos más detacados, al menos 5 referencias a contenidos del mismo y una análisis de la oportunidades de los asuntos tratados en el tema, en el universo 2.0"
TEMARIO DE LA ASIGNATURA: http://dl.dropbox.com/u/32590393/TIR_Documentacion_cientifica-11-12.pdf.

INDIZACIÓN:
La indización consiste en extraer los conceptos fundamentales del contenido de un documento y representarlos mediante unos términos adecuados, bien procedentes del lenguaje natural empleados por los autores o de un lenguaje documental previamente seleccionado, como es el tesauro. Las variables que intervienen en el proceso de indización son las siguientes: nivel de análisis, cualificación y pericia de los indizadores, tipo y volumen de información que va a indizarse, disponibilidad de tiempo, medios económicos y características del sistema de almacenamiento de la base de datos .
Se podría definir como la técnica del análisis documental para representar y describir el contenido de los documentos, mediante conceptos principales contenidos en ellos(palabras clave) o vocabularios controlados (descriptores, términos o encabezamientos de materia), con el fin de guiar al usuario en la recuperación de los documentos que necesita .
Para María Pinto, la organización del conocimiento trata de optimizar la organización de los repertorios de conocimiento existentes en un dominio, para facilitar la recuperación, creación y compartición de conocimiento entre la comunidad de usuarios. Mientras que la gestión del conocimiento permite asegurar estratégicamente que los asuntos y flujos de conocimiento se conozcan y se utilicen en términos de valor empresarial.
Aunque existen múltiples formas de organizar el conocimiento, haremos uso de las formas documentales más consolidadas en el funcionamiento de los sistemas de información, pues se ha constatado que su empleo facilita la economía cognitiva de gestores y usuarios al conseguir representar el máximo de información sobre un objeto usando el mínimo de recursos conceptuales. Nos referimos a la clasificación documental, las ontologías y los topics maps (mapas temáticos) .
1.- CLASIFICACIÓN DOCUMENTAL: En la clasificación documental intervienen estas variables: la estructura del documento primario, la estructura del sistema de clasificación, la capacidad cognitiva del analista en la descripción de la materia del documento, el contexto en el que se crea y usa el sistema de clasificación, el contexto documental y la intertextualidad entre el sistema de clasificación y los documentos clasificados por ese sistema.
2.- ONTOLOGÍAS: Las ontologías ofrecen el conocimiento de un dominio de forma compartida y consensuada, ya sea entre personas, sistemas heterogéneos. Se definen como una especificación formal (legible por máquina), explicita de una conceptualización compartida, en la que los conceptos están organizados en forma de taxonomía
Tipologías:
-
Ontologías de un dominio: se representa el conocimiento especializado pertinente de un dominio o subdominio.
-
Ontologías genéricas: se representan conceptos generales del conocimiento
-
Ontologías representacionales o meta-ontologías: se especifican las conceptualizaciones que subyacen a los formalismos de representación del conocimiento
-
Ontologías creadas para una actividad o tarea específica, son las ontologías creadas para una aplicación específica.
EJEMPLOS:
1.- Ejemplo de La ontología de Mikrokosmos y su reutilización para el subdominio del cáncer, en Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento, M. Chantal Pérez Hernández, red iris, vol 18, 2002. disponible en http://elies.rediris.es/elies18/533.html
2.- Otro ejemplo: disponible en http://enterprise.eui.upm.es/grupos/ACL2.pdf
Sobre la indización debemos señalar que no es lo mismo la indización manual que la automática, todo esto según María Pinto.
Con la indización automática se trata de lograr un sistema automático que sea capaz de asignar a los documentos un modo de representarlos que permita su eficaz recuperación.
Distinguiremos tres tipos de indización automática:
- Indización asistida por ordenador: tras obtenerse los conceptos intelectualmente y asignarles términos de descripción, el almacenamiento de éstos se efectúa con apoyo informático.
- Indización semiautomática: el ordenador extrae los conceptos, pero los términos son propuestos por una persona
- Indización automática: el ordenador hace la extracción de los conceptos y valida su representación como descriptores.
Se ofrecen algunos programas de indización automática con su página web:
- ASK JEEVES. http://www.aj.com
- EXCALIBUR. http://www.excalib.com
- LEXIWARE de Lexiquest (ERLI). http://www.lexiquest.com
- OINGO, de Applied Semantics. http://www.appliedsemantics.com
- RESEARCHINDEX, de NEC Research Institute CiteSeer. http://citeseer.nj.nec.com
- SPIRIT (comercializado desde 1980, en un principio por Systex y luego spor Technologies GID). http://www.t-gid.com
- TOPIC, de la empresa Verity. http://www.verity.com/products/
Es un documento o conjunto de documentos SGML y XML,
interrelacionados en un espacio multidimensional en el que las
localizaciones son topics (temas). Son herramientas empleadas para la
gestión del conocimiento y la optimización de la recuperación de
información.
Su diseño se ajusta a la norma ISO/IEC
13250-2000, que contiene una descripción no formal de los tipos de
objetos que componen un topic map, así como una sintaxis XML de
representación e intercambio.
Las aplicaciones de los topic maps pueden ser: -
navegación: muestra todos los conceptos relacionados con el concepto central, siendo más intuitivo navegar en este espacio que en otro sistema de recuperación de información
-
mejora las preguntas en Internet
-
agentes personales para mejorar la eficiencia en el acceso a la web.Ofrece un conjunto organizado de topics, de enlaces sobre los recursos documentales indizados por estos topics, y las infinitas relaciones semánticas entre estos temas. Describe la organización de la información y cómo acceder a ésta, a través de los siguientes mecanismos:
-
gestión de varios nombres para cada topic
-
gestión de ocurrencias enlazando estos topics y los documentos externos indizados
-
gestión de relaciones semánticas, jerárquicas o no, entre los topics vía asociaciones
-
clasificación, simple o múltiple, de los topics con topics
-
mecanismo de filtraje de los topics permitiendo filtrar y personalizar el índice en función de los usuarios
-
mecanismo de identificación universal de los temas permitiendo identificar de manera única un tema representado en diferentes topic maps
-
capacidad de intercambiar y fusionar diferentes topic map
1.- http://www.techquila.com/tmsamples/xtm/punk/music-xtm.xml. http://www.techquila.com/topicmaps/tmworld/ -
LOS TESAUROS:
El tesauro es un lenguaje de indización controlado
constituido por un conjunto de términos descriptores y no descriptores, y
un sistema de relaciones que definen su contenido semántico.
La función principal del tesauro es
controlar los sinónimos de forma que, documentos que tratan sobre los
mismos temas o parecidos no sean indizados bajo términos diferentes.
En general, un tesauro interrelaciona
los términos para construir un lenguaje documental estructurado, que es
utilizado por los usuarios para la búsqueda de información en las bases
de datos.
Según Domènec Turuguet" El tesauro es una de las herramientas
más útiles de la Documentación. En el
período que siguió a su aparición en el siglo
pasado, y luego sobre todo, con la documentación moderna,
fue considerado como indispensable para el tratamiento
idóneo de la información. Sin embargo, con el
advenimiento de la informatización y las bases de datos
documentales consultables por texto libre, pasó a un segundo
término. Ahora su uso se ha revitalizado nuevamente, y se
considera imprescindible para un tratamiento correcto de las bases
documentales.
El origen de la palabra tesauro hay que buscarlo en el mundo clásico latino y griego, donde tesauro era sinónimo de diccionario o tesoro de una determinada lengua. Ya en épocas más recientes (s. XVI), se tiene constancia del Thesaurus puerilis, de Onofre Pou, en catalán.
Pero, más acorde con el significado actual, el vocablo se deriva del Thesaurus de Peter Mark Roget, médico inglés que en 1805, cuando tenía 26 años, concibió para su uso particular un catálogo clasificado de palabras. No fue, sin embargo, hasta 1852, a la edad de 73 años, que publica por primera vez el Roget's Thesaurus, del cual por lo menos se ha hecho una treintena de ediciones."
METODOLOGÍA: El origen de la palabra tesauro hay que buscarlo en el mundo clásico latino y griego, donde tesauro era sinónimo de diccionario o tesoro de una determinada lengua. Ya en épocas más recientes (s. XVI), se tiene constancia del Thesaurus puerilis, de Onofre Pou, en catalán.
Pero, más acorde con el significado actual, el vocablo se deriva del Thesaurus de Peter Mark Roget, médico inglés que en 1805, cuando tenía 26 años, concibió para su uso particular un catálogo clasificado de palabras. No fue, sin embargo, hasta 1852, a la edad de 73 años, que publica por primera vez el Roget's Thesaurus, del cual por lo menos se ha hecho una treintena de ediciones."
En la práctica la indización de un documento se desarrolla en estas tres etapas:
1.- Examen del documento: para determinar el tema de que trata.
2.- Análisis conceptual: para segmentar el documento en unidades y elementos de análisis más operativos, anotar las palabras reflejando el tema principal, subdividir el texto según el tema y seleccionar los conceptos significativos.
3.- Traducción al lenguaje del sistema. seleccionando los descriptores pertinentes del tesauro.
NORMATIVA:
1.- La norma ANSI Z39.19:1993, y su correspondiente norma española UNE 50-106-90 (AENOR).
2.- la norma ANSI Z39.19:1 993, de la American National Standards Institute.
3.-UNE 50-121-91 Documentación. Métodos para el análisis de documentos, determinación de su contenido y selección de los términos de indización que equivale a la ISO 5963:1985. Documentation. Methods for examining documents, determining their subjects and selecting indexing terms.
4.- UNE 50-125-1997 Documentación. Directrices para el establecimiento y desarrollo de tesauros multilingües, equivalente a la norma ISO 5964:1985 Guidelines for the Establishment and Development of Multiingual Thesauri.
DISEÑO DEL TESAURO:
- Campo Temático
- Recopilación de los términos . La segunda fase consiste en la recopilación del vocabulario principalmente a través de la recogida de todos los términos que se encuentran en la literatura consultada y aquellos que se puede extraer de las conversaciones con expertos en el tema.
- Control Terminológico . La normalización del vocabulario se puede llevar a cabo mediante la creación de un fichero alfabético, con el vocabulario ya depurado evitando con su elaboración la duplicación de entradas, el control gramatical de género y número de las expresiones y sirve, al mismo tiempo, como mecanismo de actualización del lenguaje, porque en él se registran las posibles incidencias de cada término. Al construir un tesauro es preciso fijar una terminología inequívoca, que supere sinonimias y polisemias, eligiendo, en la medida de lo posible, la trascripción, más comúnmente utilizada.
La
polisemia se define como la existencia de significantes con varios
significados, es perjudicial en el tesauro y debe ser controlada.
La
sinonimia se produce cuando un solo concepto está representado por varios
significantes. En un lenguaje documental la sinonimia es beneficiosa siempre
que esté controlada, pues ofrece todas las entradas posibles al sistema documental.
Lo más habitual es elegir una expresión como descriptor y mantener los
sinónimos como no descriptores.
- Agrupación en Categorías, Subcategorías
Es la parte más importante y más difícil de
construir. Se trata de crear una única estructura jerárquica del tesauro, que
presenta sistemática y sintéticamente toda la información que hay en el mismo.
Consiste en dividir en áreas temáticas de
afinidad probada la futura lista de descriptores, dando una denominación a cada
campo semántico, a cada subcampo, etc., constituyendo la estructura básica en
la que distribuimos posteriormente los descriptores del fichero alfabético.
Consiste en el establecimiento de los distintos elementos constitutivos
del tesauro: los descriptores , los no descriptores, y las notas de alcance.
Los descriptores se estructuran en campos semánticos según áreas temáticas, que
pretenden reflejar la interdisciplinariedad del tesauro.ESTABLECIMIENTO DE LA ESTRUCTURA CONCEPTUAL:
- Descriptores
- No descriptores
- Notas de alcance
- De equivalencia
- Jerárquicas
- Asociativas
Los términos que componen el tesauro y sus relaciones se pueden representar de varias formas, siendo las más comunes la presentación alfabética, la presentación jerárquica y la presentación gráfica.
- Presentación alfabética.Describe las relaciones de equivalencia considerando el número clasificatorio del descriptor.
- Presentación jerárquica. Contiene los descriptores estructurados en función de categorías o jerarquías.
- Presentación permutada.Existen dos tipos de índices permutados, el índice KWIC (Key Word In Context) y el índice KWOC (Key Word Out Context).
-
Presentación gráfica. Muestran sobre todo las relaciones jerárquicas existentes entre descriptores y por lo general, los reenvíos hacia términos asociados se indican en los márgenes del esquema gráfico
1.- TESAURO DE LA UNESCO: http://databases.unesco.org/thessp/
2.- TESAURO DE CIENCIAS DE LA DOCUMENTACIÓN. http://www3.unileon.es/dp/abd/tesauro/pagina/tesdocumentacion/docutes.htmhttp://www3.unileon.es/dp/abd/tesauro/pagina/tesdocumentacion/docutes.htm
3.- TESAURO EUROPEO DE LA EDUCACIÓN. http://www.doredin.mec.es/documentos/TEESP.pdf.
4.- TESAURO DE LA ORGANIZACIÓN INTERNACIONAL DEL TRABAJO ( OIT): http://www.ilo.org/thesaurus/defaultes.asp
5.- TESAURO DEL CINDOC: http://thes.cindoc.csic.es/index_esp.php


No hay comentarios:
Publicar un comentario