TIRDC-NAUTAS: LA INDIZACIÓN HOY

"Estamos intentando establecer si existe un espacio para la indización en el escenario actual de la Web 2.0, donde se han multiplicado los elementos de producción de información y los factores de interacción imposibilitan determinados procesos.

Responder la la pregunta ¿Qué papel tiene la indización en el infoescenario actual? es el objetivo del post que deberá estar publicado en la Sesión 9ª de #TIRDC

Esa consideración nos permitirá desarrollar una puesta en común sobre el papel de la indización en el escenario actual."
-----

Tras todo lo analizado a lo largo del Blog y de toda la bibliografía consultada, es evidente que la INDIZACIÓN, en el escenario actual en el que nos desenvolvemos de la WEB 2.0, ha cambiado de forma vertiginosa y en una orientación social favorecedora para el usuario, para la libre circulación de la información y para una mejor gestión de la misma y del conocimiento derivado de dichas acciones o comportamientos sociales. Hemos visto como se ha pasado por una indización manual, una indización automática y una indización social, momento en el que nos encontramos, y en el que las 3 opciones conviven. Son los teóricos de la Documentación, los que debaten y postulan la utilidad de la indización social en el ámbito del control de la Información.

Los profesionales de la Documentación han sido tradicionalmente valedores del empleo de lenguajes controlados, por su consistencia en la representación sistemática del análisis documental de contenido y su capacidad para combinar búsquedas genéricas y específicas. Sin embargo, a partir de las herramientas de la web social, el etiquetado también está siendo aplicado por los propios documentalistas y bibliotecarios. Parece oportuno reflexionar sobre este hecho ¿Se trata de una renuncia a valores tradicionales de la disciplina? ¿O es una adaptación a las demandas de nuevas generaciones de usuarios? ¿Hay un cambio de paradigma en la percepción de las herramientas de recuperación?

Las herramientas de búsqueda de información en la World Wide Web desarrollan diferentes métodos y mecanismos para la recopilación e indización de la información que incorporan a sus bases de datos. La diversidad documental, de contenidos y formatos dificultan el proceso. El método adoptado incidirá directamente en la eficacia de la recuperación de los recursos.

Se analiza el uso de etiquetas o tags en los blogs, servicios de promoción social de noticias y marcadores sociales, por parte de profesionales del campo de la Biblioteconomía y la Documentación. Los datos obtenidos en varios ejemplos de este tipo de recursos se comparan con los términos incluidos en un tesauro especializado de este mismo ámbito. A través de esta comparación se sistematizan cuáles son las aportaciones del etiquetado libre frente a las herramientas tradicionales. Los tesauros pueden aprovechar las folksonomías como una fuente de gran calidad para actualizar y ampliar su cobertura terminológica. Este objetivo debe considerarse prioritario si se quiere que los tesauros puedan representar un papel en el futuro inmediato en los sistemas de recuperación sobre texto completo.

Folksonomía, tagging o etiquetado son conceptos ya recogidos en la literatura profesional. Generalmente se presentan como alternativas novedosas para la organización y clasificación de la información, en el contexto de estas nuevas herramientas colaborativas de uso creciente en la web. La práctica del tagging es una de las características que definen el concepto de web 2.0 o web social, en la que el usuario se ha transformado de consumidor pasivo en un activo “prosumidor” de información. Este neologismo, “prosumidor”, aún cuando no está aún aceptado por la RAE, parece necesario para hacer referencia a las personas que son productoras y consumidoras de un mismo producto. Y por ello se identifica este fenómeno con una real democratización de la información y el conocimiento (Rodríguez Palchevich, 2008).

Yusef Hassan distingue entre dos posibles usos del tagging, uno de carácter social, otro de sentido personal. En su opinión sólo puede hablarse de un modelo novedoso de indización cuando se práctica la “indización social agregada”, es decir, cuando varios usuarios indizan un mismo recurso (Hassan, 2006). Otros autores utilizan el concepto de “etiquetado colaborativo” (McGregor y McCulloch, 2006), o reclaman una diferenciación entre el tagging de autor y el tagging realizado por los lectores (Seoane, 2007a).
Interesante por el planteamiento que hace de la motivación del uso de los Taggin en : http://www.terremoto.net/tipologias-y-estlos-en-el-etiquetado-social/ :

Después de observar mucho el patrón de uso de Del.icio.us y Flickr, podemos sugerir cuatro estilos muy diferenciados de tagging (y sus consecuencias en el sistema):
1. Etiquetado egoísta
Etiquetamos algo con términos que nos sirvan para encontrarlo si después lo necesitamos. Usamos etiquetas muy significativas para nosotros, pero carentes de significado fuera de su contexto personal. Ejemplos: “trabajo”, “vacaciones”, “pendiente de leer”, “para Juan”, “cursillo”.
Con el tiempo, a medida que aumenta el número de ítems etiquetados, algunos usuarios tienden a sistematizar su estilo mediante etiquetas temáticas generalmente aceptadas. Tarde o temprano toca ordenar la casa, y esto se hace usando más etiquetas temáticas o adjetivas (”fotografía”, “webdev”, “divertido”) y menos etiquetas de acción (”para yusef”, “pendiente de leer”, “maruchi”). Esta evolución hace que el etiquetado siga siendo egoísta, pero gane mucha utilidad social.

Beneficio social: Variable (de poco a medio), según la madurez del taggeador. Cuando usa términos más personales, el etiquetado egoísta llena de anomalías y ruido el sistema. Cuando el usuario empieza a sistematizar el etiquetado (usando etiquetas más temáticas) aumenta el beneficio social.

Motivación: La motivación para etiquetar egoistamente es alta. Lo hacemos para nuestro propio beneficio.

2. Etiquetado Amiguista
Etiquetamos algo para compartirlo con otras personas de nuestro círculo (amigos, colegas, compañeros) y usamos términos consensuados y desconocidos para el resto. Ejemplos: “desconferencia”, “cadius”, “asobine”,

Beneficio social: Alto. Este estilo de etiquetado aporta más bien poco a los grupos grandes, pero es sumamente útil en grupos pequeños. Eventualmente, puede que un tema minoritario pase a ser de dominio público y el tag cobre especial relevancia (ej: “blogosfera”, “ajax”).

Motivación: La motivación en el etiquetado amiguista es muy alta: sirve para compartir y para reforzar el sentimiento de comunidad entre un grupo.

3. Etiquetado Altruista
Etiquetamos algo con el afán sincero de compartirlo con el resto del mundo, eligiendo las etiquetas que creemos que son más descriptivas, conocidas y generalmente aceptadas. Ejemplos: “música”, “años 60″, “clásicos”, “pop”, “the beatles”.

Beneficio social: Muy alto. Este estilo de etiquetado es el que más contribuye a facilitar la recuperación de información al resto de usuarios. Es el más generoso.

Motivación: Baja. Etiquetar así es trabajoso. Y no hay premio por ello. Es difícil que a alguien le motive hacer bien un trabajo para los demás cuando no hay un beneficio directo asociado.

4. Etiquetado Populista
Etiquetamos algo para hacerlo más atractivo y que obtenga visitas. Para ello usamos etiquetas que sean populares y llamativas a la mayoría. Ejemplos: “muy bueno”, “sexo”, “super-interesante”, “top10″.

Beneficio social: absolutamente ninguno. Es spam.

Motivación: Alta. Quienes recurren a este estilo de tagging lo hacen buscando un beneficio directo y evidente, aunque la labor de etiquetado sea completamene inutil para la recuperación de información (la suya o la de otros).

En cualquiera de nosotros convive más de un estilo a la vez.
Si lo representamos gráficamente, usando el beneficio social y la motivación colectiva como magnitudes de referencia, quedaría un gráfico similar a éste:
Motivacion y estilos en el etiquetado social

Motivacion y estilos en el etiquetado social

Las formas de etiquetado que buscan ser útiles al mayor número de gente (la populista y la altruista) son precisamente las que más esfuerzo demandan al etiquetador y menos le motivan. Y viceversa: las más usadas probablemente serán la egoista y la amiguista.
De lo anterior se desprende que si en un sistema van a predominar las formas egoistas y amiguistas, puede que se nos queden muchos recursos “mal etiquetados”. Quizás sea necesario establecer mecanismos de equilibrio para corregir esa anomalía “asocial”.
Uno de esos mecanismos de corrección podría ser el etiquetado profesional: garantizar profesionalmente que todos los recursos tienen un mínimo de etiquetas comunmente aceptadas y conocidas. Y hacerlo conforme a una ontología determinada, para asegurar que existe consistencia entre esos mínimos. En otras palabras, el etiquetado altruista lo pone la casa.
Para concluir, es evidente que los sistemas de etiquetado social pueden ser muy beneficiosos si se aplican bien. Sin embargo, no existe una fórmula mágica para que funcionen solos, pues hay demasiadas variables influyendo simultáneamente. Lo que es evidente es que un sistema de tagging social con vocación generalista no será suficientemente efectivo si no se aplican mecanismos correctores (o equilibradores) desde el conocimiento de las motivaciones y los estilos de los usuarios.

Así como el concepto de etiquetado se relaciona con la indización, el de folksonomía se presenta como una alternativa entre los lenguajes documentales. Puede definirse como una clasificación social que se genera por consenso a través de las aportaciones de los usuarios (Wright, 2004). Pero su naturaleza es radicalmente distinta a los lenguajes documentales tradicionales. Clasificaciones, taxonomías o tesauros son lenguajes creados por expertos, para ser utilizados posteriormente en un sistema de información. Por el contrario, una folksonomía se crea por agregación de información sin ningún punto de partida previo, y por ello se puede interpretar como reflejo de un poder popular (Quintarelli, 2005)

Este renacimiento de los lenguajes no controlados también ha recibido críticas. Se cuestiona incluso el interés de la denominada web 2.0.
El etiquetado hereda todos los problemas tradicionales de los vocabularios no controlados (Ros, 2008). Es una forma desestructurada de aplicar metadatos para describir recursos o documentos en la web. Este sistema implica grandes limitaciones para la recuperación de información: carencias de precisión, sin control de sinónimos, ausencia de estructura jerárquica, baja tasa de recuperabilidad,… (Quintarelli, 2005). En definitiva, supone la apuesta por un sistema de recuperación basado en la serendipia (serindipity), muy lejos del intento de construcción de sistemas que aseguren cierto equilibrio entre
exhaustividad y pertinencia.

Entre las ventajas, el etiquetado libre tendría las propias de todo sistema de indización en lenguaje natural: simplicidad, transparencia, establecimiento de pesos por popularidad y aparición inmediata de nuevos términos. También se señala su atractivo visual, su sentido lúdico y por supuesto, el añadido de utilizar una economía de escala (Serrano, 2007). Pero un claro argumento para utilizar folksonomías es que resultan “mejor que nada”, puesto que introducen un elemento para mejorar la capacidad de recuperación en un contexto en el que no es viable la aplicación de lenguajes controlados (Shirky, 2005).

Los estudios relativos al uso del tagging dentro de la web semántica, se basan igualmente en herramientas que limiten la dispersión del vocabulario. Las propuestas se dirigen hacia las agrupaciones de etiquetas, con conceptos como key-tags (Catarino y Baptista, 2008) o la introducción de fórmulas de clustering en la visualización de tag-clouds (Hassan y Herrero, 2006). El etiquetado parece pues una opción con capacidad para consolidarse y puede contribuir incluso al desarrollo de la web semántica, puesto que facilita una red de términos que se autoalimenta de forma continua (Seoane, 2005 y 2007b).
Sin embargo, cabe reflexionar sobre si este modelo de indización mediante términos libres debe ser utilizado por los profesionales de la documentación, defensores tradicionales de los lenguajes controlados. ¿Significa una renuncia a las herramientas básicas de control de la terminología? ¿Son sus aportaciones a la recuperación de información también de interés en medios profesionales?

Como ventajas de la indización libre, Moreiro (2004) señala las siguientes:
− No se precisa inversión para construir lenguajes documentales.
− Son lenguajes evolutivos.
− Ofrecen una enorme riqueza de vocabulario.
− Son fácilmente automatizables, al trabajar sobre todo con unitérminos.
− Se obtienen resultados satisfactorios cuando se combinan con los términos propios de un entorno científico-técnico específico.

La World Wide Web , W3, Malla Mundial Multimedia o telaraña mundial de información ha evolucionado hacia lo que podría considerarse un dinámico almacén donde albergar informaciones muy diversas en contenidos, relevancia y utilidad. Por el momento, gran parte de la responsabilidad en la búsqueda y localización de la información dispersa en la red recae en los motores de búsqueda o buscadores (Lynch, 1997). Los buscadores de la W3 presentan una estructura constituida por: un robot o araña , es decir, un programa que cruza la W3 moviéndose de un documento a otro, descendiendo progresivamente a través de los hiperenlaces; un programa de indización que indiza la información de los millones de páginas web ubicadas en servidores conectados a la red y enormes bases de datos a las que acceden los usuarios a través de la interfaz del buscador. Por tanto, los buscadores no sólo deben facilitar la localización de los recursos incluidos en sus bases de datos sino que, además, deben compilarlos.

Algunos inconvenientes al respecto sería:

El uso de robots automáticos de búsqueda de manera indiscriminada produce un incremento del tráfico en la red, una sobrecarga de los servidores y otros problemas de uso de las infraestructuras (Koster, 1995)
La justificación de sistemas de indización mediante robots sería difícil si la red cambiara hacia un uso no gratuito de los recursos.
El tipo de datos recogidos por los robots no es útil, ya que aun hoy las arañas presentan un funcionamiento demasiado simple.
Los sistemas de comprensión del lenguaje natural no están lo suficientemente avanzados como para extraer el significado de los recursos.
La mayor parte de los buscadores sólo reconocen texto, por lo que se hace más difícil generar una identificación automática de las características de recursos tales como las imágenes digitales o los diferentes ficheros multimedia.
La indización automática tiende a una perspectiva simplista, poco selectiva, que provoca que la localización de recursos en la red y la recuperación de la información (RI) solicitada llegue a ser cada vez menos factible.
Frente a los indizadores humanos, los programas automatizados tienen dificultades para identificar características de un documento web como el contexto o temática general en la que se engloba, y el género, por ejemplo una comunicación científica, información profesional o informal, al que ese recurso pertenece.

Pero no todo este planteamiento, en exceso pesimista, se impone el hecho de que no sería realista ni factible pretender hoy día, la indización manual de todo el espacio web. Además, la W3 cuenta con potencialidades aún no totalmente explotadas. Con las formas actualmente adoptadas para representar la información en Internet, se están desaprovechando casi absolutamente las posibilidades del hipertexto. La adopción de estructuras de almacenamiento donde existan dos redes, la de documentos y la de conceptos, podría ayudar a controlar la situación. Estas redes deberían y podrían tener una riqueza semántica de la que carece actualmente la W3. La ampliación de la tipología de relaciones entre los recursos y la aplicación del tesauro a la red de documentos junto con una indización normalizada, homogénea y fácilmente accesible, puede ser una buena, aunque lejana, solución al problema de la recuperación de información en la W3 (Pastor, 1997). Por otro lado, el uso correcto y normalizado de los metadatos podría ayudar a paliar gran parte de los inconvenientes derivados del uso de robots y favorecer una indización de calidad por parte de éstos.

MÉTODOS PARA LA INDIZACIÓN Y RECUPERACIÓN DE RECURSOS.

Los procesos de indización y recuperación llevados a cabo por las diferentes herramientas de RI y localización de recursos disponibles en la W3, pueden contemplarse desde diferentes ángulos (Ellis, 1998):

a) Representación de los datos

Las herramientas de búsqueda utilizan distintos métodos para indizar los recursos que incorporan a sus bases de datos. La indización puede plantearse en tres niveles: submorfológico, por palabra clave y por conceptos.

La indización en el nivel submorfológico, esto es, sin análisis morfológico, sintáctico o semántico, ofrece un método muy flexible para la recuperación. Así las fuentes de información se indizan como patrones de bits o bit patterns de manera que texto, sonido e imágenes en movimiento, pueden indizarse y recuperarse usando la misma forma de representación. Algunas herramientas de consulta comienzan a incorporar sistemas como, por ejemplo, Excalibur Visual RetrievalWare, que ofrecen recuperación de imágenes y de texto.

Sin embargo, la indización por palabra clave o por conceptos es la que se utiliza principalmente para la representación e indización de la información. Estos métodos se desarrollan gracias a la aplicación de técnicas estadísticas de RI ahora incorporadas a una amplia gama de buscadores (Barlow, 1997):

Indización por palabra clave . Mediante este sistema se crean índices inversos de raíces y palabras clave, direcciones, ubicación y frecuencia de apariciones. Este enfoque, esencialmente morfológico y estadístico, basa la RI en la similitud formal de las palabras, y las estadísticas de su presencia en documentos y colecciones de documentos. Es la forma más común de indización de textos en la W3. Algunos buscadores obtienen las palabras clave de determinados campos, las metaetiquetas HTML, pero la mayoría indiza el texto completo de las páginas, incluyendo o no las palabras vacías de significado y eliminando a veces las más frecuentes.

Indización por conceptos . Existen varios procedimientos para construir bases de datos basadas en conceptos, algunas de ellas muy complejas y basadas en sofisticadas teorías lingüísticas y de inteligencia artificial. En otros casos, como Excite, se basan en una aproximación numérica, calculando la frecuencia de aparición de ciertas palabras significativas. A partir de análisis estadísticos el buscador determina qué conceptos aparecen juntos o relacionados en textos que se centran en un tema concreto. Mediante este sistema se pueden recuperar recursos que tratan un tema dado, incluso aunque las palabras incluidas en el documento no coincidan formalmente con las de la pregunta.

Otros sistemas, como Dr-Link, realizan un análisis más profundo e indizan a nivel sintáctico, semántico e incluso pragmático. Sin embargo, el mayor nivel de análisis semántico, posiblemente sea el de los sistemas que ofrecen información evaluada, revisada e indizada por humanos, que se presenta en algunos directorios temáticos, como por ejemplo en Excite e Infoseek.

b) Procesos de equiparación (matching processes)

Los servicios de búsqueda en la W3 han incorporado técnicas de recuperación avanzadas para intentar superar los problemas del sistema clásico de recuperación basado en el método de la lógica booleana, muchas de cuyas prestaciones se consideran demasiado complejas para el usuario medio. Por esta razón, la mayor parte de estas herramientas de consulta han incorporado la posibilidad de plantear preguntas en «lenguaje natural», la ordenación de los resultados según su relevancia, la ponderación de los términos de la consulta dependiendo de los intereses del usuario, la búsqueda mediante ejemplos y la ayuda en la formulación de las preguntas (Croft, 1995). Aunque la aplicación de estas técnicas avanzadas en el entorno de la W3 no es uniforme ni se ciñe a un único modelo preestablecido, todas las herramientas de búsqueda hacen uso de métodos de equiparación parcial o partial match .

Otra posibilidad de extensión de las búsquedas es el truncamiento implícito ( stemming ) o reducción automática de los términos de búsqueda a su raíz, basado en la premisa de que los términos similares morfológicamente lo son también semánticamente. Sin embargo, si esta prestación no se aplica adecuadamente, puede dar lugar a un elevado ruido documental. Por otro lado, la asignación automática o humana de descriptores, en forma de términos, categorías temáticas o símbolos de clasificación, representa una opción más a la equiparación exacta de palabras. Muchos son los directorios en la W3, como Yahoo, que siguen este método ofreciendo acceso a documentos web a partir de listas alfabéticas precoordinadas de encabezamientos de materias.

Sin embargo, y ante el uso generalizado de técnicas avanzadas de recuperación, en ocasiones se añora la capacidad de búsqueda mediante coincidencia exacta o exact match entre el enunciado de búsqueda y palabras o expresiones contenidas en el documento, puesto que, quizá, sea eso precisamente lo que, en muchos casos, pueda satisfacer las necesidades de los usuarios (Hahn, 1998). Belkin (1995) señala, por el contrario, que en determinadas circunstancias y pese a todos los defectos de las búsquedas booleanas, éstas pueden ser tan aconsejables como la búsqueda best-match, aunque admite que lo más adecuado sería una combinación de ambas, ya que hay estudios que demuestran que el uso de diferentes tipos de representación de las preguntas incrementa la efectividad de la recuperación.

c) Capacidad de aprendizaje

Los robots que rastrean la red pertenecen a un tipo de programas informáticos denominados agentes, es decir, son aplicaciones que pueden trabajar de forma autónoma y realizar actividades sin la supervisión directa de los humanos, de ahí que se les atribuya un cierto grado de «inteligencia» e «independencia» en el desarrollo de ciertas tareas. Algunos sistemas, sobre todo agentes de búsqueda personalizada, emplean el feedback de relevancia para mejorar su funcionamiento a través del tiempo. Partiendo de la relevancia determinada por los usuarios para los documentos recuperados en una primera búsqueda, el sistema pondera las palabras clave. Otras herramientas, como Direct Hit, utilizan la interacción con el usuario como medio para mejorar la relevancia. Este buscador trabaja «observando» y «registrando» el comportamiento de los usuarios en la realización de las búsquedas, de esta forma «aprende» y es capaz de ofrecer, cuando se le solicita, una lista donde las páginas se ordenan según su popularidad para los internautas. Direct Hit comprueba si anteriormente ya se ha hecho esa misma pregunta u otra parecida en el buscador y ordena los resultados según el número de usuarios que han preferido esas referencias, y las han consultado, de entre todos los resultados. Metabusca es otro de los sistemas que también sigue este método.

d) Sintaxis de la consulta ( input )

Dadas las ventajas que presentan para los internautas tanto los directorios temáticos, con índices navegables y organizados de recursos, como los buscadores, con grandes bases de datos e interesantes prestaciones de búsqueda, la tendencia actual se dirige a incorporar ambas posibilidades dentro de un mismo servicio. De esta forma, el browsing y la búsqueda basada en términos van hoy juntos y son la forma predominante de RI en Internet.

La mayor parte de los buscadores permiten formulaciones booleanas donde el usuario cuenta con un gran nivel de control lingüístico. También suelen permitir la búsqueda en lenguaje natural, lo que libera al usuario de tener que ejercer ese estrecho control. La búsqueda mediante ejemplos o query by example invita, además, a identificar documentos relevantes sobre los que basarse para mejorar la recuperación como la opción «más como éste» en Excite, aunque no siempre los criterios utilizados se hacen explícitos para los usuarios.

e) Coordinación de las búsquedas

La precoordinación es inherente a muchos de los servicios basados en directorios organizados mediante listados de materias o clasificaciones bibliotecarias, aunque esto último, con menor frecuencia. Muchos buscadores que efectúan las consultas mediante palabras clave ejecutan búsquedas postcoordinadas. Sin embargo, como se ha indicado, la mayor parte de estos sistemas ofrecen una combinación de pre y postcoordinación.

TENDENCIAS ACTUALES.

El inmenso volumen de información, la aparición de nuevos formatos, el creciente desarrollo de archivos multimedia y las diferentes «normas de etiquetado» para la identificación de objetos, causan problemas a los robots o agentes automáticos encargados de la localización de recursos en la W3. La naturaleza cambiante de Internet, el modo de funcionamiento de los robots, los programas de indización de documentos, las técnicas de recuperación utilizadas, así como el procedimiento de recopilación de datos seguido para la elaboración de directorios en la W3, siguen dificultando la localización de una ingente cantidad de información valiosa residente en la red.

Para paliar estos problemas, una de las tendencias que más claramente se observan en relación con la búsqueda de información es la aparición de numerosos buscadores temáticos y directorios especializados. Se trata de herramientas de consulta con bases de datos de menor tamaño pero que ofrecen resultados de búsqueda más ajustados a los intereses de los usuarios puesto que recopilan recursos de la W3 de un área de interés determinada. Las colecciones de buscadores como Buscopio o Tematicos ofrecen completos y actualizados listados de los buscadores y directorios existentes.

Por otra parte, la indización a texto completo llevada a cabo por los buscadores generales no permite incluir, entre otros: ficheros con formato de tipo PDF, servidores cuya consulta exige que el usuario se registre e identifique previamente, servicios que no muestran los datos directamente sino que solicitan un perfil o un enunciado de búsqueda específico, o ficheros gopher, ftp, telnet, de correo electrónico, etc.

Para superar esta limitación los buscadores siguen varias estrategias:

a) Incorporan nuevas prestaciones basándose principalmente en las extensiones del nombre de los ficheros y en el texto que extraen de estos recursos, por ejemplo:

Altavista permite realizar búsquedas mediante las etiquetas HTML image para búsqueda de imágenes y applet para búsqueda de aplicaciones Java .

Hotbot permite restringir la consulta a determinados tipos de archivos por ejemplo: imagen, Schockware, JavaScript, Java, audio, Acrobat, VBScript, ActiveX, video, VRM.

Lycos ofrece estrategias de recuperación especializadas en imágenes y sonidos basándose en el texto de las etiquetas y en el nombre de los ficheros.

b) Han desarrollado secciones especializadas para la búsqueda de diferentes tipos de recursos, así:

Altavista cuenta con un buscador de medios con más de 17 millones de imágenes consultables, clips de audio o archivos de películas, (http://image.altavista.com).

Lycos presenta una sección (http://mp3.lycos.com) con un buscador de archivos de música MP3 (MP3 Search).

Yahoo ! incluye un buscador de imágenes organizadas en categorías temáticas: arte, entretenimiento, ciencia, etc. (http://ipix.yahoo.com).

c) Sirven de punto de partida proporcionando enlaces hacia servicios especializados en la localización de este tipo de materiales, como:

Scour . net , un buscador y una guía para recursos multimedia en Internet: audio, video, imágenes y animaciones relativas a películas, música, radio, deportes y televisión, noticias y educación (http://www.scour.net).

Tile (http://tile.net) y Topica (http://www.topica.com): buscador de listas de correo electrónico o e - lists y de grupos de noticias o newsgroups .

Aunque el desarrollo de nuevos productos, métodos y estrategias para mejorar la búsqueda automatizada de información en la W3 continúa imparable, se está observando un creciente interés por potenciar servicios de búsqueda gestionado por expertos. Un ejemplo es el servicio gratuito ofrecido por HumanSearch (http://www.humansearch.com). En este caso no son las máquinas, sino especialistas humanos los que interpretan la necesidad de información del usuario, elaboran una ecuación de búsqueda que la represente, realizan la consulta en diferentes buscadores, analizan los resultados y los ordenan según su relevancia a la pregunta planteada. El gran éxito de esta idea debería conducir nuevamente a la reflexión sobre el papel de los intermediarios de la información en el universo de la red Internet.

LOS INTERMEDIARIOS DE LA INFORMACIÓN.

Internet está creando un inmenso número sin precedentes de usuarios noveles de sistemas complejos de información que están desarrollando nuevas formas de integrar las herramientas en red en su trabajo, estudio y entretenimiento diario (Nahl, 1998). A los usuarios de Internet normalmente se les considera usuarios finales aunque estos usuarios también incluyen a los propios creadores de información y la mayoría de los participantes en la infraestructura de información que dependen de Internet para ofrecer sus servicios (King, 1998). El concepto de usuario final queda difuminado en esta transmisión de información.

El crecimiento de publicaciones electrónicas en Internet, las iniciativas desarrolladas en torno a proyectos de bibliotecas digitales, el incontrolable y dinámico volumen de datos disponibles conducen a que los tradicionales servicios documentales de indización y resumen no sean suficientes para la búsqueda y recuperación de información en estas grandes bases de datos hipermedia. Con frecuencia se compara a Internet con una inmensa biblioteca mundial, la gran biblioteca virtual de la edad digital.

El continuo crecimiento de la W3 y su popularización hace que se haya afianzado como una nueva forma de comunicación. Los servicios de búsqueda de la W3 utilizan distintos métodos de indización, organización y acceso a la información. Pero la red, como se ha dicho, no es una biblioteca digital. Precisamente debido a esta circunstancia hay quien sigue viendo su futuro comprometido por tanta desorganización. Una de las grandes dificultades de un sistema descentralizado como Internet, donde cientos de ordenadores almacenan y aportan diferentes datos, documentos e interfaces es la recuperación de la información.
Quizá por esto llegue a ser necesario, e incluso imprescindible para mantener la vigencia y utilidad de este sistema, algo tan tradicional como los servicios bibliotecarios para organizar, ofrecer acceso y preservar la información en la red (Lynch, 1997). Pero aun en el caso de que esa perspectiva llegara a cumplirse, la red no se parecería a una biblioteca tradicional, porque sus contenidos seguirían estando mucho más dispersos que en una colección tradicional. Además, la tarea del actual gestor de información, acostumbrado a trabajar con una colección mucho más estable, está sufriendo una evolución para adaptarse a las peculiaridades de este nuevo medio, en el que hay muchos agentes implicados, y que no ha terminado de configurarse definitivamente.

La implicación del profesional de la información puede ser, por tanto, determinante para decidir el futuro de la red Internet como defienden las pretensiones más optimistas. Sin embargo, hasta el momento no se vislumbra claramente este futuro alentador. Para conseguirlo los documentalistas, como facilitadores e intermediarios de la información, deben formular nuevos planteamientos, nuevas soluciones, ofrecer servicios adecuados a un nuevo tipo de usuarios, ayudándoles a mitigar los problemas que se vienen produciendo y que van en aumento porque, cuanto mayor es la cantidad de información disponible, tanto más se multiplican los problemas de recuperación. Por eso se ofertan y funcionan en la red servicios para filtrar datos y ofrecer al usuario únicamente aquello que le interesa. Estos servicios ya tienen considerable éxito con relación a las noticias o news y, aunque en muchos casos prometen más de lo que ofrecen realmente, quizá constituyan la tendencia que observemos en el futuro, con versiones mejoradas. La solución a la saturación de información puede venir de la mano de servicios no gratuitos y que el usuario opte por pagar para recibir información de calidad filtrada y organizada óptimamente

CONCLUSIÓN:
Tras esta amplia visión de la situación actual de la indización en el mundo de la web 2.0, podemos delimitar varias conclusiones:
1.-Como resultado del análisis efectuado cabe preguntarse qué aportan las folksonomías a los profesionales de la documentación. Ante todo abren un campo para la innovación y la experimentación, constituyen una fuente terminológica de indudable valor. Su incorporación en los recursos documentales es una tendencia con futuro. Su utilización en las bibliotecas virtuales y los repositorios ha sido señalada por algunos autores (McGregor y McCulloch, 2006) como una oportunidad que permite conectar a los productores de servicios documentales con los usuarios y creadores de contenidos. Cabe esperar que su utilización se expanda y es necesario prestarles atención.

2.- Sin duda que esperanzador el mundo que se le facilita al documentalista para gestionar estos nuevos recursos a través de lenguajes no controlados, donde la labor profesional abre perspectivas de futuro que hay que saber aprovechar para ofrecer al usuario una información detallada de lo que busca y a la vez concreta.

3.- Un nuevo reto para los teóricos de la documentación, en aras de un estudio y delimitación pragmática de la realidad que estamos viviendo, y un acercamiento de la situación a unos postulados interesados en beneficio y desarrollo de una profesión abierta y a veces no delimitada ni conceptualmente en la realidad ni en la metodología universitaria de aprendizaje.

4.- Mentalidad pedagógica abierta a nuevas clasificaciones del conocimiento y de las materias que permitan abarcar todas las posibilidades de indización social, a través del aunamiento de todas las etiquetas sociales que se puedan producir.

5.- Y por último aportar a estas conclusiones sobre el papel de la indización en el infoescenario actual , que hay por delante un gran reto una vez más, que se le plantea a biblitecarios y documentalistas sobre su capacidad de ser los controladores de la situación social determinada y no dejarlo en aras de otras disciplinas, sabiendo aunar la multidisciplinaridad de la gestión metodológica.

http://www.marylink.net/post/2006/07/05/desconferencia-4-dias-despues-recuerar-productos-vs-objetos-

http://www.terremoto.net/tipologias-y-estlos-en-el-etiquetado-social/

TIRDC-NAUTAS

domingo, 17 de junio de 2012

LA INDIZACIÓN HOY

No hay comentarios:

Publicar un comentario