La técnica de identificación e indización automática de palabras en textos manuscritos

M. Rath, S. Kane, A. Lehman, E. Partridge i R. Manmatha, Indexing for a Digital Library of George Washington’s Manuscripts – A Study of Word Matching Techniques. CIIR Technical Report MM-36, 2002 [Fecha de consulta: 2010] [Disponible en: <http://ciir.cs.umass.edu/pubfiles/mm-36.pdf> ]

Toni M. Rath, Victor Lavrenko i R. Manmatha. Handwriting Retrieval Demonstrations : Introduction and Instructions [en línia]. Center for Intelligent Information Retrieval. University of Massachusetts Amherst. [Fecha de consulta: 16 de julio de 2010] Disponibilidad en: <http://ciir.cs.umass.edu/cgi-bin/irdemo/handwriting-demo/retrieve_1word.pl>

Un dels manuscrits de George Washington

Hay muchas obras manuscritas que podrían ser muy útiles indexadas para poder recuperarlas fácil y rápidamente. Desgraciadamente el ingente volumen de manuscritos custodiados por los archivos y bibliotecas y la obligatoriedad de realizar las indexaciones manualmente conllevan una inversión en recursos económicos y humanos que pocos centros están dispuestos a asumir.

La técnica de identificación automática de palabras en textos manuscritos, en inglés word spotting, es el ampliamente conocido OCR (reconocimiento óptico de caracteres) aplicado a la letra a mano alzada. La dificultad en el cambio de la letra tipográfica a la letra caligráfica radica en la complejidad y la diversidad de caligrafías existentes, ya no sólo por épocas sino también según cada persona, su edad o incluso a la estado de ánimo en que se encuentre.

Los estudios de R. Manmatha, M. Rath, S. Kane A. Lehman y E. Partridge se han basado en los manuscritos de George Washington eligiendo los treinta imágenes escogidas aleatoriamente dentro de las diferentes secciones del fondo con un corpus de seis mil cuatrocientas imágenes.

 

La teoría:

Word Spotting es un proyecto que desempeña un software donde cada documento escaneado se segmenta en palabras semi-automáticamente generando un listado de palabras se contrastan las unas con las otras. Posteriormente el indexador revisa y asignará un código ASCII en cada imagen y finalmente termina creando un documento que posteriormente servirá para indexar su automáticamente nuevos. Hasta el momento, los programas diseñados para interpretar los textos partían de una base manuscrita donde todos los caracteres seguían los mismos patrones pero la gran mayoría sólo habían sido testados en muestras artificiales sin los problemas de legibilidad debido al envejecimiento o la degradación como la pérdida de elementos sustentados, el desvanecimiento de las tintas, las manchas, los excrementos de animales o insectos …

En el sistema desarrollado por los científicos del Computer Science Department de la University of Massachusetts se basa en la segmentación de las palabras según el proceso cognitivo humano al detectar e segmentar los textos. Los autores explican que partiendo de una imagen original y se pule sucesivamente obtiene una marco ideal que se puede emplear posteriormente en el análisis de los documentos. El algoritmo que sigue el sistema en separar las líneas del documento determina las variaciones del gris de la imagen y vectorialmente delimita las zonas de texto línea por línea eliminando el “ruido” de manchas y otros. Una vez que la línea está delimitada se extrae palabra a palabra y finalmente cada letra.

Los resultados:

Podemos realizar búsquedas sobre este corpus de 400 imágenes indizadas en http://ciir.cs.umass.edu/cgi-bin/irdemo/handwriting-demo/retrieve_1word.pl

  1. Introducimos la palabra, en inglés, que queremos buscar dentro de los manuscritos, por ejemplo soldier ya que debemos tener en cuenta las limitaciones que implican 30 manuscritos y por tanto ceñirnos un poco en el contexto histórico
  2. La página de resultados muestra:
    1. Una barra de color azul que indica la probabilidad de que la palabra que buscamos se corresponda a la imagen mostrada. Cuanto más documentos haya indexados (y por tanto más revisiones hechas) menor será el margen de error entre término-imagen.
    2. El número de resultado.
    3. La imagen entera, que se puede ampliar haciendo clic.
    4. 5 palabras: las dos que preceden en la frase a la palabra que hemos buscado, la nuestra palabra y las dos palabras predecesoras, de esta manera nos podemos imaginar el contexto.
  3. Si pulsamos sobre alguna de estas 5 palabras nos mostrará la imagen de la página con la palabra que hemos pulsado enmarcada para poder localizarla rápidamente en el texto manuscrito.

La opinión:

El ahorro de recursos, tanto humanos como económicos a largo plazo que este proyecto permite es, a la vez, la clave en el acceso a cierta información que hasta ahora estaba vetada al público general. Poder acceder a la correspondencia de determinado personaje público histórico o simplemente por parte de los profesionales historiadores, documentalistas … recuperar fácilmente una información anteriormente excluida de consulta por razones de conservación es un avance que había ya que digitalizar sin otorgar valor añadido no era una buena solución. En este proyecto se refleja el trabajo interdisciplinario de informáticos, documentalistas, paleógrafos e historiadores. Técnicamente hay que mejorar todavía en la indexación y recuperación de la información tanto intrínsecamente como desde la perspectiva del usuario mejorando la interfaz de consulta y recuperación para que éste se sienta más cómodo y sea más usable.
.

Comentarios (2)

  1. Estefanía Parramón Teixidó - Responder

    07 de enero de 2011 at 17:55 05Fri, 07 Jan 2011 17:55:12 +000012.

    Hola Berta,

    Acabo de visualizar tu página web por primera vez y me ha parecido muy completa.

    Creo que estás ejerciendo un gran trabajo como conservadora-restauradora al divulgar tus conocimientos y al permitirnos un espacio en tu tiempo para resolver nuestras dudas.

    Es de gran ayuda tener a un profesional del campo dispuesto a cooperar y a entregarse con tal predisposición.

    Además creo que nos incita a darle mayor importancia a nuestro estudio, el del patrimonio, y a desarrollar un trabajo más implicado con todas aquellas disciplinas que van de la mano.

    Te felicito por estos esfuerzos. Espero que siempre tengas fuerzas para seguir llevándolo a cabo, ya que es una ardua tarea.

    Yo soy conservadora-restauradora especializada en arqueología, sé que son ramas que normalmente no confluyen tanto como nos gustaría, pero me alegraría poder brindarte mi apoyo si alguna vez lo requirieras.

    Un saludo cordial,

    Estefanía Parramón

    • Taller - Responder

      07 de enero de 2011 at 18:22 06Fri, 07 Jan 2011 18:22:44 +000044.

      Gracias Estefanía:

      Valoro mucho la gente que, como tu, no tiene reparos en compartir los conocimientos. Sólo trabajando abiertamente conseguiremos mejorar nuestras técnicas.
      Te tomo la palabra, seguiremos en contacto.
      Si te surge cualquier duda intentaré ayudarte en todo lo que esté en mis manos.

      Saludos,
      B.

Añade un Comentario

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies