{"id":760,"date":"2010-07-16T11:00:20","date_gmt":"2010-07-16T10:00:20","guid":{"rendered":"http:\/\/bertablasi.com\/?p=760"},"modified":"2010-07-16T11:00:20","modified_gmt":"2010-07-16T10:00:20","slug":"identificacio-indexacio-automatica-manuscrits","status":"publish","type":"post","link":"https:\/\/bertablasi.com\/es\/identificacio-indexacio-automatica-manuscrits\/","title":{"rendered":"La t\u00e9cnica de identificaci\u00f3n e indizaci\u00f3n autom\u00e1tica de palabras en textos manuscritos"},"content":{"rendered":"<p><\/p>\n<blockquote><p><strong>M. Rath, S. Kane, A. Lehman, E. Partridge i R. Manmatha<\/strong>, <em>Indexing for a Digital Library of George Washington&#8217;s Manuscripts &#8211; A Study of Word Matching Techniques<\/em>. CIIR Technical Report MM-36, 2002 [Fecha de consulta: 2010] [Disponible en: &lt;<a title=\"Indexing for Digital Library of George Washington's Manuscripts - A Sutry of Word Matching Techniques\" href=\"http:\/\/ciir.cs.umass.edu\/pubfiles\/mm-36.pdf\" target=\"_blank\" rel=\"noopener\">http:\/\/ciir.cs.umass.edu\/pubfiles\/mm-36.pdf<\/a>&gt; ]<\/p>\n<p><strong>Toni M. Rath, Victor Lavrenko i R. Manmatha.<\/strong><em> Handwriting Retrieval Demonstrations : Introduction and Instructions<\/em> [en l\u00ednia]. Center for Intelligent Information Retrieval. University of Massachusetts Amherst. [Fecha de consulta: 16 de julio de 2010] Disponibilidad en: &lt;<a title=\"Handwriting Retrieval Demostrations: Introduction and Instructions\" href=\"http:\/\/ciir.cs.umass.edu\/cgi-bin\/irdemo\/handwriting-demo\/retrieve_1word.pl\" target=\"_blank\" rel=\"noopener\">http:\/\/ciir.cs.umass.edu\/cgi-bin\/irdemo\/handwriting-demo\/retrieve_1word.pl<\/a>&gt;<\/p><\/blockquote>\n<p><a href=\"http:\/\/bertablasi.com\/wp-content\/uploads\/2010\/06\/manuscrit.jpg\"><img decoding=\"async\" class=\"lazyload size-full wp-image-766 alignleft\" title=\"Un dels manuscrits de George Washington\" alt=\"Un dels manuscrits de George Washington\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27200%27%20height%3D%27150%27%20viewBox%3D%270%200%20200%20150%27%3E%3Crect%20width%3D%27200%27%20height%3D%27150%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"http:\/\/bertablasi.com\/wp-content\/uploads\/2010\/06\/manuscrit.jpg\" width=\"200\" height=\"150\" \/><\/a><\/p>\n<p>Hay muchas obras manuscritas que podr\u00edan ser muy \u00fatiles indexadas para poder recuperarlas f\u00e1cil y r\u00e1pidamente. Desgraciadamente el ingente volumen de manuscritos custodiados por los archivos y bibliotecas y la obligatoriedad de realizar las indexaciones manualmente conllevan una inversi\u00f3n en recursos econ\u00f3micos y humanos que pocos centros est\u00e1n dispuestos a asumir.<\/p>\n<p>La t\u00e9cnica de identificaci\u00f3n autom\u00e1tica de palabras en textos manuscritos, en ingl\u00e9s word spotting, es el ampliamente conocido OCR (reconocimiento \u00f3ptico de caracteres) aplicado a la letra a mano alzada. La dificultad en el cambio de la letra tipogr\u00e1fica a la letra caligr\u00e1fica radica en la complejidad y la diversidad de caligraf\u00edas existentes, ya no s\u00f3lo por \u00e9pocas sino tambi\u00e9n seg\u00fan cada persona, su edad o incluso a la estado de \u00e1nimo en que se encuentre.<\/p>\n<p>Los estudios de R. Manmatha, M. Rath, S. Kane A. Lehman y E. Partridge se han basado en los manuscritos de George Washington eligiendo los treinta im\u00e1genes escogidas aleatoriamente dentro de las diferentes secciones del fondo con un corpus de seis mil cuatrocientas im\u00e1genes.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>La teor\u00eda:<\/strong><\/p>\n<p><em>Word Spotting<\/em> es un proyecto que desempe\u00f1a un software donde cada documento escaneado se segmenta en palabras semi-autom\u00e1ticamente generando un listado de palabras se contrastan las unas con las otras. Posteriormente el indexador revisa y asignar\u00e1 un c\u00f3digo ASCII en cada imagen y finalmente termina creando un documento que posteriormente servir\u00e1 para indexar su autom\u00e1ticamente nuevos. Hasta el momento, los programas dise\u00f1ados para interpretar los textos part\u00edan de una base manuscrita donde todos los caracteres segu\u00edan los mismos patrones pero la gran mayor\u00eda s\u00f3lo hab\u00edan sido testados en muestras artificiales sin los problemas de legibilidad debido al envejecimiento o la degradaci\u00f3n como la p\u00e9rdida de elementos sustentados, el desvanecimiento de las tintas, las manchas, los excrementos de animales o insectos &#8230;<\/p>\n<p>En el sistema desarrollado por los cient\u00edficos del <em>Computer Science Department <\/em>de la <em>University of Massachusetts<\/em> se basa en la segmentaci\u00f3n de las palabras seg\u00fan el proceso cognitivo humano al detectar e segmentar los textos. Los autores explican que partiendo de una imagen original y se pule sucesivamente obtiene una marco ideal que se puede emplear posteriormente en el an\u00e1lisis de los documentos. El algoritmo que sigue el sistema en separar las l\u00edneas del documento determina las variaciones del gris de la imagen y vectorialmente delimita las zonas de texto l\u00ednea por l\u00ednea eliminando el \u00abruido\u00bb de manchas y otros. Una vez que la l\u00ednea est\u00e1 delimitada se extrae palabra a palabra y finalmente cada letra.<\/p>\n<p><strong>Los resultados:<\/strong><\/p>\n<p>Podemos realizar b\u00fasquedas sobre este corpus de 400 im\u00e1genes indizadas en\u00a0<a title=\"Handwriting Retrieval Demostrations: Introduction and  Instructions\" href=\"http:\/\/ciir.cs.umass.edu\/cgi-bin\/irdemo\/handwriting-demo\/retrieve_1word.pl\" target=\"_blank\" rel=\"noopener\">http:\/\/ciir.cs.umass.edu\/cgi-bin\/irdemo\/handwriting-demo\/retrieve_1word.pl<\/a><\/p>\n<ol>\n<li>Introducimos la palabra, en ingl\u00e9s, que queremos buscar dentro de los manuscritos, por ejemplo soldier ya que debemos tener en cuenta las limitaciones que implican 30 manuscritos y por tanto ce\u00f1irnos un poco en el contexto hist\u00f3rico<\/li>\n<li>La p\u00e1gina de resultados muestra:\n<ol>\n<li>Una barra de color azul que indica la probabilidad de que la palabra que buscamos se corresponda a la imagen mostrada. Cuanto m\u00e1s documentos haya indexados (y por tanto m\u00e1s revisiones hechas) menor ser\u00e1 el margen de error entre t\u00e9rmino-imagen.<\/li>\n<li>El n\u00famero de resultado.<\/li>\n<li>La imagen entera, que se puede ampliar haciendo clic.<\/li>\n<li>5 palabras: las dos que preceden en la frase a la palabra que hemos buscado, la nuestra palabra y las dos palabras predecesoras, de esta manera nos podemos imaginar el contexto.<\/li>\n<\/ol>\n<\/li>\n<li>Si pulsamos sobre alguna de estas 5 palabras nos mostrar\u00e1 la imagen de la p\u00e1gina con la palabra que hemos pulsado enmarcada para poder localizarla r\u00e1pidamente en el texto manuscrito.<\/li>\n<\/ol>\n<p><strong>La opini\u00f3n:<\/strong><\/p>\n<p>El ahorro de recursos, tanto humanos como econ\u00f3micos a largo plazo que este proyecto permite es, a la vez, la clave en el acceso a cierta informaci\u00f3n que hasta ahora estaba vetada al p\u00fablico general. Poder acceder a la correspondencia de determinado personaje p\u00fablico hist\u00f3rico o simplemente por parte de los profesionales historiadores, documentalistas &#8230; recuperar f\u00e1cilmente una informaci\u00f3n anteriormente excluida de consulta por razones de conservaci\u00f3n es un avance que hab\u00eda ya que digitalizar sin otorgar valor a\u00f1adido no era una buena soluci\u00f3n. En este proyecto se refleja el trabajo interdisciplinario de inform\u00e1ticos, documentalistas, pale\u00f3grafos e historiadores. T\u00e9cnicamente hay que mejorar todav\u00eda en la indexaci\u00f3n y recuperaci\u00f3n de la informaci\u00f3n tanto intr\u00ednsecamente como desde la perspectiva del usuario mejorando la interfaz de consulta y recuperaci\u00f3n para que \u00e9ste se sienta m\u00e1s c\u00f3modo y sea m\u00e1s usable.<br \/>\n.<\/p>","protected":false},"excerpt":{"rendered":"<p>M. Rath, S. Kane, A. Lehman, E. Partridge i R.  [&#8230;]<\/p>\n","protected":false},"author":3,"featured_media":766,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[67,83],"tags":[80,81,82],"class_list":["post-760","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-publicacions","category-tic","tag-digitalitzacio","tag-indexacio","tag-manuscrits"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/posts\/760","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/comments?post=760"}],"version-history":[{"count":0,"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/posts\/760\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/media\/766"}],"wp:attachment":[{"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/media?parent=760"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/categories?post=760"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bertablasi.com\/es\/wp-json\/wp\/v2\/tags?post=760"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}