La tècnica d’identificació i indexació automàtica de paraules en textos manuscrits

M. Rath, S. Kane, A. Lehman, E. Partridge i R. Manmatha, Indexing for a Digital Library of George Washington’s Manuscripts – A Study of Word Matching Techniques. CIIR Technical Report MM-36, 2002 [Data de consulta: 2010] [Disponible a: <http://ciir.cs.umass.edu/pubfiles/mm-36.pdf> ]
Toni M. Rath, Victor Lavrenko i R. Manmatha. Handwriting Retrieval Demonstrations : Introduction and Instructions [en línia]. Center for Intelligent Information Retrieval. University of Massachusetts Amherst. [Data de consulta: 16 de juliol de 2010] Disponibilitat a: <http://ciir.cs.umass.edu/cgi-bin/irdemo/handwriting-demo/retrieve_1word.pl>

Hi ha moltes obres manuscrites que podrien ser molt útils indexades per tal de poder recuperar-les fàcil i ràpidament. Malauradament l’ingent volum de manuscrits custodiats per els arxius i biblioteques i l’obligatorietat de realitzar les indexacions manualment comporten una inversió en recursos econòmics i humans que pocs centres estan disposats a assumir.

La tècnica d’identificació automàtica de paraules en textos manuscrits, en anglès word spotting, és l’àmpliament conegut OCR (reconeixement òptic dels caràcters) aplicat a la lletra a mà alçada. La dificultat en el canvi de la lletra tipogràfica a la lletra cal·ligràfica rau en la complexitat i la diversitat de cal·ligrafies existents, ja no tant sols per èpoques sinó també segons cada persona, la seva edat o fins i tot a l’estat d’ànim en que es trobi.

Els estudis de R. Manmatha, M. Rath, S. Kane, A. Lehman i E. Partridge s’han basat en els manuscrits de George Washington triant-ne trenta imatges escollides aleatòriament dins les diferents seccions del fons amb un corpus de sis mil quatre-centes imatges.

La teoria:

Word Spotting és un projecte que desenvolupa un software on cada document escanejat se segmenta en paraules semi-automàticament generant un llistat de paraules que es contrasten les unes amb les altres. Posteriorment l’indexador revisa i assigna un codi ASCII a cada imatge i finalment s’acaba creant un document que posteriorment servirà per indexar-ne automàticament de nous. Fins el moment, els programes dissenyats per a interpretar els textos partien d’una base manuscrita on tots els caràcters seguien els mateixos patrons però la gran majoria tant sols havien estat testats en mostres artificials sense els problemes de llegibilitat degut a l’envelliment o la degradació com ara la pèrdua d’elements sustentats, l’esvaïment de les tintes, les taques, els excrements d’animals o insectes…

En el sistema desenvolupat pels científics del Computer Science Department de la University of Massachusetts es basa en la segmentació de les paraules segons el procés cognitiu humà al detectar i segmentar els textos. Els autors expliquen que si partim d’una imatge original i es poleix successivament s’obté un marc ideal que es pot emprar posteriorment en l’anàlisi dels documents. L’algoritme que segueix el sistema per a separar les línies del document determina les variacions del gris de la imatge i vectorialment delimita les zones de text línia per línia eliminant el “soroll” de taques i d’altres. Un cop la línia està delimitada se n’extreu paraula a paraula i finalment cada lletra.

Els resultats:

Podem realitzar cerques sobre aquest corpus de 400 imatges indexades a http://ciir.cs.umass.edu/cgi-bin/irdemo/handwriting-demo/retrieve_1word.pl:

Introduïm la paraula, en anglès, que volem cercar dins dels manuscrits, per exemple soldier ja que hem de tenir en compte les limitacions que impliquen 30 manuscrits i per tant cenyir-nos una mica en el context històric
La pàgina de resultats ens mostra:
1. Una barra de color blau que indica la probabilitat que la paraula que cerquem es correspongui a la imatge mostrada. Com més documents hi hagi indexats (i per tant més revisions fetes) menor serà el marge d’error entre terme-imatge.
2. El número de resultat.
3. La imatge sencera, que es pot ampliar fent clic.
4. 5 paraules: les dues que precedeixen dins la frase a la paraula que hem cercat, la nostra paraula i les dues paraules predecessores, d’aquesta manera ens podem imaginar el context.
Si cliquem sobre alguna d’aquestes 5 paraules se’ns mostrarà la imatge de la pàgina amb la paraula que hem clicat emmarcada per tal de poder localitzar-la ràpidament dins del text manuscrit.

L’opinió:

L’estalvi de recursos, tant humans com econòmics, a llarg termini que aquest projecte permet és, a la vegada, la clau a l’accés a certa informació que fins ara estava vetada al públic general. Poder accedir a la correspondència de determinat personatge públic històric o simplement per part dels professionals historiadors, documentalistes… recuperar fàcilment una informació anteriorment exclosa de consulta per raons de conservació és un avenç que calia ja que digitalitzar sense atorgar valor afegit no era una bona solució. En aquest projecte es reflecteix el treball interdisciplinari d’informàtics, documentalistes, paleògrafs i historiadors. Tècnicament cal millorar encara en la indexació i recuperació de la informació tant intrínsecament com des de la perspectiva de l’usuari millorant-ne la interfície de consulta i recuperació per tal que aquest se senti més còmode i sigui més usable.
.

16 de juliol 2010

La tècnica d’identificació i indexació automàtica de paraules en textos manuscrits

Comparteix aquesta pàgina a les xarxes socials!