Entrades amb la paraula clau ‘Materials i tècniques’

La tècnica d’identificació i indexació automàtica de paraules en textos manuscrits

M. Rath, S. Kane, A. Lehman, E. Partridge i R. Manmatha, Indexing for a Digital Library of George Washington’s Manuscripts – A Study of Word Matching Techniques. CIIR Technical Report MM-36, 2002 [Data de consulta: 2010] [Disponible a: <http://ciir.cs.umass.edu/pubfiles/mm-36.pdf> ]

Toni M. Rath, Victor Lavrenko i R. Manmatha. Handwriting Retrieval Demonstrations : Introduction and Instructions [en línia]. Center for Intelligent Information Retrieval. University of Massachusetts Amherst. [Data de consulta: 16 de juliol de 2010] Disponibilitat a: <http://ciir.cs.umass.edu/cgi-bin/irdemo/handwriting-demo/retrieve_1word.pl>

Un dels manuscrits de George Washington

Un dels manuscrits de George Washington

Hi ha moltes obres manuscrites que podrien ser molt útils indexades per tal de poder recuperar-les fàcil i ràpidament. Malauradament l’ingent volum de manuscrits custodiats per els arxius i biblioteques i l’obligatorietat de realitzar les indexacions manualment comporten una inversió en recursos econòmics i humans que pocs centres estan disposats a assumir.

La tècnica d’identificació automàtica de paraules en textos manuscrits, en anglès word spotting, és l’àmpliament conegut OCR (reconeixement òptic dels caràcters) aplicat a la lletra a mà alçada. La dificultat en el canvi de la lletra tipogràfica a la lletra cal·ligràfica rau en la complexitat i la diversitat de cal·ligrafies existents, ja no tant sols per èpoques sinó també segons cada persona, la seva edat o fins i tot a l’estat d’ànim en que es trobi.

Els estudis de R. Manmatha, M. Rath, S. Kane, A. Lehman i E. Partridge s’han basat en els manuscrits de George Washington triant-ne trenta imatges escollides aleatòriament dins les diferents seccions del fons amb un corpus de sis mil quatre-centes imatges.

La teoria:

Word Spotting és un projecte que desenvolupa un software on cada document escanejat se segmenta en paraules semi-automàticament generant un llistat de paraules que es contrasten les unes amb les altres. Posteriorment l’indexador revisa i assigna un codi ASCII a cada imatge i finalment s’acaba creant un document que posteriorment servirà per indexar-ne automàticament de nous. Fins el moment, els programes dissenyats per a interpretar els textos partien d’una base manuscrita on tots els caràcters seguien els mateixos patrons però la gran majoria tant sols havien estat testats en mostres artificials sense els problemes de llegibilitat degut a l’envelliment o la degradació com ara la pèrdua d’elements sustentats, l’esvaïment de les tintes, les taques, els excrements d’animals o insectes…

En el sistema desenvolupat pels científics del Computer Science Department de la University of Massachusetts es basa en la segmentació de les paraules segons el procés cognitiu humà al detectar i segmentar els textos. Els autors expliquen que si partim d’una imatge original i es poleix successivament s’obté un marc ideal que es pot emprar posteriorment en l’anàlisi dels documents. L’algoritme que segueix el sistema per a separar les línies del document determina les variacions del gris de la imatge i vectorialment delimita les zones de text línia per línia eliminant el “soroll” de taques i d’altres. Un cop la línia està delimitada se n’extreu paraula a paraula i finalment cada lletra.

Els resultats:

Podem realitzar cerques sobre aquest corpus de 400 imatges indexades a http://ciir.cs.umass.edu/cgi-bin/irdemo/handwriting-demo/retrieve_1word.pl:

  1. Introduïm la paraula, en anglès, que volem cercar dins dels manuscrits, per exemple soldier ja que hem de tenir en compte les limitacions que impliquen 30 manuscrits i per tant cenyir-nos una mica en el context històric
  2. La pàgina de resultats ens mostra:
    1. Una barra de color blau que indica la probabilitat que la paraula que cerquem es correspongui a la imatge mostrada. Com més documents hi hagi indexats (i per tant més revisions fetes) menor serà el marge d’error entre terme-imatge.
    2. El número de resultat.
    3. La imatge sencera, que es pot ampliar fent clic.
    4. 5 paraules: les dues que precedeixen dins la frase a la paraula que hem cercat, la nostra paraula i les dues paraules predecessores, d’aquesta manera ens podem imaginar el context.
  3. Si cliquem sobre alguna d’aquestes 5 paraules se’ns mostrarà la imatge de la pàgina amb la paraula que hem clicat emmarcada per tal de poder localitzar-la ràpidament dins del text manuscrit.

L’opinió:

L’estalvi de recursos, tant humans com econòmics, a llarg termini que aquest projecte permet és, a la vegada, la clau a l’accés a certa informació que fins ara estava vetada al públic general. Poder accedir a la correspondència de determinat personatge públic històric o simplement per part dels professionals historiadors, documentalistes… recuperar fàcilment una informació anteriorment exclosa de consulta per raons de conservació és un avenç que calia ja que digitalitzar sense atorgar valor afegit no era una bona solució. En aquest projecte es reflecteix el treball interdisciplinari d’informàtics, documentalistes, paleògrafs i historiadors. Tècnicament cal millorar encara en la indexació i recuperació de la informació tant intrínsecament com des de la perspectiva de l’usuari millorant-ne la interfície de consulta i recuperació per tal que aquest se senti més còmode i sigui més usable.
.

16

07 2010

La tècnica japonesa del Shigokebake per a fer l’engrut

Blasi, Berta La tècnica japonesa del Shigokebake per a fer l’engrut [en línea]. Berta Blasi conservació – restauració de document gràfic, 2010. [Data de consulta 2 de juny de 2010] Disponible a <http://bertablasi.com/bibliografia/tecnica-japonesa-shigokebake-engrut>

L’engrut és una de les coles que més s’utilitza en la restauració de paper per ser una cola natural,  estable i reversible en aigua. Malgrat que a l’estat espanyol és més freqüent encolar amb hidroximetilcel·lulòsiques, a nivell europeu, estatunidenc i asiàtic l’engrut és el producte més habitual. Aquesta cola d’origen vegetal procedeix del midó d’arròs o de blat i es cou amb aigua en una proporció 1:4 fins que adquireix un aspecte de salsa espessa i el seu color blanc vira fins als reflexes blavosos. Un cop refredat l’engrut es torna gelatinós i ja té caràcter adhesiu podent-se fer servir directament. Aquesta consistència gelatinosa és, òbviament, poc fluïda i incòmoda de manipular amb el pinzell i provoca sovint l’aparició de grumolls; per trencar-ne l’estructura i aconseguir una pasta fluïda al Japó es va desenvolupar fa segles la tècnica del Shigokebake.

Com elaborar engrut amb la tècnica del Shigokebake:

Passar l'engrut pel Nori-koshi

Passar l'engrut pel Nori-koshi

Es col·loca el Nori-koshi dins del Noribon i, amb l’espàtula de bambú, es pressiona l’engrut per fer-lo passar per la tela del cedàs fent-lo caure dins del Noribon, així els grumolls resultants de la cocció del midó són filtrats donant lloc a una massa més pura.

El següent pas és fer un “massatge” Shigokebake a la massa amb la brotxa Nadebake, separant les partícules de l’engrut i trencant la consistència gelatinosa. Un cop amassat l’engrut, s’hi afegeix una mica d’aigua i amb la Nadebake s’emulsiona fins a trobar la textura adeqüada: més espessa per encolar o més líquida per laminar. S’ha d’anar amb compte en aquest procés i afegir l’aigua de mica en mica per tal que la massa la pugui absorbir, si no fos així es correria el risc de provocar aurèoles al paper al aplicar-hi la cola per consolidar.

La tècnica del shigokebake i l'engrut a punt per ser utilitzat

La tècnica del shigokebake i l'engrut a punt per ser utilitzat

Paraules clau:

18

06 2010