The present contribution illustrates the methodologies adopted for the training, on the Transkribus platform, of an experimental Handwritten Text Recognition (HTR) model, applied to a multilingual early modern handwritten text, Ripulimento della lingua sarda by Matteo Madau (18th century). The entire workflow is presented, including data preparation and document layout analysis, the creation of the Ground Truth, with particular attention to the methodology employed to ensure the coherence of the data used for training, the principles adopted for the selection of the base model and the initiation of the fine-tuning process. The results of the first training cycle are presented and evaluated through subsequent tests of the model on new pages not seen during training. The transcriptions obtained are analyzed in relation to the type and frequency of automatic recognition errors. This analysis allows for the evaluation of the actual performance of the model and to identify the major critical issues, useful for future training cycles aimed at improving its reliability.

Il contributo illustra le metodologie adottate per l’addestramento, tramite la piattaforma Transkribus, di un modello sperimentale di Handwritten Text Recognition (HTR) applicato a un manoscritto plurilingue di età moderna, il Ripulimento della lingua sarda di Matteo Madau (XVIII secolo). Viene riportato l’intero flusso di lavoro: preparazione dati e analisi del layout del documento; creazione della Ground Truth, con particolare attenzione alla metodologia impiegata per garantire la coerenza dei dati utili all’addestramento; criteri adottati per la selezione del modello base; avvio del processo di fine-tuning. I risultati del primo ciclo di addestramento sono presentati e valutati attraverso successivi test del modello su nuove pagine non viste durante l’addestramento. Le trascrizioni ottenute sono analizzate in relazione alla tipologia e alla frequenza degli errori di riconoscimento automatico. Tale analisi consente di misurare le effettive prestazioni del modello e di individuarne le principali criticità, in vista di futuri cicli di addestramento volti a migliorarne l’affidabilità.

Addestramento di un modello di HTR in Transkribus per testi plurilingui di età moderna: il caso del Ripulimento della lingua sarda (Madau)

Giulia Murgia;
2026-01-01

Abstract

The present contribution illustrates the methodologies adopted for the training, on the Transkribus platform, of an experimental Handwritten Text Recognition (HTR) model, applied to a multilingual early modern handwritten text, Ripulimento della lingua sarda by Matteo Madau (18th century). The entire workflow is presented, including data preparation and document layout analysis, the creation of the Ground Truth, with particular attention to the methodology employed to ensure the coherence of the data used for training, the principles adopted for the selection of the base model and the initiation of the fine-tuning process. The results of the first training cycle are presented and evaluated through subsequent tests of the model on new pages not seen during training. The transcriptions obtained are analyzed in relation to the type and frequency of automatic recognition errors. This analysis allows for the evaluation of the actual performance of the model and to identify the major critical issues, useful for future training cycles aimed at improving its reliability.
2026
9791298618817
Il contributo illustra le metodologie adottate per l’addestramento, tramite la piattaforma Transkribus, di un modello sperimentale di Handwritten Text Recognition (HTR) applicato a un manoscritto plurilingue di età moderna, il Ripulimento della lingua sarda di Matteo Madau (XVIII secolo). Viene riportato l’intero flusso di lavoro: preparazione dati e analisi del layout del documento; creazione della Ground Truth, con particolare attenzione alla metodologia impiegata per garantire la coerenza dei dati utili all’addestramento; criteri adottati per la selezione del modello base; avvio del processo di fine-tuning. I risultati del primo ciclo di addestramento sono presentati e valutati attraverso successivi test del modello su nuove pagine non viste durante l’addestramento. Le trascrizioni ottenute sono analizzate in relazione alla tipologia e alla frequenza degli errori di riconoscimento automatico. Tale analisi consente di misurare le effettive prestazioni del modello e di individuarne le principali criticità, in vista di futuri cicli di addestramento volti a migliorarne l’affidabilità.
Transkribus; HTR; Ground Truth; Fine-tuning; Multilingual text; Sardinian language; Sardinian philology; Sardinian linguistics; Matteo Madau
Transkribus; HTR; Ground Truth; Fine-tuning; Testo multilingue; Lingua sarda; Filologia sarda; Linguistica sarda; Matteo Madau
File in questo prodotto:
File Dimensione Formato  
Incollu,+Murgia+2026.+Addestramento+di+un+modello+di+HTR+in+Transkribus_compressed.pdf

accesso aperto

Tipologia: versione editoriale (VoR)
Dimensione 408.12 kB
Formato Adobe PDF
408.12 kB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11584/485066
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact