UNICA IRIS Institutional Research Information System

The present contribution illustrates the methodologies adopted for the training, on the Transkribus platform, of an experimental Handwritten Text Recognition (HTR) model, applied to a multilingual early modern handwritten text, Ripulimento della lingua sarda by Matteo Madau (18th century). The entire workflow is presented, including data preparation and document layout analysis, the creation of the Ground Truth, with particular attention to the methodology employed to ensure the coherence of the data used for training, the principles adopted for the selection of the base model and the initiation of the fine-tuning process. The results of the first training cycle are presented and evaluated through subsequent tests of the model on new pages not seen during training. The transcriptions obtained are analyzed in relation to the type and frequency of automatic recognition errors. This analysis allows for the evaluation of the actual performance of the model and to identify the major critical issues, useful for future training cycles aimed at improving its reliability.

Il contributo illustra le metodologie adottate per l’addestramento, tramite la piattaforma Transkribus, di un modello sperimentale di Handwritten Text Recognition (HTR) applicato a un manoscritto plurilingue di età moderna, il Ripulimento della lingua sarda di Matteo Madau (XVIII secolo). Viene riportato l’intero flusso di lavoro: preparazione dati e analisi del layout del documento; creazione della Ground Truth, con particolare attenzione alla metodologia impiegata per garantire la coerenza dei dati utili all’addestramento; criteri adottati per la selezione del modello base; avvio del processo di fine-tuning. I risultati del primo ciclo di addestramento sono presentati e valutati attraverso successivi test del modello su nuove pagine non viste durante l’addestramento. Le trascrizioni ottenute sono analizzate in relazione alla tipologia e alla frequenza degli errori di riconoscimento automatico. Tale analisi consente di misurare le effettive prestazioni del modello e di individuarne le principali criticità, in vista di futuri cicli di addestramento volti a migliorarne l’affidabilità.

Addestramento di un modello di HTR in Transkribus per testi plurilingui di età moderna: il caso del Ripulimento della lingua sarda (Madau)

Giulia Murgia;Michela Incollu

2026-01-01

Abstract

The present contribution illustrates the methodologies adopted for the training, on the Transkribus platform, of an experimental Handwritten Text Recognition (HTR) model, applied to a multilingual early modern handwritten text, Ripulimento della lingua sarda by Matteo Madau (18th century). The entire workflow is presented, including data preparation and document layout analysis, the creation of the Ground Truth, with particular attention to the methodology employed to ensure the coherence of the data used for training, the principles adopted for the selection of the base model and the initiation of the fine-tuning process. The results of the first training cycle are presented and evaluated through subsequent tests of the model on new pages not seen during training. The transcriptions obtained are analyzed in relation to the type and frequency of automatic recognition errors. This analysis allows for the evaluation of the actual performance of the model and to identify the major critical issues, useful for future training cycles aimed at improving its reliability.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2026
			
	Codice ISBN
	
				9791298618817
			
	Abstract
	
				Il contributo illustra le metodologie adottate per l’addestramento, tramite la piattaforma Transkribus, di un modello sperimentale di Handwritten Text Recognition (HTR) applicato a un manoscritto plurilingue di età moderna, il Ripulimento della lingua sarda di Matteo Madau (XVIII secolo). Viene riportato l’intero flusso di lavoro: preparazione dati e analisi del layout del documento; creazione della Ground Truth, con particolare attenzione alla metodologia impiegata per garantire la coerenza dei dati utili all’addestramento; criteri adottati per la selezione del modello base; avvio del processo di fine-tuning. I risultati del primo ciclo di addestramento sono presentati e valutati attraverso successivi test del modello su nuove pagine non viste durante l’addestramento. Le trascrizioni ottenute sono analizzate in relazione alla tipologia e alla frequenza degli errori di riconoscimento automatico. Tale analisi consente di misurare le effettive prestazioni del modello e di individuarne le principali criticità, in vista di futuri cicli di addestramento volti a migliorarne l’affidabilità.
			
	Parole chiave
	
				Transkribus; HTR; Ground Truth; Fine-tuning; Multilingual text; Sardinian language; Sardinian philology; Sardinian linguistics; Matteo Madau
			
	Parole chiave
	
				Transkribus; HTR; Ground Truth; Fine-tuning; Testo multilingue; Lingua sarda; Filologia sarda; Linguistica sarda; Matteo Madau
			
	Tipologia:
	
				2.1 Contributo in volume (Capitolo o Saggio)

File in questo prodotto:

File	Dimensione	Formato
Incollu,+Murgia+2026.+Addestramento+di+un+modello+di+HTR+in+Transkribus_compressed.pdf accesso aperto Tipologia: versione editoriale (VoR) Dimensione 408.12 kB Formato Adobe PDF Visualizza/Apri	408.12 kB	Adobe PDF	Visualizza/Apri

I metadati presenti in IRIS UNICA sono rilasciati con licenza Creative Commons CC0 1.0 Universal, mentre i file delle pubblicazioni sono protetti da diritto d'autore, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11584/485066

Citazioni

ND

ND

ND

ND

social impact