Larramendiren "Hiztegi Hirukoitza"ren digitalizazioa. Karaktereen ezagutze optikoa eta "Wikiteka"ra igotzea

Alonso Arrospide, Mikel; Lindemann , David

Larramendiren "Hiztegi Hirukoitza"ren digitalizazioa. Karaktereen ezagutze optikoa eta "Wikiteka"ra igotzea

Authors

Abstract

Artikulu honetan Larramendiren Hiztegi Hirukoitzaren digitalizazioko OCR prozesua deskribatzenda, ikasketa automatikoa baliatuz. Horretarako, irudien tratamendua deskribatu eta eskuztranskribatutako laginetik abiatuta testua ezagutuko duen ereduaren trebakuntza azaltzen da. EmaitzakWikiteka plataforman eskuragarri daudenez, auzolanaz transkripzio osoa zuzendutakoan informazioerauzketa prozesutik pasako da hiztegiaren egitura lexikografikoa ikasketa automatikoz erauzteko.
In this article, we describe the OCR process using machine learning in the digitization ofLarramendi’s Diccionario Trilingüe. For this purpose, the treatment of images is described and thetraining of the model from the transcribed sample that will recognize the text. As the results areavailable on the Wikisource platform, the transcription can be corrected using crowdsourcing, so thatwe can carry out the information extraction process using machine learning to extract thelexicographic structure of the dictionary.

Keywords

hiztegi historikoak, Larramendi, OCR, ikasketa automatikoa, Wikiteka, historical dictionaries, Larramendi, OCR, machine learning, Wikisource

URI

https://gordailua.ueu.eus/handle/123456789/2539

Collections

Ikergazte

Full item page

Larramendiren "Hiztegi Hirukoitza"ren digitalizazioa. Karaktereen ezagutze optikoa eta "Wikiteka"ra igotzea

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections