Komputila legado de manskribitaj dokumentoj (OCR)

8 views
Skip to first unread message

Roland Rotsaert

unread,
Feb 16, 2025, 12:45:53 PMFeb 16
to bibli...@googlegroups.com, Albert Claesen
Karaj,

Antaŭ kelkaj tagoj amiko atentigis min pri www.handwritingocr.com.

Mi sciis ke dum la pasintaj jaroj en Flandrio kaj Nederlando okazis
eksperimentoj por komputile legi historiajn manskribitajn dokumentojn
kaj ke la rezultoj estas bonaj ĝis tre bonaj, sed mi mem ne partoprenis.
Mi nenion sciis pri similaj projektoj eksterlande, nek pri
www.handwritingocr.com.

Hazarde mi havis dupaĝan nuntempan nederlandlingvan tekston ĉemane kiun
mi intencis tajpi en komputilon. Mi uzis la oferton je
https://www.handwritingocr.com/#pricing por senpage testi kvin paĝojn.
La rezulto efektive estas bona: serio da malgrandaj eraroj, nur du
gravaj eraroj (miksigo de frazoj).

Ĵus mi uzis la restantan krediton por legigi tri poŝtkartojn. Mi aldonas
la rezultojn. Mi scivolemis pri la karto 'debr39v': densa skribita,
parte turnita sed tamen sufiĉe bona. Surprize: la sistemo konas la
E-supersignojn. Mi ankaŭ aldonas du seriojn de leteroj per kiu aliaj
povas eksperimenti.

***

Post la unua testo handwritingocr.com petis mian opinion. Mi respondis,
aldonante ke mi verŝajne nur malofte bezonos ĝiajn servojn, kaj se
tamen, estos por esperantaj tekstoj. Revenis peto por plu eksperimenti
kun Esperanto. Mi nun estas tute okupita per la transloĝigo de la
IEspA-arkivoj kaj esperas ke aliaj havos tempon por daŭrigi la kontakton.

Roland Rotsaert
Internacia Esperanto-Arkivo  www.iespa.eu
debr39v.jpg
debr39vjpg-f3db564e67ac97edacb1c322a14c2dab.docx
debr40v.jpg
debr40vjpg-5ddec3d4c298d0a51966d6d952f5102c.docx
debr42v.jpg
debr42vjpg-c95fe18921b0be7d05fa3aeda9f842a1.docx
HideoSUGITA.pdf
Maekaua_leteroj 1955.pdf

Maria Nie

unread,
Feb 17, 2025, 7:46:41 AMFeb 17
to bibli...@googlegroups.com
Dankon pro la informo! Mi havas en la Esperanto Libraro (Bjalistoko)
kelkaj leteroj de 1929, kiuj mi ne scias deĉifri.
Amike
Maria Niemyjska

niedz., 16 lut 2025 o 18:45 Roland Rotsaert
<roland....@gmail.com> napisał(a):
> --
> Je hebt dit bericht ontvangen, omdat je je hebt aangemeld bij de groep 'Bibliotekoj' van Google Groepen.
> Als je je wilt afmelden bij deze groep en geen e-mails van de groep meer wilt ontvangen, stuur je een e-mail naar bibliotekoj...@googlegroups.com.
> Ga naar https://groups.google.com/d/msgid/bibliotekoj/cd56d033-7a67-4fb6-8cdb-03d0ef193925%40gmail.com om deze discussie te bekijken.

Rubeno

unread,
Feb 20, 2025, 5:27:21 PMFeb 20
to bibli...@googlegroups.com

Dankon pro la informo, Roland,

Aliflanke la retejo malhavas sufiĉan informon por juĝi ĝian fidindecon. Eĉ ne estas dirite, en kiu jurisdikcio situas tiu entrepreno kaj kiujn leĝojn devas obei.

Se vere ili proponis kunlaboron, tio signifus senpagan transkribadon de dokumentoj, mi supozas, kio povas esti interesa aranĝo por multaj.

Por ke aliaj esperantistoj povu tiri de la fadeno kaj uzi tiun eblecon, estus bone, se vi plusendus al la listo ilian tutan lastan mesaĝon, se estas nenio konfidenca en ĝi.

Aliflanke, mi mem, en mia entrepreno, de jam du monatoj laboras en projekto pri aŭtomata transkribado de arĥivaĵoj. Temas pri la korespondado de la ĝenerala sekretario de la Institut d'Estudis Catalans (Instituto pri Katalunaj Studoj, fakte la Kataluna Akademio). Jen ekzemplo.

Ĉiujn tekstojn, kaj tajpitajn kaj manskribitajn, procesas unue artefarita inteligento, sed poste ni, homaj arĥivistoj, devas revizii la tuton. Interese, la algoritmo ne estas uzata nur por transkribi, sed ankaŭ por resumi la tekstojn, kio tre bone permesas al ĝi kaŝi siajn erarojn kaj ŝajnigi sin pli inteligenta ol ĝi fakte estas. Kontrolo de la rekta transkribo evidentigus erarojn multe pli klare.

Aliflanke, malgraŭ la supozo de Maria Niemyjska, tiuj maŝinoj ne estas superhomaj nek povas fari pli ol homo. Se la manskribo estas nelegebla, AI estas tute senpova. Mi alkroĉas ekzemplon de letero preskaŭ nelegebla, kiu eĉ ne ŝajnas latina skribo. Mi mem, diplomito pri kataluna filologio, apenaŭ komprenas unu aŭ du vortojn en ĉiu alineo. Kaj la maŝino ne povas kompreni pli. En ĉi tiu kazo, ĝi resumis:

"Jordi Rubió i Balaguer skribas al Ramon Aramon i Serra senkulpigante sin pro malfruo kaj komentante temojn rilatajn la Instituton pri Kataluna Studoj kaj aliaj akademiaj agadoj."

Mi korektis jene:

"Jordi Rubió i Balaguer skribas al Ramon Aramon i Serra senkulpigante sin pro malfruo, klarigante siajn akademiajn engaĝojn, konsentante al dato por plenkomitata kunsido de la Instituto, kaj demandante la limdaton por liveri referaĵon por la festlibra volumo de la revuo Latinidaj Studoj honoranta Nicolau d'Olwer. Li finas komentante, ke li ne konsentas, ke la Instituto estu nomata 'akademio'."

Mi povis perfektigi la resumon, ĉar jam konas la korespondantojn, la ceteron de la arĥivo, kaj la diskutatajn temojn, kio helpis deĉifri multajn malklarajn vortojn. Tamen IA legas komprenante nenion kaj sekve ne kapablas logike dedukti.

Amike,

Rubeno


El 16/2/25 a les 18:45, Roland Rotsaert ha escrit:
ekzemplo.pdf

Roland Rotsaert

unread,
Feb 21, 2025, 4:01:41 PMFeb 21
to bibli...@googlegroups.com
Op 20/02/2025 om 23:27 schreef 'Rubeno' via Bibliotekoj:
Por ke aliaj esperantistoj povu tiri de la fadeno kaj uzi tiun eblecon, estus bone, se vi plusendus al la listo ilian tutan lastan mesaĝon, se estas nenio konfidenca en ĝi.

Rubeno,

Jen la teksto de la lasta kontakto (15 februaro) de ma...@handwritingocr.com :

Given your role in preserving Esperanto materials, would you consider sharing your findings about our OCR capabilities in the archival community? Your professional evaluation could be valuable for others working with historical Esperanto and other documents.

Mi donis miajn komentojn pri tri poŝtkartojn kaj sendis du seriojn de leteroj, aldonante ke mi informos miajn kolegojn pri handwritingocr.com. Ne plu venis reago; eble intertempe listano ligis kontakton.

Laŭ mi la kvalitnivelo estas la maksimumo kiu nun estas atingebla por programo kiu analizas multajn lingvojn. Kresko de kvalitoj nur eblas plu trejnante la programon, ekzemple por unu lingvo aŭ unu manskribo.

Roland

Reply all
Reply to author
Forward
0 new messages