Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Fine Reader a gotyk niemiecki (problem z OCR)

99 views
Skip to first unread message

1634Racine

unread,
Oct 22, 2015, 6:31:11 AM10/22/15
to
plik pdf stworzony z bitmap (skany stron ksiazki), tekst wyglada tak ->
http://i.imgur.com/WVBhFS1.png
To jest czcionka "gotyk niemiecki", a dokladnie: *fraktur* , ew. *fraktur*
*plain* , obie zainstalowane w systemie.

OCR:
polska wersja fine reader (z ustawieniem: jezyk niem., albo niemiecki
[luxemburg], albo niem [nowa pisownia] ) - wypluwa na dzien dobry taki
ksztalt worda:
http://i.imgur.com/YZLDbQ8.png,
ale po zamianie czcionki na *fraktur* , jest tak:
http://i.imgur.com/nTAwT9I.png

Nie da sie ukryc,ze rozpoznanie jest sredniej jakosci, najdelikatniej
mowiac.
Co robie *źle* ?
(btw:
o wiele slabsze, mniej wyrazne czcionki polskie, albo angielskie (i nawet
krzywe linie pisma) - FReader rozpoznaje/wklepuje do worda naprawde b.
dobrze; srednio znam FReader, okazjonalnie mam dostep,ale skonfigurowany
jest ok. Moze to kwestia tego, ze chociaz FR wie, co przeczytal/rozpoznal
znakowo, ale ma problem z samodzielnym wyborem czcionki dla worda, bo w
koncu nie jest to zadna lacinska, a taka jest wlasnie dobra dla tekstow
polskich/ang., wiec nic dziwnego, ze dobrze wychodza w wordzie...)

Piotr Chamera

unread,
Oct 22, 2015, 6:54:34 AM10/22/15
to
W dniu 2015-10-22 o 12:30, 1634Racine pisze:
Większość programów ocr jest „nauczona” czytania antykwy (i podobnych
jej odmian pisma). Pisma, w których kształty znaków znacząco się różnią
sprawiają problem, bo program nie potrafi rozpoznać kształtów liter i
skojarzyć ich z odpowiednim symbolem (w tym przypadku większość
czytelników też będzie miała ten problem, po prostu nie jesteśmy
przyzwyczajeni do takich kształtów liter).

Rozwiązaniem będzie znalezienie programu, który jest „nauczony” czytać
podobne temu kroje, lub programu, który można tego nauczyć (niektóre
programy ocr dają się w mniejszym lub większym zakresie trenować).
Niestety nie potrafię podać nazw konkretnych programów.

PS. Wybór czcionki w Wordzie, czy zainstalowanie jej w systemie nie ma
nic do rzeczy. Problem jest na wejściu – program nie rozpoznaje
kształtów wielu znaków, więc nie potrafi ich skojarzyć z odpowiednimi
symbolami i błędnie je interpretuje.

$tipa

unread,
Oct 22, 2015, 8:59:58 AM10/22/15
to
Z dawnych czasów pamiętam, że recognitę można było uczyć literek.

$tipa

guciU

unread,
Oct 22, 2015, 10:48:13 AM10/22/15
to
Użytkownik "$tipa" napisał w wiadomości grup
dyskusyjnych:5628ddcc$0$9555$6578...@news.neostrada.pl...

Z dawnych czasów pamiętam, że recognitę można było uczyć literek.

FR też można.

g u c i U

kotije...@gmail.com

unread,
Oct 24, 2015, 8:15:21 AM10/24/15
to
W FR masz opcję definiowania wzorca użytkownika. Musisz mu powiedzieć jak ma czytać litery. W opcjach zaznaczasz odczytywanie przy u życiu tego wzorca i zobaczysz czy jedzie czy klapa.
0 new messages