Pdf-tiedostoja skannaamalla

hamppe

unread,

Apr 3, 2006, 9:46:03 PM4/3/06

to

Osaiskos tällä palstalla joku neuvoa, ms-win-ohjelmistot-palstalla on
hiljaista.

Kuinka ja millä shareware- tai freewareohjelmilla tekisitte graafisia ja/tai
tekstitunnistettuja pdf-tiedostoja?

Nisse

unread,

Apr 4, 2006, 2:13:11 AM4/4/06

to

hamppe kirjoitti:

Graafisten PDF-tiedostojen tekoon IrfanView ja PDFCreator. Monisivuisten
pdf-tiedostojen tekoon skannausohjelmassa pitää olla tuki
monisivuisten tiff-tiedostojen tekoon.

Tai sitten muut osannevat kertoa millä ohjelmalla Windowsissa saa tehtyä
monisivuisia tiff-tiedostoja.

--
Nisse

Nisse

unread,

Apr 4, 2006, 2:38:33 AM4/4/06

to

Nisse kirjoitti:

Ja kun katsoin itse tarkemmin niin löytyy sieltä IrfanView:stakin
monisivuisten TIFF-tiedostojen teko. View -> Multipage images -> Create
Multipage TIF.

--
Nisse

Jukka K. Korpela

unread,

Apr 4, 2006, 5:34:40 AM4/4/06

to

"hamppe" <hannu....@pp2.inet.fi> wrote:

> Osaiskos tällä palstalla joku neuvoa, ms-win-ohjelmistot-palstalla on
> hiljaista.

Jos et osaa oikealla "palstalla" kysyä oikein, niin kysymyksen spämmääminen
muualle saa aikaan vain sen, että pääset kill-tiedostoihin. Tai no, saattaa
joku ilkimys kiusallaan antaa mitä ansaitset: vääriä vastauksia.

--
Yucca, http://www.cs.tut.fi/~jkorpela/

Nisse

unread,

Apr 4, 2006, 6:26:49 AM4/4/06

to

Jukka K. Korpela kirjoitti:

> "hamppe" <hannu....@pp2.inet.fi> wrote:
>
>> Osaiskos tällä palstalla joku neuvoa, ms-win-ohjelmistot-palstalla on
>> hiljaista.
>
> Jos et osaa oikealla "palstalla" kysyä oikein, niin kysymyksen spämmääminen
> muualle saa aikaan vain sen, että pääset kill-tiedostoihin. Tai no, saattaa
> joku ilkimys kiusallaan antaa mitä ansaitset: vääriä vastauksia.
>

Meinaatko että annoin väärän vastauksen?

--
Nisse

hamppe

unread,

Apr 4, 2006, 1:11:06 PM4/4/06

to

Olen seurannut Jukka vastauksiasi. Ne ovat olleet laadukkaita.

Mutta nyt en ymmärrä lainkaan vastaustasi. Taidat olla opettaja. Nisse antoi
hienon vastauksen!

Pekka

unread,

Apr 4, 2006, 6:07:20 PM4/4/06

to

Nisse wrote:
>
>
> Meinaatko että annoin väärän vastauksen?

Varmaksi en tiedä vielä. Ehkä joku kertoisi lyhyesti että mitä ovat:
"graafiset ja tekstitunnistetut PDF-tiedostot" sekä toisaalta
"graafiset tai tekstitunnistetut PDF-tiedostot".

Minä en ymmärrä noista edes pelkkää jälkimmäistä puolikastakaan, eli
että mitä ovat "tekstitunnistetut PDF-tiedostot"?

Tai vielä tuostakin yksinkertaistettuna, "tekstitunnistettu tiedosto".
Mikä se ylipäätään oikein on, menee edelleen yli hilseen.
Pekka

Bleu

unread,

Apr 4, 2006, 8:27:14 PM4/4/06

to

Pekka wrote:
> Tai vielä tuostakin yksinkertaistettuna, "tekstitunnistettu tiedosto".
> Mikä se ylipäätään oikein on, menee edelleen yli hilseen.
> Pekka

Varmaan OCR.

Pekka

unread,

Apr 5, 2006, 5:01:48 AM4/5/06

to

Bleu wrote:
>
>
> Varmaan OCR.

Sori, ei edelleenkään mene jakeluun. Eikä tässä edes ole kyse
saivartelusta.

Siis jos tulostan vaikka Wordista sivullisen tekstiä paperille. Sitten
skannaan tuon paperin A4-skannerilla sisään jolloin TIF-kuvatiedosto,
KUVA1.TIF. Jos nyt muunnan tuon TIF:in suoraan PDF:ksi, niin syntyykö
siitä alkuperäisen kysyjän termejä käyttäen silloin "graafinen
PDF-tiedosto"?

Jos laitan OCR-tekstintunnistusohjelman sitten tunnistamaan
TIF-tiedoston tekstiksi, ja vielä käsipelillä korjaan mahdolliset
virhetunnistukset, niin että olemme saaneet takaisin alkuperäisen
Wordissa olevan tekstin. Sitten talletan tämän tiedostoksi TEKSTIA.TXT.

Onko tuo tekstitiedosto tässä vaiheessa silloin "tekstitunnistettu
tiedosto"?

Ja jos sitten muutan TEKSTIA.TXT tiedoston PDF:ksi, niin onko tuloksena
syntynyt PDF silloin "tekstitunnistettu PDF-tiedosto"? Vai mistä tässä
kaikessa oikein on kyse? Onhan nuo yleiset, freewre PDF-työkaluohjelmat
kysytty ja vastattu niin moneen kertaan jo vuosien mittaan, että ei kai
nyt tästä enää lopulta kuitenkin vain ollut kyse?

En tiedä puuttuiko Korpela nimenomaan tähän epämääräisyyteen. Mutta kun
itse näin saman kysymyksen jo esitettynä toisessa uutisryhmässä, en
ymmärtänyt sitä siellä, enkä ymmärrä kysymystä vielä tässä toisessakaan
ryhmässä.

Nyyssien yleisohjehan on, että jos et saa vastausta kysymykseesi, niin
kokeile esittää se uudella tavalla, käyttäen erilaisia ja mahdollisesti
tarkempia ilmaisuja, niin saatat saada vastauksen. Pelkästään
postaamalla sama sekava kysymys useisiin uutisryhmiin ei edelleenkään
tuo vastausta, mutta saa mahdollisesti muut ärtymään ristipostauksista.

Eilen Hesarin yleisönosastolla oli mainio kommentti
Ylioppilaskirjoituksissa olleiden kysymysten käsittämättömyydestä.
Mallina näytetyt kysymykset olivatkin tosiaan aivan tulkinnanvaraisia,
voiden tarkoittaa kolmea erilaista asiaa. Vaikka oli käytetty vain
sinällään tuttuja sanoja ja tuntun tuntuisia yleisiä termejä.
Pekka

Nisse

unread,

Apr 5, 2006, 8:17:45 AM4/5/06

to

Pekka kirjoitti:

> Bleu wrote:
>>
>> Varmaan OCR.
>
> Sori, ei edelleenkään mene jakeluun. Eikä tässä edes ole kyse
> saivartelusta.
>
> Siis jos tulostan vaikka Wordista sivullisen tekstiä paperille. Sitten
> skannaan tuon paperin A4-skannerilla sisään jolloin TIF-kuvatiedosto,
> KUVA1.TIF. Jos nyt muunnan tuon TIF:in suoraan PDF:ksi, niin syntyykö
> siitä alkuperäisen kysyjän termejä käyttäen silloin "graafinen
> PDF-tiedosto"?
>

Kyllä.

> Jos laitan OCR-tekstintunnistusohjelman sitten tunnistamaan
> TIF-tiedoston tekstiksi, ja vielä käsipelillä korjaan mahdolliset
> virhetunnistukset, niin että olemme saaneet takaisin alkuperäisen
> Wordissa olevan tekstin. Sitten talletan tämän tiedostoksi TEKSTIA.TXT.
>
> Onko tuo tekstitiedosto tässä vaiheessa silloin "tekstitunnistettu
> tiedosto"?
>

On. Paremmat tekstintunnistusohjelmat tunnistavat myös tekstin fontin ja
muotoilun, jolloin se on suoraan muotoiltu tekstitiedosto, eikä niinkään
pelkkä ascii-teksti skannatusta tekstistä.

> Ja jos sitten muutan TEKSTIA.TXT tiedoston PDF:ksi, niin onko tuloksena
> syntynyt PDF silloin "tekstitunnistettu PDF-tiedosto"?

On. Olettaen että ohjelma, jolla teet pdf-tiedoston tuuppaa sinne
tekstin tekstinä eikä grafiikkana.

--
Nisse

Pekka

unread,

Apr 5, 2006, 6:00:22 PM4/5/06

to

Nisse wrote:
>
> On. Paremmat tekstintunnistusohjelmat tunnistavat myös tekstin fontin ja
> muotoilun, jolloin se on suoraan muotoiltu tekstitiedosto, eikä niinkään
> pelkkä ascii-teksti skannatusta tekstistä.

Tällaiseen kykenevät tunnistusohjelmat ovat aivan eri kaliiberia kuin
mainitsemasi Irfanview. Siinä itsessään ei ole minkäänlaisia
tekstintunnistusominaisuuksia, eikä se kykene tekstimuotona PDF:iä
tulostamaan.

> On. Olettaen että ohjelma, jolla teet pdf-tiedoston tuuppaa sinne
> tekstin tekstinä eikä grafiikkana.

Irfanview ei tällaista osaa, siis vaikka sille tosiaan annettaisiin
valmis Ascii-tekstitiedosto lähtödataksi. Irfanview ei saa sitä
tulostettua PDF:ksi niin että se PDF:kin olisi edelleen tekstimuotoista.

. . .
Melkein mikä tahansa kohtuullisen tasoinen ja alle 3 v vanha
free/sharewarea oleva grafiikkaohjelma osaa lukea Twain-skannerista
tulevaa kuvaa. Joten skannauspuoli ylipäätään ei pitäisi olla kovin
ongelma, tai ainakaan kysyjä ei kysynyt asiaa että "En saa skanneriani
toimimaan, missä vika?".

Entä tekstitiedostojen tai minkä tahansa muidenkaan Windows-ohjelmien
tiedostojen muuttaminen PDF:ksi? Tätä kysytään ja vastataan suunnilleen
kerran kuussa näissä uutisryhmissä, joten PDF-tulostaminenkaan ei
pitäisi olla suuri vaikeus.

Alkuperäisen kysyjän kysymyksen keskeinen osa ja mahdollinen vaikeus
koskenee nimenomaan OCR-tekstintunnistusta. Kysymys olisi siis kuulunut
"Millä freeware/shareware -ohjelmilla tunnistaa tekstiä skannatuista
tiedostoista?"
Tähän OCR-puoleen kukaan ei ole threadissa toistaiseksi esittänyt edes
siedettävästi toimivia ratkaisuja, ei shareware-ohjelmilla eikä
muillakaan.

. . .
Alkuperäisen kysyjän kysymyksessä keskeinen osa kysymyksestä oli
laitettu viestin otsikkoon, "Pdf-tiedostoja skannaamalla". Tästä
otsikossa kysymisestä ja siitä syntyvästä sekavasta esitystavasta
nyyssinetiketti erikseen varoittaa. Otsikossa kysyminen, ilman että
kysymys toistetaan myös itse tekstissä, se tekee kysymyksen sekavaksi ja
vaikeasti ymmärrettäväksi.

Tällä hetkellä alkuperäinen kysyjä, eli "hamppe", on kuitenkin sitä
mieltä että "Nisse antoi hienon vastauksen!"

Siinä mielessä asia on itse asiassa hienolla mallilla juuri nyt.
Epämääräiseen kysymykseen on nyt löytynyt epämääräinen vastaus, mutta
jollain epämääräisellä tavalla se vastaus kuitenkin myös tyydyttää
kysyjän tarpeet.
Pekka

Nisse

unread,

Apr 6, 2006, 3:08:45 AM4/6/06

to

Pekka kirjoitti:

En missään vaiheessa väittänytkään että IrfanView osaisi tekstintunnistusta.

Valitettavasti sinun ongelmasi on niin epämääräinen, että en osaa sinua
auttaa. Ehkä luetun ymmärtämisharjoituksista voisi olla apua sinulle.
Tai sitten ei.

Omalta osaltani lopetan kuitenkin tämän sinun trollisi ruokkimisen.
Näkemiin.

--
Nisse

Pekka

unread,

Apr 6, 2006, 3:55:12 AM4/6/06

to

Nisse wrote:
>
>
> En missään vaiheessa väittänytkään että IrfanView osaisi tekstintunnistusta.

Et väittänytkään, mutta juuri Irfanview ohjelma näköjään nyt oli se
oikea ja tyydyttävä vastaus kysyjän kysymykseen. Ottaen huomioon kysyjän
kysymys, minä en vain vieläkään ymmärrä miten tähän ohjelmaan
päädyttiin. Ja miksi juuri se on se oikea vastaus, vaikkei se vastaa
keskeisimpään ja tämän tekstipaperien sisään skannauksen vaikeimpaan
ongelmaan eli OCR-tunnistukseen millään lailla.

> Omalta osaltani lopetan kuitenkin tämän sinun trollisi ruokkimisen.
> Näkemiin.

Tämä on ihan hyvä lopputoteamus varmaan molemmin puolin, alkuperäinen
kysyjä "hamppe" sai jo vastauksensa, joten turhahan tätä enää on jatkaa.

Oli ylipäätään hyvä että viitsit vastata hampelle. Sillä kun minä luin
alkuperäistä kysymystä niin kyllä vastaamatta jäi, sekä siellä
alkuperäisessä ryhmässä että vielä tässä nykyisessäkin ryhmässä. Ja olen
edelleenkin ymmälläni kysymyksen ja siihen annetun 'hyvän vastauksen'
suhteen. En vain ymmärrä.
Hampen sekavaa ja muihin uutisryhmiin levitettyä kysymystä olisin voinut
vaikka epäilläkin trolliksi, mutta trollaamisesta ei omalta osaltani
ollut kyse.
Pekka

Nisse

unread,

Apr 6, 2006, 5:11:43 AM4/6/06

to

Okei. Uskotaan, että se ei ollut trolli.

Itsellä on ollut sama ongelma skannatun aineiston saamiseksi pdf-muotoon.

Olisi monesti ollut hyvä jos tekstin saisi tunnistettua luotettavasti
siihen pdf-tiedostoon. Mutta silti on ollut tärkeämpää, että sen
skannatun tavaran on ylipäätään saanut saman näköiseksi pdf:ksi kuin
alkuperäinen aineisto on, joten sen tekstin tunnistuksen on saanut
unohtaa samantien. Ja tyytyä siihen että sen ylipäätään saa pdf:ksi.

Ainoat edes siedettävät tulokset tekstintunnistuksesta olen saanut
pitkien (paperisten) koordinaattilistojen kanssa, jolloin tunnistetaan
vain ja ainoastaan numeroita jotka ovat kaikki vielä samalla fontilla
tulostettuja. Ja näissä tapauksissa ei ole taas ollut kysymys
pdf-tiedoston tekemisestä, vaan esim. csv-tiedoston luomisesta, jonka
saa sitten luettua taulukkolaskentaa. Toisaalta minulla ei ole ollut
käytössä niitä parempia ocr-ohjelmia, enkä niitä viitsi satunnaisen
käytön takia hommattakaan.

--
Nisse

hamppe

unread,

Apr 6, 2006, 3:04:14 PM4/6/06

to

Toteaisin alkuperäisen kysymyksen tekijänä kunnioittaen seuraavan.

Tarkoitin kysymykselläni sitä, onko mahdollista saada graafista ja/tai
tekstitunnistettua pdf-tiedostoa aikaiseksi shareware- tai
freeware-ohjelmilla. Kun ekavastaajan ohje auttoi graafisen pdf:n
synnyttämiseen, olin jo siihen tyytyväinen. Siksi kiitin.

Graafisen pdf-tiedoston tunnistaminen teksti-pdf-tiedostoksi onnistuu
ilmeisesti vain kalliilla Acrobat Standard tai Acrobat
professional-ohjelmalla. Ilmainen on-line palvelu saattaa olla.

Pdf-tiedostojen tulee olla ns. tekstipdf-tiedostoja, jotta niihin voidaan
kohdistaa tehokas indeksointi ja tekstihaku, esim. ohjelmalla dtSearch. Olen
indeksoinut noin 20 000 tiedostoa (noin 250 000 sivua), joista suurin osa
teksti-pdf-tiedostoja, mainitulla ohjelmalla ja tiedot löytyvät parissa
sekunnissa.

Kiitoksia pojat hauskasta keskustelusta. Yritän olla seuraavan kerran
selkeäsanaisempi.

Timo Multanen

unread,

Apr 6, 2006, 5:01:27 PM4/6/06

to

hamppe <hannu....@pp2.inet.fi> wrote:

> Graafisen pdf-tiedoston tunnistaminen teksti-pdf-tiedostoksi onnistuu
> ilmeisesti vain kalliilla Acrobat Standard tai Acrobat
> professional-ohjelmalla. Ilmainen on-line palvelu saattaa olla.

Omnipage 15 on Adoben tuotteita hivenen edullisempi nimenomaan OCR:ään
painottuva ohjelmisto, jolla voit tunnistaa tekstin kuvatiedostosta tai
pdf:stäkin. Perusversiota saa reilulla sadalla eurolla.

--
Timo

hamppe

unread,

Apr 7, 2006, 12:28:08 AM4/7/06

to

Kiitti Timo hyvästä vihjeestä!

Harri Tuominen

unread,

Apr 7, 2006, 8:51:57 AM4/7/06

to

On 6 Apr 2006 21:01:27 GMT, Timo Multanen <t...@cc.joensuu.fi> wrote:

> Omnipage 15 on Adoben tuotteita hivenen edullisempi nimenomaan OCR:ään
> painottuva ohjelmisto, jolla voit tunnistaa tekstin kuvatiedostosta tai
> pdf:stäkin. Perusversiota saa reilulla sadalla eurolla.

Minulla on OmniPage Prosta versiot 12 ja 14, ja täytyy sanoa, että
omiin käyttötarkoituksiini 12 on merkittävästi 14:ää parempi. Jos
15:ssä ovat mukana samat tekstintunnistusvirheet kuin 14:ssä,
pysyttelen edelleen OmniPage 12:n parissa. Minulla käyttö on lähinnä
kirjojen skannaamista ja PDF:ien tunnistamista tekstimuotoon, joten
päinvastaisesta - PDF:ksi tallentamisesta - en osaa sanoa mitään muuta
kuin sen, että se lienee mahdollista.

--
Harri

Seppo Loisa

unread,

Apr 7, 2006, 8:58:54 AM4/7/06

to

"hamppe" <hannu....@pp2.inet.fi> kirjoitti:

>Graafisen pdf-tiedoston tunnistaminen teksti-pdf-tiedostoksi onnistuu
>ilmeisesti vain kalliilla Acrobat Standard tai Acrobat
>professional-ohjelmalla. Ilmainen on-line palvelu saattaa olla.

Eihän Acrobatissa ole OCR:ää. Eli ei se sillä onnistu.
--
Ylös vastaajia ei tueta.

hamppe

unread,

Apr 7, 2006, 12:54:32 PM4/7/06

to

:
>
> >Graafisen pdf-tiedoston tunnistaminen teksti-pdf-tiedostoksi onnistuu
> >ilmeisesti vain kalliilla Acrobat Standard tai Acrobat
> >professional-ohjelmalla. Ilmainen on-line palvelu saattaa olla.
>
> Eihän Acrobatissa ole OCR:ää. Eli ei se sillä onnistu.

> --
> Ylös vastaajia ei tueta.

Mitähän Seppo tarkoitat? Kyllä nimenomaan onnistuu. Toiminto on nimeltään
capture pages. Ei tietenkään ilmaisella Acrobat Readerillä.

Seppo Loisa

unread,

Apr 7, 2006, 4:53:13 PM4/7/06

to

"hamppe" <hannu....@pp2.inet.fi> kirjoitti:

>Mitähän Seppo tarkoitat? Kyllä nimenomaan onnistuu. Toiminto on nimeltään
>capture pages. Ei tietenkään ilmaisella Acrobat Readerillä.

Huh, aina oppii uutta. Eipä ole tullut mieleenkään että Acrobatista
moinen ominaisuus löytyisi. Olenkin jo pitkään ihmetellyt
Standard-version hintaa että mistä hyvästä siinä oikein maksetaan kun
softalla ei oikeastaan voi tehdä yhtikäs mitään. (Lähes kaikki PDF:t
tuotan CorelDrawilla).