Digitalisering av dokumenter med bilder

Arne Midtbø

unread,

Jan 15, 2005, 8:17:58 AM1/15/05

to

Jeg skal digitalisere en masse dokumenter med bilder. Dette dreier seg
bl.a. også om medlemsblader i en organisasjon. Den enkleste måten å
gjøre det på er vel å bare lagre hver side som et bilde. Problemet er
at jeg ønsker å gjøre tekst, samt bildetekster er søkbare. Samtidig
ønsker jeg at dokumentene skal lagres i sin originale form slik at det
er likt originalen ved utskrift. Når dette arbeidet er ferdig, skal
det legges ut på nettet som historisk materiale. Derfor er det viktig
at teksten er søkbar.

Finnes det en rask og effektiv måte å gjøre dette på med vanlig
PC-utstyr (Windows), med en ordinær scanner?

--
«Dette er mine prinsipper. Og liker dere ikke dem, så har jeg andre»

Arne Midtbø
http://www.midtboe.net

Thomas Bjørseth

unread,

Jan 15, 2005, 8:34:10 AM1/15/05

to

On Sat, 15 Jan 2005 14:17:58 +0100, Arne Midtbø <arnem...@hotmail.com>
wrote:

>Jeg skal digitalisere en masse dokumenter med bilder. Dette dreier seg
>bl.a. også om medlemsblader i en organisasjon. Den enkleste måten å
>gjøre det på er vel å bare lagre hver side som et bilde. Problemet er
>at jeg ønsker å gjøre tekst, samt bildetekster er søkbare. Samtidig
>ønsker jeg at dokumentene skal lagres i sin originale form slik at det
>er likt originalen ved utskrift. Når dette arbeidet er ferdig, skal
>det legges ut på nettet som historisk materiale. Derfor er det viktig
>at teksten er søkbar.
>
>Finnes det en rask og effektiv måte å gjøre dette på med vanlig
>PC-utstyr (Windows), med en ordinær scanner?

Skikkelig OCR-programvare burde fikse dette for deg. OmniPage Pro er det
eneste jeg kommer på i farta, men det finnes flere gode alternativer. Ta
en titt hos et par nettbutikker, så finner du sikkert flere navn.

Vil du begynne nå kan det være en god ide å scanne sidene til
TIF-format, da flere av OCR-programmene kan importere TIF og behandle de
videre for å identifisere tekst og bilder.

Thomas B
--
Thomas Bjørseth
Mail: thomas-...@bjorseth.no

Stein Bredal

unread,

Jan 15, 2005, 6:23:45 PM1/15/05

to

Omnipage fikser biffen ja. Lenge siden jeg har brukt det, men regner
med at du fortsatt må forvente å gå gjennom teksten og rette opp feil
som oppstår i tekst og formatering før du kan anse det som ferdig.

Kvaliteten på det du skanner inn har mye å si, er papiret hvitt og
teksten skarp går det lett, er det derimot gamle og gulnede sider med
"slitt" tekst vil det bli mer redigering i etterkant.

Dersom du velger å starte innskanning til TIFF før du har programmet
bør du huske å skanne inn i høyest mulige oppløsning (optisk, ikke
interpolert). Tekst leses også best om du skanner i sort/hvitt, men da
må du i så fall skanne inn bildene for seg selv og legge til i
dokumentet i etterkant.

Arnfinn Eikaas

unread,

Jan 16, 2005, 6:25:32 AM1/16/05

to

On Sat, 15 Jan 2005 14:17:58 +0100, Arne Midtbø
<arnem...@hotmail.com> wrote:

>Jeg skal digitalisere en masse dokumenter med bilder. Dette dreier seg
>bl.a. også om medlemsblader i en organisasjon. Den enkleste måten å
>gjøre det på er vel å bare lagre hver side som et bilde. Problemet er
>at jeg ønsker å gjøre tekst, samt bildetekster er søkbare. Samtidig
>ønsker jeg at dokumentene skal lagres i sin originale form slik at det
>er likt originalen ved utskrift. Når dette arbeidet er ferdig, skal
>det legges ut på nettet som historisk materiale. Derfor er det viktig
>at teksten er søkbar.
>
>Finnes det en rask og effektiv måte å gjøre dette på med vanlig
>PC-utstyr (Windows), med en ordinær scanner?

Papirer som jeg skal digitalisere, scanner jeg vanligvis med Adobe
Acrobat. Da får jeg ei PDF-fil. Dersom man scanner riktig, kan man
redigere teksten etterpå slik at du ikke bare sitter igjen med teksten
som ei bildefil.

Et annet program som er laget for slik dokumenthåndtering som du spør
etter, heter PaperPort 10. Det er samme folkene som lager OmniPage.
Sjekk programmene på websiden deres http://www.scansoft.com/

Arnfinn Eikaas
http://home.hia.no/~aeikas00/

Arne Midtbø

unread,

Jan 16, 2005, 8:12:25 AM1/16/05

to

On Sun, 16 Jan 2005 12:25:32 +0100, Arnfinn Eikaas
<eik...@kristiansand.frisurf.no> wrote:

>Papirer som jeg skal digitalisere, scanner jeg vanligvis med Adobe
>Acrobat. Da får jeg ei PDF-fil. Dersom man scanner riktig, kan man
>redigere teksten etterpå slik at du ikke bare sitter igjen med teksten
>som ei bildefil.

Jeg har Adobe Acrobat Prof 6.0 og har forsøkt meg på den. Innskanning
i Acrobat går jo veldig fint men jeg vet ikke hva som er riktig
fremgangsmåte for å kunne få til å redigere teksten i etterhånd. Det
er viktig at teksten blir gjenkjent som tekst, og at den vil være
søkbar. Det er også viktig at dokumentene fremstår som originalen
etter digital behandling.

Arne Midtbø

unread,

Jan 16, 2005, 8:22:36 AM1/16/05

to

On Sun, 16 Jan 2005 00:23:45 +0100, Stein Bredal
<stein....@operamail.com> wrote:

>Omnipage fikser biffen ja. Lenge siden jeg har brukt det, men regner
>med at du fortsatt må forvente å gå gjennom teksten og rette opp feil
>som oppstår i tekst og formatering før du kan anse det som ferdig.
>
>Kvaliteten på det du skanner inn har mye å si, er papiret hvitt og
>teksten skarp går det lett, er det derimot gamle og gulnede sider med
>"slitt" tekst vil det bli mer redigering i etterkant.
>
>Dersom du velger å starte innskanning til TIFF før du har programmet
>bør du huske å skanne inn i høyest mulige oppløsning (optisk, ikke
>interpolert). Tekst leses også best om du skanner i sort/hvitt, men da
>må du i så fall skanne inn bildene for seg selv og legge til i
>dokumentet i etterkant.

Jeg skal skaffe meg Omnipage. Det jeg lurer litt på er om Omnipage kan
lagre filene i .pdf-format siden lagring i f.eks. Word er uaktuelt.
Det er viktig at dokumentene er lagret i et ikke-propitært format. Vil
Omnipage lagre dokumentet i sin originale utseende form?

Stig Andersen

unread,

Jan 16, 2005, 8:29:14 AM1/16/05

to

On Sun, 16 Jan 2005 12:25:32 +0100, Arnfinn Eikaas
<eik...@kristiansand.frisurf.no> wrote:

>Et annet program som er laget for slik dokumenthåndtering som du spør
>etter, heter PaperPort 10. Det er samme folkene som lager OmniPage.
>Sjekk programmene på websiden deres http://www.scansoft.com/

PaperPort 10 ser veldig interessant ut, spesielt siden den håndterer
både tekstbaserte dokumenter og også dokumenter med bildefiler.

Det jeg lurer litt på er hva som er forskjellen mellom Omnipage og
PaperPort 10?
--
Stig

Arne Midtbø

unread,

Jan 16, 2005, 9:07:25 AM1/16/05

to

On Sun, 16 Jan 2005 14:12:25 +0100, Arne Midtbø
<arnem...@hotmail.com> wrote:

>Jeg har Adobe Acrobat Prof 6.0 og har forsøkt meg på den. Innskanning
>i Acrobat går jo veldig fint men jeg vet ikke hva som er riktig
>fremgangsmåte for å kunne få til å redigere teksten i etterhånd. Det
>er viktig at teksten blir gjenkjent som tekst, og at den vil være
>søkbar. Det er også viktig at dokumentene fremstår som originalen
>etter digital behandling.

Fant ut av det! Adobe er genial :-)
Document -> Paper capture-> Start capture
Dokumentene ser helt likt ut som originalen og teksten er søkbar :-))

Arnfinn Eikaas

unread,

Jan 16, 2005, 10:11:17 AM1/16/05

to

On Sun, 16 Jan 2005 14:29:14 +0100, Stig Andersen
<stigan...@walla.com> wrote:

>
>Det jeg lurer litt på er hva som er forskjellen mellom Omnipage og
>PaperPort 10?

OmniPage er et tekstgjenkjenningsprogram (OCR), mens PaperPort er
laget med henblikk på å digitalisere dokumenter. PaperPort lar
dokumentene se ut som origianlen langt bedre enn OmniPage.

Arnfinn Eikaas
http://home.hia.no/~aeikas00/

Arne Midtbø

unread,

Jan 16, 2005, 11:42:30 AM1/16/05

to

On Sun, 16 Jan 2005 16:11:17 +0100, Arnfinn Eikaas
<eik...@kristiansand.frisurf.no> wrote:

>On Sun, 16 Jan 2005 14:29:14 +0100, Stig Andersen
><stigan...@walla.com> wrote:
>
>>
>>Det jeg lurer litt på er hva som er forskjellen mellom Omnipage og
>>PaperPort 10?
>
>OmniPage er et tekstgjenkjenningsprogram (OCR), mens PaperPort er
>laget med henblikk på å digitalisere dokumenter. PaperPort lar
>dokumentene se ut som origianlen langt bedre enn OmniPage.
>

Jeg ser at Adobe er veldig bra på det å bevare orginaldokumentes
utseende. At Adobe også skulle gjenkjenne tekst fra scannede
dokumenter var en ny erfaring for meg. Problemet er at Adobe er
temmelig "rå" på den måten at den ikke ser ut til å gi brukeren
muligheten til å gå direkte inn i teksten og rette ord som ser
utydelig ut og som derfor tolkes feil når man kopierer fra- eller
søker i teksten.
Kanskje PaperPort er bedre på dette?

Arnfinn Eikaas

unread,

Jan 16, 2005, 12:47:06 PM1/16/05

to

On Sun, 16 Jan 2005 17:42:30 +0100, Arne Midtbø
<arnem...@hotmail.com> wrote:

>Jeg ser at Adobe er veldig bra på det å bevare orginaldokumentes
>utseende. At Adobe også skulle gjenkjenne tekst fra scannede
>dokumenter var en ny erfaring for meg. Problemet er at Adobe er
>temmelig "rå" på den måten at den ikke ser ut til å gi brukeren
>muligheten til å gå direkte inn i teksten og rette ord som ser
>utydelig ut og som derfor tolkes feil når man kopierer fra- eller
>søker i teksten.
>Kanskje PaperPort er bedre på dette?

PaperPort lagrer også i PDF. Dersom poenget er at andre skal ha
mulighet til å editere teksten bør man velge et annet format enn PDF.

Er brukeren den som lager dokumentet eller den som leser det? I
versjon 7.0 av Adobe Accrobat er muligheten til å rette teksten i
PDF-dokumentet bra dersom du scanner med OCR aktivisert. Ellers blir
det bare bilde. Dersom leseren bruker bruker Adobe Reader, vil han
ikke ha mulighet til å endre noe. Du kan passordbeskytte PDF-fila mot
endringer, men krypteringen er ikke særlig god og er rask å knekke. De
fleste passord-programmer åpner PDF-filer på svært kort tid.

Arnfinn Eikaas
http://home.hia.no/~aeikas00/

Arne Midtbø

unread,

Jan 16, 2005, 2:17:03 PM1/16/05

to

On Sun, 16 Jan 2005 18:47:06 +0100, Arnfinn Eikaas
<eik...@kristiansand.frisurf.no> wrote:

>PaperPort lagrer også i PDF. Dersom poenget er at andre skal ha
>mulighet til å editere teksten bør man velge et annet format enn PDF.
>

Det er kun jeg som skal editere teksten, og da for synbarhetens skyld
og for at teksten skal være korrekt søkbar. Dette er dokumenter jeg
skal digitalisere for å gjøre de lett tigjengelig for andre. Papiret
er syreholdig, allerede temmelig gult og litt sprøtt, så det haster å
få dette gjort før det bare en dag bare er uleselige papirbiter igjen.

Sannsynligvis blir de lagt ut på nettet som .pdf-filer. Tanken er at
folk med lokal historieinteresse og andre interesserte skal kunne lese
dem. Grunnen til at jeg også vil beholde den originale layouten er
fordi layouten også er en del historien.

>Er brukeren den som lager dokumentet eller den som leser det? I
>versjon 7.0 av Adobe Accrobat er muligheten til å rette teksten i
>PDF-dokumentet bra dersom du scanner med OCR aktivisert. Ellers blir
>det bare bilde. Dersom leseren bruker bruker Adobe Reader, vil han
>ikke ha mulighet til å endre noe. Du kan passordbeskytte PDF-fila mot
>endringer, men krypteringen er ikke særlig god og er rask å knekke. De
>fleste passord-programmer åpner PDF-filer på svært kort tid.

Det er ikke prioritert å kodebeskytte .pdf-filene. Filene vil som
nevnt bli lagt inn på en internettserver, pluss at de også blir lagret
på flere identiske CD-plater (for sikkerhets skyld).

Det jeg er litt i tvil om er om hva som er lurest å bruke penger på.
Det er andre som betaler både for hard- og software men jeg kan jo
være kostnadsbevisst for det ;) Jeg har Adobe Acrobat 6.0 Prof. Nå er
jeg tvil om jeg skal kjøpe inn Omnipage 14, PaperPort eller heller
satse på Adobe Acrobat 7.0 Pro

Arnfinn Eikaas

unread,

Jan 16, 2005, 3:42:18 PM1/16/05

to

On Sun, 16 Jan 2005 20:17:03 +0100, Arne Midtbø
<arnem...@hotmail.com> wrote:

>
>Det jeg er litt i tvil om er om hva som er lurest å bruke penger på.
>Det er andre som betaler både for hard- og software men jeg kan jo
>være kostnadsbevisst for det ;) Jeg har Adobe Acrobat 6.0 Prof. Nå er
>jeg tvil om jeg skal kjøpe inn Omnipage 14, PaperPort eller heller
>satse på Adobe Acrobat 7.0 Pro

Dersom det er viktig at formateringen skal være så lik originalen som
mulig, så hadde jeg valgt mellom Adobe Acrobat eller PaperPort. Jeg
tør imidlertid ikke råde deg til noe, siden jeg ikke har brukt
PaperPort aktivt siden versjon 8, nå er det versjon 10.

Du kan imidlertid hente manualene til både OmniPage14 og PaperPort10
på denne adressen: http://support.scansoft.com/manuals/

Les litt i manualene før du bestemmer deg.

Lykke til!

Arnfinn Eikås
http://home.hia.no/~aeikas00/

Gjermund Haugestøl

unread,

Jan 16, 2005, 5:31:13 PM1/16/05

to

"Arne Midtbø" <arnem...@hotmail.com> skrev i melding
news:j2qku0tjgl0a6h4i3...@4ax.com...

> On Sun, 16 Jan 2005 00:23:45 +0100, Stein Bredal
> <stein....@operamail.com> wrote:
>
>
>>Omnipage fikser biffen ja. Lenge siden jeg har brukt det, men regner
>>med at du fortsatt må forvente å gå gjennom teksten og rette opp feil
>>som oppstår i tekst og formatering før du kan anse det som ferdig.
>>
>>Kvaliteten på det du skanner inn har mye å si, er papiret hvitt og
>>teksten skarp går det lett, er det derimot gamle og gulnede sider med
>>"slitt" tekst vil det bli mer redigering i etterkant.
>>
>>Dersom du velger å starte innskanning til TIFF før du har programmet
>>bør du huske å skanne inn i høyest mulige oppløsning (optisk, ikke
>>interpolert). Tekst leses også best om du skanner i sort/hvitt, men da
>>må du i så fall skanne inn bildene for seg selv og legge til i
>>dokumentet i etterkant.
>
> Jeg skal skaffe meg Omnipage. Det jeg lurer litt på er om Omnipage kan
> lagre filene i .pdf-format

Ja, men det forutsetter at du har Adobe Acrobat i en eller annen versjon.
Det holder ikke med Adobe Acrobat Reader.

--
Gjermund Haugestøl
***********************************
http://www.haugestol.com/mail.html
"All those that believe in psycho-kinesis, raise my right hand."

H. A. Hanssen

unread,

Jan 16, 2005, 6:25:09 PM1/16/05

to

Gjermund Haugestøl wrote:
> "Arne Midtbø" <arnem...@hotmail.com> skrev i melding
> news:j2qku0tjgl0a6h4i3...@4ax.com...
>> On Sun, 16 Jan 2005 00:23:45 +0100, Stein Bredal
>> <stein....@operamail.com> wrote:
>>
>>
>>> Omnipage fikser biffen ja. Lenge siden jeg har brukt det, men regner
>>> med at du fortsatt må forvente å gå gjennom teksten og rette opp
>>> feil som oppstår i tekst og formatering før du kan anse det som
>>> ferdig. Kvaliteten på det du skanner inn har mye å si, er papiret hvitt
>>> og
>>> teksten skarp går det lett, er det derimot gamle og gulnede sider
>>> med "slitt" tekst vil det bli mer redigering i etterkant.
>>>
>>> Dersom du velger å starte innskanning til TIFF før du har programmet
>>> bør du huske å skanne inn i høyest mulige oppløsning (optisk, ikke
>>> interpolert). Tekst leses også best om du skanner i sort/hvitt, men
>>> da må du i så fall skanne inn bildene for seg selv og legge til i
>>> dokumentet i etterkant.
>>
>> Jeg skal skaffe meg Omnipage. Det jeg lurer litt på er om Omnipage
>> kan lagre filene i .pdf-format
>
> Ja, men det forutsetter at du har Adobe Acrobat i en eller annen
> versjon. Det holder ikke med Adobe Acrobat Reader.

Her er du nok ute på tynn is. Hvis du ser på hjemmesiden til Scansoft
(leverer bl.a. Omnipage) så står det klart og entydig at de også lagrer i
PDF og det er heller ikke nevnt at en må ha Adobe Acrobat for å gjøre denne
jobben. Dessuten, det er ikke nødvendig å bruke Adobe Acrobat for å lage
pdf-filer, selv bruker jeg CutePDF. Denne kan hentes gratis fra nettet og
installeres som en skriver på lik linje med andre skrivere i
windows-miljøet.

--
H.A.Hanssen
hj-han*fjern denne fnutten*@*fjerndette*frisurf.no

Gjermund Haugestøl

unread,

Jan 16, 2005, 6:59:00 PM1/16/05

to

"H. A. Hanssen" <hj-han*ugyldig*@frisurf.no.ugyldig> skrev i melding
news:41eaf806$1...@news.broadpark.no...

OK, da tok jeg vel litt hardt i, men skiller den på bilde og tekst slik som
AA gjør?

H. A. Hanssen

unread,

Jan 17, 2005, 3:39:32 AM1/17/05

to

Jeg er ikke helt sikker på hva du spør etter her, men jeg tror det er
CutePDF og svarer derfor utfra dette. Etter hva jeg kan se så gjør den det.
Jeg tok en liten test av et dokument jeg har lagret i pdf vha. CutePdf og
dokumentet er fullt søkbart som andre pdf-filer. Om dette er almengyldig
uansett hvilken applikasjon det skrives ut fra kan jeg ikke svare 100% på
men i sammenheng med Word ser alt til å fungere som forventet.

g r o n d a l nospam@start.no Nora Grøndal

unread,

Jan 17, 2005, 7:28:43 AM1/17/05

to

http://www.canon.no/about_us/news/consumer_releases/consumer_050105_lide_500f.asp

g r o n d a l nospam@start.no Nora Grøndal

unread,

Jan 17, 2005, 7:59:29 AM1/17/05

to

og en til, som brenner cd-er:
http://www.canon.no/about_us/news/solutions_business_news/cd_4070nw.asp

http://www.canon.no/for_work/products/document_imaging_systems/high_speed_document_scanners/cd4070nw/index.asp

Arne Midtbø

unread,

Jan 17, 2005, 7:39:03 AM1/17/05

to

On Mon, 17 Jan 2005 13:28:43 +0100, "Nora Grøndal" <n g r o n d a l
nos...@start.no> wrote:

>
>http://www.canon.no/about_us/news/consumer_releases/consumer_050105_lide_500f.asp
>
>

Jeg har en CanoScan LiDE 50F. Jeg ser at den modellen du har linket
til; CanoScan LiDE 500F kan scanne direkte til en .pdf-fil. Jeg vil
tro at det i prinsippet er som om jeg bruker Adobe Acrobat når jeg
scanner.
Adobe gjør for så vidt en kjempefin jobb mht å bevare dokumentenes
originale utseende (viktig!) men det skorter på muligheten for å gå
inn i den scannede teksten for å kjøre stavekontroll med henblikk på
at teksten skal være korrekt gjengitt i dokumentene, og derfor søkbar
på en fornuftig og korrekt måte. Eventuelt at teksten kan kopieres
over i en annen teksteditor for stavekontroll og så limes tilbake i
.pdf-dokumentene.
Jeg vil tippe at LiDE 500F kanskje ikke gjør noen bedre jobb enn det
Adobe allerede gjør.

Det kan se ut som at det jeg har behov for er Adobe Acrobat med norsk
stavekontroll og muligheten for å rette ord som er utydelige i det
originale dokumentet og derfor blir gjengitt feil i de scannede
dokumentene. Om Adobe Acrobat 7.0 har disse muligheten har jeg ikke
fått tid til å sjekke ennå. Dersom Adobe Acrobat 7.0 tilfredsstiller
disse behovene, vil alle vi som sitter rundt om og digitaliserer eldre
papirdokumenter, som inneholder bilder, gjerne også border og en
layout som det også er ønskelig å ta vare på, få oss et verktøy som er
midt i blinken.

Det er nesten så jeg ikke tør å sjekke hva Adobe skriver om versjon
7.0 i redsel for skuffelsen over å lese at det kun er mindre (for meg)
vesentlige endringer i forhold til versjon 6.0.

H. A. Hanssen

unread,

Jan 17, 2005, 8:23:46 AM1/17/05

to

Hvis du har Canon Lide 50 så kan du bruke Toolbox 4.1 fra Canon til å skanne
direkte til søkbar pdf-fil. Har du sett på denne muligheten? Canon Toolbox
4.1 følger med i den software som er vedlagt den nevnte skanner. Denne
skanneren leveres da også med Ominpage OCR program + mye annet. Har selv
akkurat maken skanner og har nettopp prøvd mulighetene i Toolbox 4.1.
Hvorvidt dette er godt nok for deg må du nesten vurdere selv etter en
praktisk test. Du må uansett forberede deg på at det er en stor jobb du skal
gjennom hvis det er store mengder info som skal skannes.

Georg Lavik.

unread,

Jan 17, 2005, 9:16:27 AM1/17/05

to

PaperPort 10 støtter vel ikke norske tegn som æøå?

Georg Lavik
____________
"I tider med bedrag som dagens orden,
er det en revolusjonær handling å si
sannheten".

George Orwell
_____________

Viktige linker:

http://www.tellthechildrenthetruth.com/AminAlHusseini.htm
http://fomi.ytring.dk/Norge.htm

Arnfinn Eikaas

unread,

Jan 17, 2005, 2:28:04 PM1/17/05

to

On Mon, 17 Jan 2005 14:16:27 GMT, Georg Lavik. <hamr...@hotmail.com>
wrote:

>
>PaperPort 10 støtter vel ikke norske tegn som æøå?
>

Jeg mener bestemt at programmet gjør det, akkurat som både OmniPage og
Adobe Acrobat gjør det.

Arnfinn Eikaas
http://home.hia.no/~aeikas00/