Mest brugte bogstaver i det danske sprog

Lincoln

unread,

Mar 30, 2003, 2:56:44 PM3/30/03

to

Jeg søger en liste over de mest brugte bogstaver i gennemsnitlige
danske sætninger. Altså noget med at fx e udgør 28% af alle de
bogstaver, der indgår i en dansk gennemsnitssætning.

Jeg har søgt på Google, men har kun haft held til at finde kortfattede
engelske statistikker.

Jeg skal bruge bogstavstatistikken til en eksamensopgave, hvor jeg er
nødt til at være kildekritisk, og derfor har jeg brug for henvisninger
til, hvor eventuelle tal er taget fra.

På forhånd tak for hjælpen

/lin...@sol.dk

Gorm Johnsen

unread,

Mar 30, 2003, 3:19:11 PM3/30/03

to

"Lincoln" <lin...@sol.dk> skrev i en meddelelse
news:1fa73406.0303...@posting.google.com...

I disse sms-tider r d nok z.

Knuzzer -
Gorm :-)

Hugo Østergaard-Andersen

unread,

Mar 30, 2003, 4:03:34 PM3/30/03

to

Lincoln wrote:

> Jeg søger en liste over de mest brugte bogstaver i gennemsnitlige
> danske sætninger. Altså noget med at fx e udgør 28% af alle de
> bogstaver, der indgår i en dansk gennemsnitssætning.

Dit eget indlæg indeholder 402 bogstaver, der fordeler sig således i antal
og procent.

e / 57 / 14,18
t / 37 / 9,20
n / 32 / 7,96
r / 29 / 7,21
g / 28 / 6,97
s / 26 / 6,47
a / 25 / 6,22
i / 24 / 5,97
l / 21 / 5,22
o / 18 / 4,48
k / 16 / 3,98
d / 16 / 3,98
v / 10 / 2,49
h / 10 / 2,49
f / 10 / 2,49
u / 6 / 1,49
m / 6 / 1,49
j / 6 / 1,49
b / 6 / 1,49
å / 5 / 1,24
ø / 4 / 1,00
æ / 4 / 1,00
p / 4 / 1,00
x / 1 / 0,25
c / 1 / 0,25
z / 0 / 0,00
y / 0 / 0,00
w / 0 / 0,00
q / 0 / 0,00

Om det så er en gennemsnitlig tekst, og hvad en gennemsnitlig tekst er, ja
det er en anden sag.

--

Mvh

høa

Kristian Risager Larsen

unread,

Mar 31, 2003, 1:37:43 AM3/31/03

to

> Dit eget indlæg indeholder 402 bogstaver, der fordeler sig således i antal
> og procent.

Har du lavet denne analyse med et program?

--
Kristian Risager Larsen, Californien, USA - http://kezze.dk

Klaus Alexander Seistrup

unread,

Mar 31, 2003, 1:58:30 AM3/31/03

to

Kristian Risager Larsen skrev:

>> Dit eget indlæg indeholder 402 bogstaver, der fordeler sig
>> således i antal og procent.
>
> Har du lavet denne analyse med et program?

Jeg blander mig lige. John Walker fra Fourmilab har skrevet et
lille program, ent, der bl.a. kan vise forekomsten af tegn i en
tekst. Fx

#v+

$ echo Kristian Risager Larsen | ent -cf
Value Char Occurrences Fraction
10 1 0.041667
32 2 0.083333
97 a 3 0.125000
101 e 2 0.083333
103 g 1 0.041667
105 i 3 0.125000
107 k 1 0.041667
108 l 1 0.041667
110 n 2 0.083333
114 r 4 0.166667
115 s 3 0.125000
116 t 1 0.041667

Total: 24 1.000000

Entropy = 3.407268 bits per byte.

Optimum compression would reduce the size
of this 24 byte file by 57 percent.

Chi square distribution for 24 samples is 616.00, and randomly
would exceed this value 0.01 percent of the times.

Arithmetic mean value of data bytes is 97.3750 (127.5 = random).
Monte Carlo value for Pi is 4.000000000 (error 27.32 percent).
Serial correlation coefficient is -0.208469 (totally uncorrelated = 0.0).

#v-

Programmet kan hentes på <http://www.fourmilab.ch/random/>.

// Klaus

--
><> unselfish actions pay back better

Poul Erik Jørgensen

unread,

Mar 31, 2003, 10:34:53 AM3/31/03

to

Hugo Østergaard-Andersen wrote:
> Om det så er en gennemsnitlig tekst, og hvad en gennemsnitlig tekst
> er, ja det er en anden sag.

Det er klart, at et indlæg i en gruppe som denne, hvor folk normalt
udtrykker sig ret kort, ikke er retningsgivende for dansk.
Man kan så downloade nogle længere avistekster, artikler eller lignende og
kontrollere dem. Så får man et rimeligt billede.

Også begyndelsesbogstaver er ganske sjove. Man kan fx sammenligne, hvor
mange ord, der begynder med s kontra j. J er pudsigt nok et meget sjældent
begyndelsesbogstav på dansk - i øvrigt også på tysk.

Nu vi er ved tysk og begyndelsesbogstaver: På tysk er stort set alle ord der
begynder med p låneord, lige med undtagelse af nogle få ord der begynder med
pf. I oprindeligt germanske ord udvikledes på højtysk, i begyndelsen af ord,
et ældre p til pf (pad > Pfad: sti; plog > Pflug: plov); denne udvikling
begyndte formentlig 5-600 e.Kr.
Lydforskydningen p > pf ramte imidlertid også de oprindelige latinske
låneord i tysk: pondus (vægt) > Pfund (pund); porta > Pforte (port) eller
paraveredus (posthest) > Pferd.
Når man alligevel i en tysk ordbog finder ganske mange ord, der begynder med
p, er det interessant at konstatere, at langt hovedparten er låneord.
Konklusion: I urgermansk har der ikke været mange ord der begyndte med p.
Holthausen: Gotisches etymologisches Wörterbuch anfører tre ord, der synes
entydigt germanske. G.F.V. Lund Ordbog til de gamle danske Landskabslove
noterer 4-5 ord der synes entydigt germanske. Der har været ganske få flere.

Poul Erik Jørgensen
--
Remove MAIL from my email-address when replying.
Enlevez MAIL de mon adresse électronique pour me contacter.

Hugo Østergaard-Andersen

unread,

Mar 31, 2003, 11:00:44 AM3/31/03

to

Kristian Risager Larsen wrote:
>> Dit eget indlæg indeholder 402 bogstaver, der fordeler sig således i
>> antal og procent.
>
>
> Har du lavet denne analyse med et program?

Ved hjælp af Word og Excel:

Søg og erstat bogstav for bogstav med fx 1 og noter antallet af erstatninger
i Excel. Derfra kan man regne og sortere som man lyster. Det tager ca. fem
minutter med en tekst, der kan være meget længere end eksemplet.

--
Mvh

høa

Rasmus Underbjerg Pinnerup

unread,

Mar 31, 2003, 12:32:21 PM3/31/03

to

"Poul Erik Jørgensen" <J...@MAIL.aalborghus.dk> mælte sligt:

>Det er klart, at et indlæg i en gruppe som denne, hvor folk normalt
>udtrykker sig ret kort, ikke er retningsgivende for dansk.

Jeg ville ellers ikke tro, at der var nogen væsentlig forskel på fordelingen
af bogstaver i et usenetindlæg af bare en nogenlunde længde og så i det danske
sprog generelt. Selvfølgelig vil en kortere tekst give en underrepræsentation
af bogstaver, der forekommer relativt sjældent (som "w", "z", "x"), men
derudover ville jeg tro, at fordelingen var nogenlunde den samme, eftersom der
vel ikke er væsentlig forskel på bogstavernes fordeling i forskellige
sproglige domæner.

Det kunne være interessant at se, hvad en større sammenligning ville vise.

Venlig hilsen,
Rasmus Underbjerg Pinnerup
--
"Alt fedt tilhører Herren."

Klaus Alexander Seistrup

unread,

Mar 31, 2003, 1:49:24 PM3/31/03

to

Rasmus Underbjerg Pinnerup skrev:

> Det kunne være interessant at se, hvad en større sammenligning
> ville vise.

Først tænkte jeg at det måtte da være en let sag at køre en hoben
tekster gennem en tæller, men det ser ud til at det største problem
er at skaffe teksterne.

Biblen, som ellers er stor, er ganske urepræsentativ for det danske
sprog med alle de semitiske og græske navne.

Teksterne på Projekt Runeberg lider af at være ganske gamle. Det
betyder at et bogstav som 'a' bliver overrepræsenteret, men mindre
man kører teksterne gennem et filter der er statter 'aa' med 'å'.

Hvor finder man store mængder nudansk i klartekst?

Jeg har for sjovs skyld taget de sidste 7'151 stykker "Sidste nyt"
fra Kristeligt Dagblad¹, idet jeg kun har anvendt teksten mellem
datoen og "Læs mere". Det gav 1'568'189 tegn fordelt på 241'140
"ord", som jeg så kørte gennem "ent -cf"²:

#v+

Value Char Occurrences Fraction
33 ! 1 0.000001
43 + 1 0.000001
224 à 1 0.000001
240 ð 1 0.000001
242 ò 1 0.000001
227 ã 2 0.000001
180 ´ 3 0.000002
237 í 3 0.000002
241 ñ 3 0.000002
35 # 4 0.000003
235 ë 4 0.000003
63 ? 5 0.000003
232 è 5 0.000003
38 & 6 0.000004
59 ; 6 0.000004
243 ó 7 0.000004
225 á 18 0.000011
228 ä 40 0.000026
58 : 47 0.000030
252 ü 63 0.000040
246 ö 93 0.000059
233 é 118 0.000075
113 q 139 0.000089
47 / 142 0.000091
120 x 357 0.000228
56 8 484 0.000309
55 7 507 0.000323
54 6 615 0.000392
57 9 649 0.000414
52 4 766 0.000488
122 z 767 0.000489
34 " 801 0.000511
53 5 870 0.000555
39 ' 878 0.000560
40 ( 883 0.000563
41 ) 884 0.000564
119 w 1049 0.000669
51 3 1072 0.000684
50 2 2169 0.001383
49 1 2502 0.001595
48 0 3256 0.002076
45 - 4603 0.002935
99 c 6132 0.003910
10 7151 0.004560
106 j 7509 0.004788
121 y 8980 0.005726
230 æ 9896 0.006310
248 ø 10883 0.006940
229 å 12529 0.007989
46 . 12963 0.008266
44 , 14052 0.008961
104 h 17827 0.011368
117 u 21820 0.013914
98 b 22399 0.014283
112 p 22615 0.014421
118 v 26211 0.016714
102 f 34269 0.021853
109 m 40242 0.025661
107 k 42646 0.027194
103 g 47148 0.030065
111 o 57771 0.036839
108 l 63298 0.040364
100 d 79074 0.050424
115 s 83242 0.053082
105 i 84875 0.054123
97 a 85545 0.054550
116 t 90813 0.057909
110 n 97888 0.062421
114 r 111049 0.070814
101 e 191548 0.122146
32 233989 0.149210

Total: 1568189 1.000000

#v-

Teksterne lider helt sikkert af en overvægt af navne på mennesker
og byer i ind- og udland, lissom den sikkert osse rummer flere tal
end tekster i almindelighed gør, men mon ikke man kan få et meget
godt indtryk af bogstavernes fordeling alligevel?

// Klaus

¹) <http://www.kristeligt-dagblad.dk/sidstenyt/>
²) <http://www.fourmilab.ch/random/>

Peter Makholm

unread,

Mar 31, 2003, 2:11:13 PM3/31/03

to

Klaus Alexander Seistrup <sp...@magnetic-ink.dk> writes:

> Hvor finder man store mængder nudansk i klartekst?

På <http://korpus.dsl.dk/e-resurser/korpora.php> kan du nedhente
Korpus 2000 i form af et citatkorpus. Et citatkorpus er splittet op i
enkeltsætninger der er blandet i tilfældig rækkefølge. Dermed kan du
ikke genskabe de oprindelige tekster men selve tekstmaterialet skulle
være det samme.

Til bare at måle tegnfrekvenser burde det være rigeligt. Jeg har ikke
lige tjekket i hvor høj grad man skal sælge sin sjæl for at få adgang
til filerne.

--
Peter Makholm | Have you ever felt trapped inside a Klein bottle?
pe...@makholm.net |
http://hacking.dk |

Poul Erik Jørgensen

unread,

Mar 31, 2003, 2:11:55 PM3/31/03

to

Rasmus Underbjerg Pinnerup wrote:
> Jeg ville ellers ikke tro, at der var nogen væsentlig forskel på
> fordelingen af bogstaver i et usenetindlæg af bare en nogenlunde
> længde og så i det danske sprog generelt.

Åbenbart ikke. I hvert er fald er både Hugo Østergaard-Andersen (der talte
fra en posting) og Klaus A. Seistrup (store mængder tekst) enige om at e er
det hyppigste bogstav.
Men jeg fatter ikke helt hvad disse resultater isoleret kan bruges til.

Hvordan mon det ser ud i italiensk, der går for at være et vokalrigt sprog?

Bertel Lund Hansen

unread,

Mar 31, 2003, 2:34:27 PM3/31/03

to

Poul Erik Jørgensen skrev:

>Men jeg fatter ikke helt hvad disse resultater isoleret kan bruges til.

I hvert fald til at bryde banale koder. Det kunne evt. også
bruges af en tastaturfabrikant som bør lave e-tasten mere solid
end de andre.

--
Bertel
http://bertel.lundhansen.dk/ FIDUSO: http://fiduso.dk/

Peter Makholm

unread,

Mar 31, 2003, 2:44:24 PM3/31/03

to

"Poul Erik Jørgensen" <J...@MAIL.aalborghus.dk> writes:

> Men jeg fatter ikke helt hvad disse resultater isoleret kan bruges til.

Jeg ved ikke om det falder ind under 'isoleret', men jeg vil
umidelbart gætte på at man kan lave en nogenlunde præcis
sproggenkendelse baseret på en teksts bogstavfrekvens og entropi.

Måske ikke så imponerende som ved at anvende almindelig
gzip-komprimering:

<http://www.wired.com/news/technology/0,1282,50192,00.html>

--
Peter Makholm | Why does the entertainment industry wants us to
pe...@makholm.net | believe that a society base on full surveillance
http://hacking.dk | is bad?
| Do they have something to hide?

Klaus Alexander Seistrup

unread,

Mar 31, 2003, 2:45:40 PM3/31/03

to

Peter Makholm skrev:

>> Hvor finder man store mængder nudansk i klartekst?
>
> På <http://korpus.dsl.dk/e-resurser/korpora.php> kan du nedhente
> Korpus 2000 i form af et citatkorpus.

Av ja. Jeg kan godt huske at vi tidligere har talt om Korpus 2000
herinde, og jeg kiggede osse på sitet dengang, men mere gjorde jeg
ikke ud af det.

> Til bare at måle tegnfrekvenser burde det være rigeligt.

Helt sikkert.

> Jeg har ikke lige tjekket i hvor høj grad man skal sælge sin sjæl
> for at få adgang til filerne.

Man skal i hvert fald tilmelde sig. Jeg kigger måske på det lidt
senere. Tak for linket.

// Klaus

Poul Erik Jørgensen

unread,

Mar 31, 2003, 3:02:39 PM3/31/03

to

Poul Erik Jørgensen wrote:
> Hvordan mon det ser ud i italiensk, der går for at være et vokalrigt
> sprog?

Jeg har lavet en lynundersøgelse, med en modificeret Hugo
Østeraard-Andersen-model, hvor jeg dog slettede bogstaverne systematisk. Det
er meget nemmere end at erstatte med noget andet.

Jeg har alene talt vokaler (og kun a, e, i, o, u) hos Seistrup (dansk tekst)
og så min egen optælling af en kortere italiensk tekst:

Dansk (Seistrup): Italiensk:
a: 18 % a: 24,5 %
e: 41,3 % e: 23,6 %
i: 18,3 % i: 25 %
o: 12,4 % o: 19 %
u: 4 % u: 7 %

Italiensk virker mere markant vokalisk, formentlig fordi det stort set kun
bruges disse 5 vokaler; vi kender jo romana, italano, la mafia, mussolini
etc. Det virker heller ikke så hårdt, da det ikke har konsonantophobninger
og de mange konsonantudlyd (disk, ost, slemt). Men dansk har faktisk mange
flere vokaler: y, ø, ö, æ, å, ej, øj, men e er markant den hyppigste. Nu
skal vi imidlertid bemærke, at i optællingerne hos Seistrup skelnes der ikke
mellem e (som i se), æ (som i pen) og ø-lyden (som i gabe). Så optællingerne
må forfines meget for dansks vedkommende for at være interessante.

Så en ren slaveoptælling kan - som Bertel siger - vist kun være af interesse
for tastaturfabrikanter.

Klaus Alexander Seistrup

unread,

Mar 31, 2003, 3:05:53 PM3/31/03

to

Jeg skrev:

>> Jeg har ikke lige tjekket i hvor høj grad man skal sælge sin
>> sjæl for at få adgang til filerne.
>
> Man skal i hvert fald tilmelde sig.

De vil have både navn og adresse og hvad ved jeg, og der går nogle
dage inden man får sit brugernavn og adgangskode, så det bliver
ikke i aften...

// Klaus
- som troede at DSL betød Digital Subscriber Line

Thomas Thorsen

unread,

Mar 31, 2003, 3:54:27 PM3/31/03

to

Poul Erik Jørgensen skrev:

> Nu skal vi imidlertid bemærke, at i optællingerne hos Seistrup
> skelnes der ikke mellem e (som i se), æ (som i pen) og ø-lyden
> (som i gabe). Så optællingerne må forfines meget for dansks
> vedkommende for at være interessante.

Ikke hvis det drejer sig om bogstaver. Hvis det drejer sig om lyde, skal
man gå helt anderledes til værks.

Italiensk har i øvrigt 7 vokaler i trykstærk stavelse, idet e og o
findes i både åben og lukket variant. Italiensk har dog stadig væsentlig
færre vokallyde end dansk.

TT

Poul Erik Jørgensen

unread,

Mar 31, 2003, 4:02:10 PM3/31/03

to

Thomas Thorsen wrote:
> Ikke hvis det drejer sig om bogstaver. Hvis det drejer sig om lyde,
> skal man gå helt anderledes til værks.

Ja, det lyder som om det blot drejer sig om bogstaver, men desværre har
Lincoln endnu ikke afsløret hvad han skal med sit materiale.

> Italiensk har i øvrigt 7 vokaler i trykstærk stavelse, idet e og o
> findes i både åben og lukket variant.

Det anede mig ;-)

Thomas Thorsen

unread,

Mar 31, 2003, 4:18:57 PM3/31/03

to

Poul Erik Jørgensen skrev:

> men desværre har Lincoln endnu ikke afsløret hvad han
> skal med sit materiale.

Ja, det ville da unægtelig være en fordel hvis man vidste det.

TT

Herluf Holdt, 3140

unread,

Mar 31, 2003, 6:15:50 PM3/31/03

to

Poul Erik Jørgensen tastede:

> Men jeg fatter ikke helt hvad disse resultater isoleret kan
> bruges til.

Man kunne designe et bedre tastatur!

Når det er gjort, vil jeg overveje at lære blindskrift.
--
Med venlig hilsen Herluf Holdt

Klaus Alexander Seistrup

unread,

Mar 31, 2003, 11:28:43 PM3/31/03

to

Herluf Holdt, 3140 skrev:

>> Men jeg fatter ikke helt hvad disse resultater isoleret kan
>> bruges til.
>
> Man kunne designe et bedre tastatur!
>
> Når det er gjort, vil jeg overveje at lære blindskrift.

Det er faktisk gjort, jeg kan bare ikke huske linket. En engelsk-
talende gut satte sig for at undersøge om dvorak tastaturlayout er
bedre end qwerty, samt om man evt. kunne designe et layout som er
bedre end begge. "Bedre" betyder i denne sammenhæng at man sammen-
lagt skal bevæge fingrene mindst muligt for at skrive en gennem-
snitstekst, og at der veksles mellem brug af højre og venstre hånd.

Så vidt jeg husker, var konklusionen den at dvorak er bedre end
qwerty, men langtfra optimal. Fyren fandt flere alternative
måder at sætte tastaturet op på, som kunne være bedre end både
qwerty og dvorak. Hans resultater er dog gældende for engelsk,
så vi kan ikke umiddelbart overtage hans layout, men det burde
være en forholdsvis enkel sag at designe et tastaturlayout der
passer godt til danske tekster.

// Klaus
- som desværre ikke har fået lært dvorak endnu

Peter Makholm

unread,

Apr 1, 2003, 1:46:22 AM4/1/03

to

Klaus Alexander Seistrup <sp...@magnetic-ink.dk> writes:

> Det er faktisk gjort, jeg kan bare ikke huske linket. En engelsk-
> talende gut satte sig for at undersøge om dvorak tastaturlayout er
> bedre end qwerty, samt om man evt. kunne designe et layout som er
> bedre end begge.

Det blev nævnt på slashdot. Hele historien findes på:
<http://www.visi.com/~pmk/evolved.html>

Basalt set så laver han et mål for et tastaturlayouts effektivitet og
lader en genetisk algoritme finde 'optimale' layouts. Ganske
interessant læsning men man kan selvfølgelig altid diskutere om hans
mål for effektivitet er fornuftigt.

Klaus Alexander Seistrup

unread,

Apr 1, 2003, 2:43:25 AM4/1/03

to

Peter Makholm skrev:

> Det blev nævnt på slashdot. Hele historien findes på:
> <http://www.visi.com/~pmk/evolved.html>

Det er lige præcis dén historie jeg tænkte på.

> Ganske interessant læsning men man kan selvfølgelig altid
> diskutere om hans mål for effektivitet er fornuftigt.

Ja, og man kan altid sætte nogle andre kriterier op hvis man ikke
bryder sig om hans.

// Klaus

Lincoln

unread,

Apr 4, 2003, 7:14:08 AM4/4/03

to

Tusind tak for de mange gode svar.

Jeg tror, jeg vil prøve at pipe mine danske stile, og hvad jeg ellers
lige kan finde af tekster, til ent. Og så ellers basere mig på tallene
fra foregående poster.

Endnu tusind tak for hjælpen.

/Lincoln