Datentyp für Häufigkeitsverteilung

christo...@googlemail.com

unread,

Aug 12, 2009, 7:17:19 AM8/12/09

to

Hallo,

ich habe ein Informatikproblem und suche Anregungen dazu. Ich m�chte
H�ufigkeitsverteilungen in einem Datenobjekt darstellen und dann damit
mathematische Operationen durchf�hren.

Das Problem l�sst sich am besten �ber ein Beispiel erkl�ren, z.B. die
Verteilung von Automarken in der deutschen Bev�lkerung. Diese Verteilung
soll mehrere hierarchische Dimensionen haben, zum Beispiel

Dimension 1 = Ort : Bundesland->Kreis
Dimension 2 = Fahrzeug : Marke->PKW/LKW->Modell

Man k�nnte jede eigene Dimension als Baum darstellen, dann w�ren die
Dimensionen getrennt, z.B.

/ Aichach-Friedberg 5%
/ Alt�tting 7%
/ Amberg-Sulzbach 5%
Bayern 20%
/ \ ...
/ \ W�rzburg 10%
Ort
\
\ / Bergstra�e 3%
Hessen 10% Darmstadt-Dieburg 4%
\ ...

Fiat Nuova 500 3%
/ Grande Punto Abarth 10%
/
PKw 100%
/ \ ....
Abarth 8%
/ \
/ LKW 0%
/
Fahrzeug
\
\ ...
\ /
Volkswagen 30%
\
...

Um auszurechnen wie viele Fiat Nuova 500 in W�rzburg rumfahren w�rde man
dann den Anteil der Bev�lkerung in W�rzburg (0,2*0,1) mit dem Anteil des
Fiat Nuova (0,08*1*0,03*Anzahl Autos in Deutschland) in Deutschland
multiplizieren.

Da in W�rzburg Fiats aber gerade gro� in Mode sind, ist der Fiat-Anteil
gegen�ber dem deutschen Mittelwert erh�ht und ich bekomme, wenn ich so
vorgehe, einen recht gro�en Fehler. Genauer w�re es wenn das Datenobjekt
f�r W�rzburg die Zahl n der Fiats enthalten w�rde, das Ergebnis w�re
dann n mal den Anteil des Modells Nuova 500, also n*0,03.

Man k�nnte die Verteilungen nat�rlich auch vollst�ndig abbilden, indem
man eine riesige Matrix erzeugt, die f�r jede Automarke und jeden Kreis
eine Zahl enth�lt. Das kommt f�r mich aber nicht in Frage, das die
Matrix schlicht und einfach zu gro� wird.

Grob gesagt suche ich also ein Datenobjekt, mit dem ich mehrdimensionale
hierarchische Verteilungen darstellen kann und darauf Rechenoperationen
durchf�hren kann. Die Dimensionen sollen weder streng getrennt, noch
vollst�ndig verkn�pft sein, sondern vielmehr soll der Grad der
Verkn�pfung einstellbar sein.

Gibt es L�sungen daf�r? Hat Jemand eine Idee?

Danke
Christof

P.S. Sorry, falls ich die Frage mehrfach gepostet habe, ich hatte Probleme
mit meiner Gnus-Konfiguratio

Burkart Venzke

unread,

Aug 12, 2009, 2:38:06 PM8/12/09

to

Grob gesagt w�rde ich deine Hierarchien in B�umen abbilden und dann
Methoden bzw. Funktionen auf die B�ume schreiben, ggf. z.T. auf einen
einzelnen Baum oder eben auf mehrere bezogen.
(Also weniger ein komplexes explizites Datenobjekt als ein implizites
durch Funktionalit�t.)

Gru�
Burkart

Volker Birk

unread,

Aug 12, 2009, 4:24:07 PM8/12/09

to

christo...@googlemail.com wrote:
> Grob gesagt suche ich also ein Datenobjekt, mit dem ich mehrdimensionale
> hierarchische Verteilungen darstellen kann und darauf Rechenoperationen

> durchführen kann. Die Dimensionen sollen weder streng getrennt, noch
> vollständig verknüpft sein, sondern vielmehr soll der Grad der
> Verknüpfung einstellbar sein.
> Gibt es Lösungen dafür?

<http://en.wikipedia.org/wiki/Online_analytical_processing>

HTH, HAND,
VB.
--
"Du bist nur das, was ich genehmige."

Sachbarbeiter im Sozialamt Mülheim/Ruhr zum "Kunden"

Sebastian Biallas

unread,

Aug 13, 2009, 10:45:26 AM8/13/09

to

christo...@googlemail.com wrote:
> Hallo,
>
> ich habe ein Informatikproblem und suche Anregungen dazu. Ich m�chte
> H�ufigkeitsverteilungen in einem Datenobjekt darstellen und dann damit
> mathematische Operationen durchf�hren.
>
> Das Problem l�sst sich am besten �ber ein Beispiel erkl�ren, z.B. die
> Verteilung von Automarken in der deutschen Bev�lkerung. Diese Verteilung
> soll mehrere hierarchische Dimensionen haben, zum Beispiel
>
> Dimension 1 = Ort : Bundesland->Kreis
> Dimension 2 = Fahrzeug : Marke->PKW/LKW->Modell

Solche Beispiele sind immer schlecht, da sie m�glicherweise eine
Struktur implizieren, die Dein Datenmodell nicht enth�lt. Zum Beispiel
sieht es hier so aus, als ob nah beieinander liegende Orte auch eine
�hnliche Datenversteilung h�tten. In dem Fall bietet es sich nat�rlich
an, Deutschland etwas gr�ber einzuteilen.

Im �brigen hast Du nur eine Dimension: Die H�ufigkeit. (Eine zweite
Dimension w�re z.B. die Wagenfarbe). [Ort, Fahrzeug] ist Dein Schl�ssel.

Die Zuordnungen Bundesland->Kreis und Marke->PKW/LKW solltest Du hier
ganz rausnehmen und getrennt speichern, dann kannst Du auch diese
hierarchische Struktur da rauslassen.

> Um auszurechnen wie viele Fiat Nuova 500 in W�rzburg rumfahren w�rde man
> dann den Anteil der Bev�lkerung in W�rzburg (0,2*0,1) mit dem Anteil des
> Fiat Nuova (0,08*1*0,03*Anzahl Autos in Deutschland) in Deutschland
> multiplizieren.
>
> Da in W�rzburg Fiats aber gerade gro� in Mode sind, ist der Fiat-Anteil
> gegen�ber dem deutschen Mittelwert erh�ht und ich bekomme, wenn ich so
> vorgehe, einen recht gro�en Fehler. Genauer w�re es wenn das Datenobjekt
> f�r W�rzburg die Zahl n der Fiats enthalten w�rde, das Ergebnis w�re
> dann n mal den Anteil des Modells Nuova 500, also n*0,03.
>
> Man k�nnte die Verteilungen nat�rlich auch vollst�ndig abbilden, indem
> man eine riesige Matrix erzeugt, die f�r jede Automarke und jeden Kreis
> eine Zahl enth�lt. Das kommt f�r mich aber nicht in Frage, das die
> Matrix schlicht und einfach zu gro� wird.

Da wirst Du kaum drumherumkommen, wenn Du es genau haben willst.

Ansonsten sieht das sehr nach einem R-Baum oder �hnlichem aus, wenn
Deine Orte eine Metrik bilden.

--
Gru�,
Sebastian