ich habe ein Informatikproblem und suche Anregungen dazu. Ich m�chte
H�ufigkeitsverteilungen in einem Datenobjekt darstellen und dann damit
mathematische Operationen durchf�hren.
Das Problem l�sst sich am besten �ber ein Beispiel erkl�ren, z.B. die
Verteilung von Automarken in der deutschen Bev�lkerung. Diese Verteilung
soll mehrere hierarchische Dimensionen haben, zum Beispiel
Dimension 1 = Ort : Bundesland->Kreis
Dimension 2 = Fahrzeug : Marke->PKW/LKW->Modell
Man k�nnte jede eigene Dimension als Baum darstellen, dann w�ren die
Dimensionen getrennt, z.B.
/ Aichach-Friedberg 5%
/ Alt�tting 7%
/ Amberg-Sulzbach 5%
Bayern 20%
/ \ ...
/ \ W�rzburg 10%
Ort
\
\ / Bergstra�e 3%
Hessen 10% Darmstadt-Dieburg 4%
\ ...
Fiat Nuova 500 3%
/ Grande Punto Abarth 10%
/
PKw 100%
/ \ ....
Abarth 8%
/ \
/ LKW 0%
/
Fahrzeug
\
\ ...
\ /
Volkswagen 30%
\
...
Um auszurechnen wie viele Fiat Nuova 500 in W�rzburg rumfahren w�rde man
dann den Anteil der Bev�lkerung in W�rzburg (0,2*0,1) mit dem Anteil des
Fiat Nuova (0,08*1*0,03*Anzahl Autos in Deutschland) in Deutschland
multiplizieren.
Da in W�rzburg Fiats aber gerade gro� in Mode sind, ist der Fiat-Anteil
gegen�ber dem deutschen Mittelwert erh�ht und ich bekomme, wenn ich so
vorgehe, einen recht gro�en Fehler. Genauer w�re es wenn das Datenobjekt
f�r W�rzburg die Zahl n der Fiats enthalten w�rde, das Ergebnis w�re
dann n mal den Anteil des Modells Nuova 500, also n*0,03.
Man k�nnte die Verteilungen nat�rlich auch vollst�ndig abbilden, indem
man eine riesige Matrix erzeugt, die f�r jede Automarke und jeden Kreis
eine Zahl enth�lt. Das kommt f�r mich aber nicht in Frage, das die
Matrix schlicht und einfach zu gro� wird.
Grob gesagt suche ich also ein Datenobjekt, mit dem ich mehrdimensionale
hierarchische Verteilungen darstellen kann und darauf Rechenoperationen
durchf�hren kann. Die Dimensionen sollen weder streng getrennt, noch
vollst�ndig verkn�pft sein, sondern vielmehr soll der Grad der
Verkn�pfung einstellbar sein.
Gibt es L�sungen daf�r? Hat Jemand eine Idee?
Danke
Christof
P.S. Sorry, falls ich die Frage mehrfach gepostet habe, ich hatte Probleme
mit meiner Gnus-Konfiguratio
Gru�
Burkart
<http://en.wikipedia.org/wiki/Online_analytical_processing>
HTH, HAND,
VB.
--
"Du bist nur das, was ich genehmige."
Sachbarbeiter im Sozialamt Mülheim/Ruhr zum "Kunden"
Solche Beispiele sind immer schlecht, da sie m�glicherweise eine
Struktur implizieren, die Dein Datenmodell nicht enth�lt. Zum Beispiel
sieht es hier so aus, als ob nah beieinander liegende Orte auch eine
�hnliche Datenversteilung h�tten. In dem Fall bietet es sich nat�rlich
an, Deutschland etwas gr�ber einzuteilen.
Im �brigen hast Du nur eine Dimension: Die H�ufigkeit. (Eine zweite
Dimension w�re z.B. die Wagenfarbe). [Ort, Fahrzeug] ist Dein Schl�ssel.
Die Zuordnungen Bundesland->Kreis und Marke->PKW/LKW solltest Du hier
ganz rausnehmen und getrennt speichern, dann kannst Du auch diese
hierarchische Struktur da rauslassen.
> Um auszurechnen wie viele Fiat Nuova 500 in W�rzburg rumfahren w�rde man
> dann den Anteil der Bev�lkerung in W�rzburg (0,2*0,1) mit dem Anteil des
> Fiat Nuova (0,08*1*0,03*Anzahl Autos in Deutschland) in Deutschland
> multiplizieren.
>
> Da in W�rzburg Fiats aber gerade gro� in Mode sind, ist der Fiat-Anteil
> gegen�ber dem deutschen Mittelwert erh�ht und ich bekomme, wenn ich so
> vorgehe, einen recht gro�en Fehler. Genauer w�re es wenn das Datenobjekt
> f�r W�rzburg die Zahl n der Fiats enthalten w�rde, das Ergebnis w�re
> dann n mal den Anteil des Modells Nuova 500, also n*0,03.
>
> Man k�nnte die Verteilungen nat�rlich auch vollst�ndig abbilden, indem
> man eine riesige Matrix erzeugt, die f�r jede Automarke und jeden Kreis
> eine Zahl enth�lt. Das kommt f�r mich aber nicht in Frage, das die
> Matrix schlicht und einfach zu gro� wird.
Da wirst Du kaum drumherumkommen, wenn Du es genau haben willst.
Ansonsten sieht das sehr nach einem R-Baum oder �hnlichem aus, wenn
Deine Orte eine Metrik bilden.
--
Gru�,
Sebastian