Python a hashmapa

wodzik

unread,

Jan 9, 2010, 2:10:11 AM1/9/10

to

Witam

Jakiś czas temu napisałem sobie zadanko na SI z rozwiązywania n-puzzli,
czyli klasyczny A*. Wsio fajnie działa i zajmuje mało miejsca (3x mniej
niż kod w javie). Jedyny problem, że stany do rozpatrzenia i rozpatrzone
trzymam w liście. Przy dużej ilości stanów przeszukanie czy mamy taki
obiekt na liście zajmuje sporo czasu, więc fajnie by było jak bym
trzymał to w jakiejś hashmapie. I w tym miejscu zaczynają się schody, bo
nie bardzo mogę znaleźć jak w pythonie się coś takiego implementuje.

pozdrawiam wodzik

Michal

unread,

Jan 9, 2010, 4:23:48 AM1/9/10

to

hashmapa = {'a' : 1, 'n': 3}
print hashmapa['a']

--

wodzik

unread,

Jan 9, 2010, 6:01:42 AM1/9/10

to

On 2010-01-09 10:23, Michal wrote:

> hashmapa = {'a' : 1, 'n': 3}
> print hashmapa['a']

czyli rozumiem, ďż˝e operacje wstawiania - wyszukiwania majďż˝ zďż˝oďż˝onoďż˝ďż˝
obliczeniowďż˝ rďż˝wnďż˝ 1?

Stachu 'Dozzie' K.

unread,

Jan 9, 2010, 7:03:59 AM1/9/10

to

A widziaďż˝eďż˝ kiedyďż˝ strukturďż˝ speďż˝niajďż˝cďż˝ te kryteria? Z wyjďż˝tkiem
tablicy indeksowanej liczbami.

--
Secunia non olet.
Stanislaw Klekot

Rob Wolfe

unread,

Jan 9, 2010, 8:01:16 AM1/9/10

to

wodzik <wod...@noreply.com> writes:

Tu masz to ďż˝adnie wyjaďż˝nione:
http://wiki.python.org/moin/TimeComplexity

RW

wodzik

unread,

Jan 9, 2010, 3:45:12 PM1/9/10

to

On 2010-01-09 13:03, Stachu 'Dozzie' K. wrote:
>> czyli rozumiem, ďż˝e operacje wstawiania - wyszukiwania majďż˝ zďż˝oďż˝onoďż˝ďż˝
>> obliczeniowďż˝ rďż˝wnďż˝ 1?
>
> A widziaďż˝eďż˝ kiedyďż˝ strukturďż˝ speďż˝niajďż˝cďż˝ te kryteria? Z wyjďż˝tkiem
> tablicy indeksowanej liczbami.

Oczywiďż˝cie ďż˝e widziaďż˝em. Nazywa siďż˝ to hashmapa. Dziaďż˝a to tak, ďż˝e
rezerwujemy sobie pamiďż˝ďż˝, a potem na podstawie jakiejďż˝ funkcji
mieszajďż˝cej okreďż˝lamy gdzie dany element powinien znajdowaďż˝ siďż˝ w
tablicy i tam go wstawiamy. Jeďż˝li dla rďż˝nych obiektďż˝w mamy taki sam
adres wyszukujemy mu nowy, albo robimy listďż˝ w tym miejscu. Tyle z
szkoďż˝y. Ale link ktďż˝ry podaďż˝ Rob Wolfe chyba wyjaďż˝nia sprawďż˝
dostatecznie. Przy zastosowaniu sďż˝ownika ďż˝rednia zďż˝oďż˝onoďż˝ďż˝ pobrania
elementu wynosi O(1). Teraz pozostaje mi tylko napisaďż˝ funkcje ktďż˝ra w
jakiďż˝ sensowny sposďż˝b bďż˝dzie tworzyďż˝a klucz na podstawie mojej klasy.

Pozdrawiam wodzik

Jan Kaliszewski

unread,

Jan 9, 2010, 4:28:30 PM1/9/10

to

wodzik <wod...@noreply.com> napisał:

> On 2010-01-09 13:03, Stachu 'Dozzie' K. wrote:

>>> czyli rozumiem, że operacje wstawiania - wyszukiwania mają złożoność
>>> obliczeniową równą 1?
>>
>> A widziałeś kiedyś strukturę spełniającą te kryteria? Z wyjątkiem
>> tablicy indeksowanej liczbami.
>
> Oczywiście że widziałem. Nazywa się to hashmapa. Działa to tak, że
> rezerwujemy sobie pamięć, a potem na podstawie jakiejś funkcji
> mieszającej określamy gdzie dany element powinien znajdować się w
> tablicy i tam go wstawiamy. Jeśli dla różnych obiektów mamy taki sam
> adres wyszukujemy mu nowy, albo robimy listę w tym miejscu. Tyle z
> szkoły.

"Hashmapa" to jakiś potworek językowy. Po polsku na ogół mówimy o tablicy
mieszającej (lub haszującej), bądź ogólniej o tablicy asocjacyjnej lub
słowniku -- ang. dictionary, w Pythonie po prostu dict. Przy czym
pythonowa implementacja słownika należy do jednej z najlepiej wykonanych i
zoptymalizowanych -- nie dziwne, skoro Python wewnętrznie używa tej
struktury prawie na każdym kroku (do obsługi przestrzeni nazw, do
argumentów nazwanych...).¹

Podobną do słowników strukturą są w Pythonie zbiory (set). Można je
traktować jako słowniki z samymi kluczami (bez wartości) + wygodnymi
metodami do typowych operacji na zbiorach.

> Ale link który podał Rob Wolfe chyba wyjaśnia sprawę dostatecznie. Przy
> zastosowaniu słownika średnia złożoność pobrania elementu wynosi O(1).
> Teraz pozostaje mi tylko napisać funkcje która w jakiś sensowny sposób
> będzie tworzyła klucz na podstawie mojej klasy.

A według jakiego kryterium określasz "tożsamość" elementów w
dotychczasowym rozwiązaniu opartym na listach? Bo jeżeli wg tożsamości
(id) samego obiektu (lub równości, gdy nie jest specjalnie definiowana, co
również oznacza test tożsamości), to prawdopodobnie nie musisz żadnej
specjalnej funkcji pisać -- zastąp listy zbiorami i już [test ,,x in set''
daje średnio O(1)].

Pozdr.
*j

¹ Ciekawy artykuł na ten temat można przeczytać w książce "Piękny k0d.
Tajemnice mistrzów programowania" (tyt. oryg. "Beatiful Code: Leading
Programmers Explain How They Think") [wyd. Helion 2008]

--
Jan Kaliszewski (zuo)

wodzik

unread,

Jan 9, 2010, 5:15:10 PM1/9/10

to

On 2010-01-09 22:28, Jan Kaliszewski wrote:

> "Hashmapa" to jakiś potworek językowy. Po polsku na ogół mówimy o
> tablicy mieszającej (lub haszującej), bądź ogólniej o tablicy
> asocjacyjnej lub słowniku -- ang. dictionary,

Tak wiem, ale już się jakoś do niego przyzwyczaiłem. Nawet część
prowadzących używa tej nazwy ;)

> Podobną do słowników strukturą są w Pythonie zbiory (set). Można je
> traktować jako słowniki z samymi kluczami (bez wartości) + wygodnymi
> metodami do typowych operacji na zbiorach.

Będzie się trzeba dokształcić z zbiorów.

> A według jakiego kryterium określasz "tożsamość" elementów w
> dotychczasowym rozwiązaniu opartym na listach? Bo jeżeli wg tożsamości
> (id) samego obiektu (lub równości, gdy nie jest specjalnie definiowana,
> co również oznacza test tożsamości), to prawdopodobnie nie musisz żadnej
> specjalnej funkcji pisać -- zastąp listy zbiorami i już [test ,,x in
> set'' daje średnio O(1)].

Sprawdzam czy są na liście czymś w stylu: "if (not tmp in self.dzieci) &
(not tmp in self.rozpatrzone):", a funkcja do porównania wygląda tak:

def __cmp__(self,plansza):
if isinstance(plansza, Plansza):
tmp = cmp(self.h, plansza.h)
if tmp:
return tmp
return cmp(self.tablica, plansza.tablica)
else:
return cmp(self.h, plansza)

Bo za pomocą zwykłego porównania porównuje chyba samo id obiektu, a tu
chodziło o to, że ma sprawdzić czy h jest takie samo, a jeśli tak
porównać jeszcze tablice. W ogóle zastanawiam się jak zrobić, żeby z
zbioru wyciągał najpierw obiekty o jak najmniejszym h. Na liście daje
jakieś sortowanie przy wstawianiu i problem z głowy. Przy zbiorach chyba
by dać listę zbiorów, a w każdym elementy o innym h. Sprawdziło by się
takie co, czy macie inne pomysły?

> Pozdr.
> *j

Pozdrawiam wodzik

Stachu 'Dozzie' K.

unread,

Jan 9, 2010, 5:24:13 PM1/9/10

to

On 2010-01-09, wodzik <wod...@noreply.com> wrote:

> On 2010-01-09 13:03, Stachu 'Dozzie' K. wrote:
>>> czyli rozumiem, ďż˝e operacje wstawiania - wyszukiwania majďż˝ zďż˝oďż˝onoďż˝ďż˝
>>> obliczeniowďż˝ rďż˝wnďż˝ 1?
>>
>> A widziaďż˝eďż˝ kiedyďż˝ strukturďż˝ speďż˝niajďż˝cďż˝ te kryteria? Z wyjďż˝tkiem
>> tablicy indeksowanej liczbami.
>
> Oczywiďż˝cie ďż˝e widziaďż˝em. Nazywa siďż˝ to hashmapa. Dziaďż˝a to tak, ďż˝e
> rezerwujemy sobie pamiďż˝ďż˝, a potem na podstawie jakiejďż˝ funkcji
> mieszajďż˝cej okreďż˝lamy gdzie dany element powinien znajdowaďż˝ siďż˝ w
> tablicy i tam go wstawiamy. Jeďż˝li dla rďż˝nych obiektďż˝w mamy taki sam
> adres wyszukujemy mu nowy, albo robimy listďż˝ w tym miejscu. Tyle z
> szkoďż˝y.

To ze szkoďż˝y powinieneďż˝ wiedzieďż˝ ďż˝e to nie do koďż˝ca daje zďż˝oďż˝onoďż˝ďż˝ O(1).

> Ale link ktďż˝ry podaďż˝ Rob Wolfe chyba wyjaďż˝nia sprawďż˝
> dostatecznie. Przy zastosowaniu sďż˝ownika ďż˝rednia zďż˝oďż˝onoďż˝ďż˝ pobrania
> elementu wynosi O(1). Teraz pozostaje mi tylko napisaďż˝ funkcje ktďż˝ra w
> jakiďż˝ sensowny sposďż˝b bďż˝dzie tworzyďż˝a klucz na podstawie mojej klasy.

--

wodzik

unread,

Jan 9, 2010, 6:11:51 PM1/9/10

to

On 2010-01-09 23:24, Stachu 'Dozzie' K. wrote:

> To ze szkoďż˝y powinieneďż˝ wiedzieďż˝ ďż˝e to nie do koďż˝ca daje zďż˝oďż˝onoďż˝ďż˝ O(1).

Powiedz to moim wykďż˝adowcom, albo chociaďż˝ by Thomasowi Cormenowi.
Cytujďż˝c z ksiďż˝ďż˝ki "Wprowadzenie do algorytmďż˝w":
-"Przy rozsďż˝dnych zaďż˝oďż˝eniach moďż˝na wykazaďż˝, ďż˝e oczekiwany czas
wyszukiwania elementu z tablicy z haszowaniem wynosi O(1)."
czy:
-"ďż˝redni czas dziaďż˝ania podstawowych operacji sďż˝ownikowych na tablicy z
haszowaniem wynosi O(1)."

Oczywiďż˝cie moďż˝na czepiaďż˝ siďż˝, ďż˝e czasami w przypadku kilku elementďż˝w o 2
takich samych kluczach bďż˝dzie trzeba wykonaďż˝ jakďż˝ďż˝ dodatkowďż˝ operacje,
jednak w porďż˝wnaniu z zďż˝oďż˝onoďż˝ciďż˝ liniowďż˝ O(n) dla wiďż˝kszej iloďż˝ci
elementďż˝w jest to na tyle nieistotne, ďż˝e przyjmuje siďż˝, ďż˝e zďż˝oďż˝onoďż˝ďż˝
jest O(1), a nie np. O(1.3)

Pozdrawiam wodzik

Jan Kaliszewski

unread,

Jan 9, 2010, 9:26:48 PM1/9/10

to

On Sat, 09 Jan 2010 23:15:10 +0100, wodzik <wod...@noreply.com> wrote:

>> A według jakiego kryterium określasz "tożsamość" elementów w
>> dotychczasowym rozwiązaniu opartym na listach? Bo jeżeli wg tożsamości
>> (id) samego obiektu (lub równości, gdy nie jest specjalnie definiowana,
>> co również oznacza test tożsamości), to prawdopodobnie nie musisz żadnej
>> specjalnej funkcji pisać -- zastąp listy zbiorami i już [test ,,x in
>> set'' daje średnio O(1)].
>
> Sprawdzam czy są na liście czymś w stylu: "if (not tmp in self.dzieci) &
> (not tmp in self.rozpatrzone):",

W tym kontekście prawidłowo jest użyć 'and' (operator logiczny) a nie '&'
(operator bitowy).

> a funkcja do porównania wygląda tak:
>
> def __cmp__(self,plansza):
> if isinstance(plansza, Plansza):
> tmp = cmp(self.h, plansza.h)
> if tmp:
> return tmp
> return cmp(self.tablica, plansza.tablica)
> else:
> return cmp(self.h, plansza)

* Jeżeli obiekty są niezmienne (niemutowalne, ang. immutable), a więc
jeżeli atrybuty 'h' i 'tablica' używane do testowania równości nie
zmieniają się (ich wartości są niezmienne i nie są zastępowane innymi), to
po prostu zaimplementuj metodę __hash__, np. tak:

def __hash__(self):
return hash(self.h) ^ hash(self.tablica)
# oczywiście (skoro są niezmienne) można tę wartość wyliczyć
# raz, zapamiętać np. jako self._hasz i tu dać tylko:
# return self._hasz

I teraz Twoje obiekty mogą być już spokojnie kluczami w słownikach lub
elementami słowników.

Zastrzeżenie: obiekty traktowane jako równe powinny mieć równe hasze, więc
przy takiej implementacji __hash__() -- powinno się usunąć z __cmp__()
"else: return cmp(self.h, plansza)" (zastępując je np. "else: raise
TypeError('Porównujemy tylko z instancjami klasy Plansza!')"); alternatywą
jest oparcie __hash__ wyłącznie na hash(self.h) -- nieuwzględniając
self.tablica co jednak nie jest najlepszym rozwiązaniem z punktu widzenia
wydajności, ze względu na obiekty o równym 'h' a różnym 'tablica'...

Zob. http://docs.python.org/reference/datamodel.html#object.__hash__

* Jeżeli obiekty są zmienne, ale masz gwarancję, że każdy ma atrybut 'h'
lub 'tablica' zawsze różny niż mają pozostałe -- cała implementacja
__cmp__() i __hash__() jest niepotrzebna, bo możesz polegać na
standardowym mechanizmie porównywania i haszowania dla klas zdefiniowanych
przez użytkownika (jak słusznie się domyśliłeś -- opartym na id obiektu).

* Jeżeli obiekty są zmienne i nie masz powyższej gwarancji unikatowości
'h' lub 'tablica'... No cóż, udawanie, że obiekty mutowalne są
niemutowalne i implementowanie __hash__() na siłę, to proszenie się o
kłopoty -- czyli o nieprzewidziane efekty przy późniejszych próbach
używania takich obiektów jako kluczy słownikowych lub elementów zbiorów.
Więc lepiej explicite dać w tejże klasie: __hash__ = None (od Pythona 2.6;
w starszych wersjach: def __hash__(self): raise TypeError), by zaznaczyć,
że obiekty te są niehaszowalne.

A na potrzeby tej jednej operacji -- tu wracamy do punktu wyjścia --
używać słowników posługując się kluczami określonymi np. jako pary
(plansza.h, tuple(plansza.tablica)) (a właściwymi obiektami jako
słownikowymi wartościami). Oczywiście ma to sens, jeżeli przynajmniej na
czas używania takiego słownika zawartość klucza odpowiada zawartości
obiektu (a więc atrybuty 'h' i 'tablica' są chociaż czasowo
"niemututowalne").

Albo może lepiej -- ze względów wydajnościowych (patrz też niżej...) --
użyłbym słownika, w którym kluczami są plansza.h zaś wartościami słowniki,
w których kluczami są tuple(plansza.tablica), a wartościami właściwe
obiekty Plansza().

[Domyślam się, że h to liczba?]

> Bo za pomocą zwykłego porównania porównuje chyba samo id obiektu, a tu
> chodziło o to, że ma sprawdzić czy h jest takie samo, a jeśli tak
> porównać jeszcze tablice. W ogóle zastanawiam się jak zrobić, żeby z
> zbioru wyciągał najpierw obiekty o jak najmniejszym h. Na liście daje
> jakieś sortowanie przy wstawianiu i problem z głowy. Przy zbiorach chyba
> by dać listę zbiorów, a w każdym elementy o innym h. Sprawdziło by się
> takie co, czy macie inne pomysły?

Jeżeli przyjmiemy ten ostatni wariant -- że posługujemy się słownikiem z
kluczami plansza.h itd. -- to ja bym chyba użył "zsynchronizowanej" z nim
posortowanej listy tychże kluczy, obsługiwanej za pomocą funkcji z modułu
bisect. (Przy czym tę "synchronizację" można zapewniać albo po prostu
"ręcznie", wszędzie gdzie jest zmiana słownika zmieniając też tę listę,
albo też tworząc własną klasę SortedDict [lub wyszukując gotowiec w
necie]).

Pozdr.
*j

--
Jan Kaliszewski (zuo)

Jan Kaliszewski

unread,

Jan 10, 2010, 12:03:43 AM1/10/10

to

> albo też tworząc własną klasę SortedDict [lub wyszukując gotowiec w
> necie]).

http://code.activestate.com/recipes/576998/ :)

Pozdr.
*j

Stachu 'Dozzie' K.

unread,

Jan 10, 2010, 7:19:42 AM1/10/10

to

On 2010-01-09, wodzik <wod...@noreply.com> wrote:

> On 2010-01-09 23:24, Stachu 'Dozzie' K. wrote:
>
>> To ze szkoďż˝y powinieneďż˝ wiedzieďż˝ ďż˝e to nie do koďż˝ca daje zďż˝oďż˝onoďż˝ďż˝ O(1).
>
> Powiedz to moim wykďż˝adowcom, albo chociaďż˝ by Thomasowi Cormenowi.
> Cytujďż˝c z ksiďż˝ďż˝ki "Wprowadzenie do algorytmďż˝w":
> -"Przy rozsďż˝dnych zaďż˝oďż˝eniach moďż˝na wykazaďż˝, ďż˝e oczekiwany czas
> wyszukiwania elementu z tablicy z haszowaniem wynosi O(1)."
> czy:
> -"ďż˝redni czas dziaďż˝ania podstawowych operacji sďż˝ownikowych na tablicy z
> haszowaniem wynosi O(1)."
>
> Oczywiďż˝cie moďż˝na czepiaďż˝ siďż˝, ďż˝e czasami w przypadku kilku elementďż˝w o 2
> takich samych kluczach bďż˝dzie trzeba wykonaďż˝ jakďż˝ďż˝ dodatkowďż˝ operacje,

...a gdy tych elementďż˝w o jednakowych kluczach robi siďż˝ bardzo duďż˝o, to
szlag trafia gwarancje czasowe, czyli dokďż˝adnie to co mďż˝wiďż˝...

> jednak w porďż˝wnaniu z zďż˝oďż˝onoďż˝ciďż˝ liniowďż˝ O(n) dla wiďż˝kszej iloďż˝ci
> elementďż˝w jest to na tyle nieistotne, ďż˝e przyjmuje siďż˝, ďż˝e zďż˝oďż˝onoďż˝ďż˝
> jest O(1), a nie np. O(1.3)

O(1.3) jest w ogďż˝le bez sensu dla kogokolwiek, kto wie co to jest
zďż˝oďż˝onoďż˝ďż˝ obliczeniowa, bo to jest dokďż˝adnie O(1).

A przypadek jest doďż˝ďż˝ istotny, bo wpďż˝ywa i na pesymistycznďż˝, i na
zamortyzowanďż˝ zďż˝oďż˝onoďż˝ďż˝ obliczeniowďż˝, tylko zwyczajowo siďż˝ zakďż˝ada ďż˝e
nie wystďż˝puje.

wodzik

unread,

Jan 10, 2010, 7:38:44 AM1/10/10

to

On 2010-01-10 13:19, Stachu 'Dozzie' K. wrote:

>> Oczywiďż˝cie moďż˝na czepiaďż˝ siďż˝, ďż˝e czasami w przypadku kilku elementďż˝w o 2
>> takich samych kluczach bďż˝dzie trzeba wykonaďż˝ jakďż˝ďż˝ dodatkowďż˝ operacje,
>
> ...a gdy tych elementďż˝w o jednakowych kluczach robi siďż˝ bardzo duďż˝o, to
> szlag trafia gwarancje czasowe, czyli dokďż˝adnie to co mďż˝wiďż˝...

Tyle, ďż˝e jeďż˝li mamy za duďż˝o elementďż˝w to alokujemy nowďż˝ pamiďż˝ďż˝, mieszamy
listďż˝ na nowo i dalej mamy zďż˝oďż˝onoďż˝ďż˝ 1. Tak powinna dziaďż˝aďż˝ kaďż˝da dobrze
zaimplementowana hashmapa, a wydaje mi siďż˝, ďż˝e ta w pythonie wďż˝aďż˝nie
taka jest.

>> jednak w porďż˝wnaniu z zďż˝oďż˝onoďż˝ciďż˝ liniowďż˝ O(n) dla wiďż˝kszej iloďż˝ci
>> elementďż˝w jest to na tyle nieistotne, ďż˝e przyjmuje siďż˝, ďż˝e zďż˝oďż˝onoďż˝ďż˝
>> jest O(1), a nie np. O(1.3)
>
> O(1.3) jest w ogďż˝le bez sensu dla kogokolwiek, kto wie co to jest
> zďż˝oďż˝onoďż˝ďż˝ obliczeniowa, bo to jest dokďż˝adnie O(1).

No wďż˝aďż˝nie pisze, ďż˝e nawet jeďż˝li wykonujemy ďż˝rednio kilka operacji
zďż˝oďż˝onoďż˝ďż˝ to dajek jest O(1), bo jest to jakaďż˝ staďż˝a.

> A przypadek jest doďż˝ďż˝ istotny, bo wpďż˝ywa i na pesymistycznďż˝, i na
> zamortyzowanďż˝ zďż˝oďż˝onoďż˝ďż˝ obliczeniowďż˝, tylko zwyczajowo siďż˝ zakďż˝ada ďż˝e
> nie wystďż˝puje.

A spotkaďż˝eďż˝ siďż˝ kiedyďż˝ z przypadkiem w ktďż˝rym hashmapa miaďż˝a zďż˝oďż˝onoďż˝ďż˝
chociaďż˝ zbliďż˝onďż˝ do O(n)? W jakimďż˝ realnym programie, a nie w
akademickich dyskusjach.

Pozdrawiam wodzik

Łukasz Rekucki

unread,

Jan 10, 2010, 8:32:17 AM1/10/10

to

On Jan 10, 1:38 pm, wodzik <wod...@noreply.com> wrote:
> On 2010-01-10 13:19, Stachu 'Dozzie' K. wrote:
>

> >> Oczywiście można czepiać się, że czasami w przypadku kilku elementów o 2
> >> takich samych kluczach będzie trzeba wykonać jakąś dodatkową operacje,
>
> > ...a gdy tych elementów o jednakowych kluczach robi się bardzo dużo, to
> > szlag trafia gwarancje czasowe, czyli dokładnie to co mówię...
To zależy jak rozwiązujesz kolizję. Jeśli zamiast listy, użyjesz
drzewa AVL, to w średnim pesymistycznym przypadku dostaniesz Ο(log
n).

>
> Tyle, że jeśli mamy za dużo elementów to alokujemy nową pamięć, mieszamy
> listę na nowo i dalej mamy złożoność 1. Tak powinna działać każda dobrze
> zaimplementowana hashmapa, a wydaje mi się, że ta w pythonie właśnie
> taka jest.
To jest oczywiście tylko przy wstawianiu. Operacja taka kosztuję Ο(n)
i dlatego koszt wstawiania jest pesymistycznie Ο(n), ale średni
*zamortyzowany* koszt jest Ο(1). Przehashowanie wszystkie oczywiście
rozluźnia trochę kolizje, ale nie ma to wpływu na oszacowanie kosztu
pojedyńczego wyszukiwania.

>
> >> jednak w porównaniu z złożonością liniową O(n) dla większej ilości
> >> elementów jest to na tyle nieistotne, że przyjmuje się, że złożoność

> >> jest O(1), a nie np. O(1.3)
>

> > O(1.3) jest w ogóle bez sensu dla kogokolwiek, kto wie co to jest
> > złożoność obliczeniowa, bo to jest dokładnie O(1).
Ο(1) = Ο(1.3) = O(100), ale wszystkie trzy napisy mają sens.

>
> No właśnie pisze, że nawet jeśli wykonujemy średnio kilka operacji
> złożoność to dajek jest O(1), bo jest to jakaś stała.
Średni koszt wykonania operacji, to nie średnia kosztów wykonania
kilku operacji, tylko średnia z kosztów dla wszystkich możliwych
danych wejściowych. Dlatego w Cormenie jest napisane, że *przy
sensownych założeniach* (czyli np. przy utrzymywaniu sensownego
zapełnienia) średni czas wyszukiwania jest Ο(1).

> > A przypadek jest dość istotny, bo wpływa i na pesymistyczną, i na
> > zamortyzowaną złożoność obliczeniową, tylko zwyczajowo się zakłada że
> > nie występuje.
Wpływa na pesymistyczną, bo to jest ten pesymistyczny przypadek. Na
koszt wstawiania elementów, przy implementacji z listą, nie ma wpływu.
O zamortyzowanym koszcie wyszukiwania, to raczej nie ma co mówić, bo
wyszukiwanie nic nie zmienia z strukturze.

>
> A spotkałeś się kiedyś z przypadkiem w którym hashmapa miała złożoność
> chociaż zbliżoną do O(n)? W jakimś realnym programie, a nie w
> akademickich dyskusjach.
Tak, jak ktoś źle dobrał funkcję hashującą dla swoich elementów. Wtedy
bardzo szybko ilość kolizji staję się rzędu n.

> Pozdrawiam wodzik

wodzik

unread,

Jan 10, 2010, 7:06:56 PM1/10/10

to

Ogólnie wygląda to tak, że tablica się nie zmienia, a h jest wyliczane w
zależności od stany planszy (czyli tablicy) i liczby ruchów. W związku z
tym chyba zastosuje krotki, bo hash(self.tablica) nie przejdzie. Ogólnie
i h i tablica są przypisywane już w funkcji __init__, a potem już się
nie zmieniają. W sumie przydała by mi się teraz jakaś multimapa. Mógł
bym dla jednej wartości h trzymac wiele różnych stanów gry i dość prosto
na tym operować. Bo h będzie gdzieś w zakresie 1-kilkadziesiąt, a plansz
(stanów gry) będzie już kilka(naście/dziesiąt w zależności od rozmiaru)
tysięcy, a żeby rozwiązanie było optymalne, trzeba wybierać z stanów do
rozpatrzenia stan o najmniejszym możliwym h.

Co do mojej funkcji __cmp__. Fragment "else: return cmp(self.h,
plansza)" dałem, bo w każdym stanie gry zapisuje adres jego rodzica,
żeby móc wygodnie znaleźć ścieżkę od rozwiązania do stanu początkowego.
Działa to tak, że w stanie początkowym rodzic jest równy None i
wyświetlam rekurencyjnie od rozwiązania do czasu, aż rodzic jest różny
od None. Bez takiego czegoś nie chciało to zadziałać. Zawsze mógł bym
zrobić obsługę błędów w tej funkcji, ale tak wydawało mi się jakoś prościej.

W ogóle to chyba zajmę się tym jutro, bo właśnie skończyłem pisać
bdrzewo i chwilowo mam dość kodowania i myślenia ;)

Pozdrawiam wodzik

wodzik

unread,

Jan 10, 2010, 7:40:19 PM1/10/10

to

Chwila myślenia nad multimapa i wymyśliłem, że mogę zrobić coś takiego:

a = { 1:set(), 2:set(), .... }

gdzie liczba będzie moim h. Przy każdym stanie który chcę umieścić daje kod:
if h in a:
a[h].add(obiekt)
else:
a[h] = set()
a[h].add(obiekt)

i mam zbiór zbiorów posortowanych wg h automatycznie. W dodatku nie
muszę się martwić o powtarzające się obiekty, bo jeśli chce dodać obiekt
który już jest nic się nie dzieje. Ogólnie wydaje mi się, że takie coś
będzie bardzo prosto działać.

Pozdrawiam wodzik

Łukasz Rekucki

unread,

Jan 10, 2010, 9:28:45 PM1/10/10

to

Skąd niby bierze ci się to posortowanie ? Nie wiesz pod, którym w
słowniku a jest pierwszy niepusty zbiór. Musiałbyś je przechodzić po
kolei i patrzeć czy są niepuste. Do takich rzeczy należy używać kopcy:
http://pypi.python.org/pypi/HeapDict

wodzik

unread,

Jan 11, 2010, 3:29:20 AM1/11/10

to

On 2010-01-11 03:28, ďż˝ukasz Rekucki wrote:

> Skďż˝d niby bierze ci siďż˝ to posortowanie ? Nie wiesz pod, ktďż˝rym w
> sďż˝owniku a jest pierwszy niepusty zbiďż˝r. Musiaďż˝byďż˝ je przechodziďż˝ po
> kolei i patrzeďż˝ czy sďż˝ niepuste. Do takich rzeczy naleďż˝y uďż˝ywaďż˝ kopcy:
> http://pypi.python.org/pypi/HeapDict

Hmm... Wczoraj dodaďż˝em kilka pozycji do takiego czegoďż˝ i wydawaďż˝o mi
siďż˝, ďż˝e byďż˝y po kolei, ale zmďż˝czony juďż˝ byďż˝em. W kaďż˝dym razie
doksztaďż˝cam siďż˝ dalej z wszelkich moďż˝liwych struktur w pythonie ;)

Pozdrawiam wodzik

wodzik

unread,

Jan 11, 2010, 3:57:07 AM1/11/10

to

Caďż˝kiem fajny ten kopiec, tylko nie da siďż˝ odnieďż˝ďż˝ do pierwszej
wartoďż˝ci bez kombinowania. Przy dodawaniu kod bďż˝dzie taki sam, ale juďż˝
przy usuwaniu bďż˝dziemy mieli:

tmp = a.keys()[0]
a[tmp].pop()
if not a[tmp]:
a.pop(tmp)

Kod co prawda banalny, ale po pythonie spodziewaďż˝ bym siďż˝ metody w stylu
first(), czy jakoďż˝ tak. W kaďż˝dym razie dziďż˝ki wszystkim za naprowadzenie.

Pozdrawiam wodzik

wodzik

unread,

Jan 11, 2010, 1:59:18 PM1/11/10

to

Ok program działa, wzrost wydajności to kilkaset procent, tyle że
zastanawia mnie jedna rzecz. Mimo, że w klasie Plansza mam
zaimplementowaną metodę __hash__(), przy dodawaniu do zbioru, dalej
używa id obiektu, żeby sprawdzić czy już tam jest:

>>> a= Plansza(3, (0, 4, 3, 6, 2, 5, 8, 1, 7))
>>> b = Plansza(3,(0, 4, 3, 6, 2, 5, 8, 1, 7))
>>> c = Plansza(3,(0, 4, 3, 6, 2, 5, 8, 1, 7))
>>> d = set()
>>> d.add(a)
>>> d.add(b)
>>> a
<npuzzle_heap.Plansza object at 0x01693E50>
>>> b
<npuzzle_heap.Plansza object at 0x01685730>
>>> c
<npuzzle_heap.Plansza object at 0x01685AB0>
>>> a in d
True
>>> b in d
True
>>> c in d
False
>>> c.tablica
(0, 4, 3, 6, 2, 5, 8, 1, 7)
>>> b.tablica
(0, 4, 3, 6, 2, 5, 8, 1, 7)
>>> hash(c)
-1951000095
>>> hash(b)
-1951000095

czyli metoda hash działa, ale zbiór jej nie używa. Żeby nie było, że coś
źle zaimplementowałem:

def __hash__(self):
return hash(self.tablica)

Ktoś wie o co z tym biega?

wodzik

unread,

Jan 11, 2010, 2:15:33 PM1/11/10

to

Chyba działa to na takiej zasadzie, że hash ustala miejsce gdzie ma być
wstawione, a cmp sprawdza, czy to co już jest wstawione nie jest takie
samo, jak to co chcemy wstawić i dlatego musimy mieć oba... Coś nie mogę
się dokopać do tego w dokumentacji.

Łukasz Rekucki

unread,

Jan 11, 2010, 3:13:09 PM1/11/10

to

http://docs.python.org/reference/datamodel.html#object.__hash__
http://docs.python.org/3.1/reference/datamodel.html#object.__hash__

"""If a class does not define a __cmp__() or __eq__() method it should
not define a __hash__() operation either;"""

(przy okazji, __cmp__ jest wycofywane i nie będzie dostępne w py3k,
lepiej użyć __eq__)

Sebastian Kaliszewski

unread,

Jan 13, 2010, 11:38:25 AM1/13/10

to

wodzik wrote:
> On 2010-01-09 23:24, Stachu 'Dozzie' K. wrote:
>
>> To ze szkoďż˝y powinieneďż˝ wiedzieďż˝ ďż˝e to nie do koďż˝ca daje zďż˝oďż˝onoďż˝ďż˝ O(1).
>
> Powiedz to moim wykďż˝adowcom, albo chociaďż˝ by Thomasowi Cormenowi.
> Cytujďż˝c z ksiďż˝ďż˝ki "Wprowadzenie do algorytmďż˝w":
> -"Przy rozsďż˝dnych zaďż˝oďż˝eniach moďż˝na wykazaďż˝, ďż˝e oczekiwany czas
> wyszukiwania elementu z tablicy z haszowaniem wynosi O(1)."
> czy:
> -"ďż˝redni czas dziaďż˝ania podstawowych operacji sďż˝ownikowych na tablicy z
> haszowaniem wynosi O(1)."

Co jest w ogďż˝lnoďż˝ci kďż˝amstwem. Choďż˝ w realnych sytuacjach jest OK (choďż˝
w realnych sytuacjach moďż˝na by formalnie poprawnie napisaďż˝ ďż˝e dostďż˝p do
dowolnego elementu do realnej listy to O(1) tylko staďż˝a czasowa duďż˝a :)
(Pamiďż˝ďż˝ komputerďż˝w jest ograniczona przez staďż˝ďż˝, przeszukanie jest
jest wiďż˝c formalnie O(1) -- oczywiďż˝cie maďż˝o to przydatne do
czegokolwiek, ale formalnie jest OK. :) )

Wszystkie te O(1) dziaďż˝ajďż˝ tylko i wyďż˝ďż˝cznie dziďż˝ki temu, ďż˝e pamiďż˝ďż˝ jest
skoďż˝czona, wiďż˝c dďż˝ugoďż˝ďż˝ reprezentacji dowolnego indeksu / hasha itp jest
twardo ograniczona z gďż˝ry niewielkďż˝ staďż˝ďż˝ (w dzisiejszych czasach staďż˝ďż˝
to jest 64).

Bo tan ka prawdďż˝ to zarďż˝wno odwoďż˝anie do tablicy hashujďż˝cej czy nawet do
dowlonej pozycji w zwykďż˝ej tablicy to ma koszt nie O(1) tylko O(log n).
Bo nie ma cudďż˝w i zapis dowolnego indeksu do struktury dďż˝ugoďż˝ci n musi
mieďż˝ zajďż˝ďż˝ log n. A ďż˝e siďż˝gniďż˝cie pod dany indeks w wiďż˝kszoďż˝ci
przypadkďż˝w wymaga "obejrzenia" caďż˝oďż˝ci jego zapisu to jest ograniczone z
doďż˝u przez O(log n).

W dzisiejszych komputerach korzystamy z tego, ďż˝e podstawa tego log jest
duďż˝a (2**32 lub 2**64) i dlatego w praktyce zwija siďż˝ to do O(1).

> Oczywiďż˝cie moďż˝na czepiaďż˝ siďż˝, ďż˝e czasami w przypadku kilku elementďż˝w o 2
> takich samych kluczach bďż˝dzie trzeba wykonaďż˝ jakďż˝ďż˝ dodatkowďż˝ operacje,
> jednak w porďż˝wnaniu z zďż˝oďż˝onoďż˝ciďż˝ liniowďż˝ O(n) dla wiďż˝kszej iloďż˝ci
> elementďż˝w jest to na tyle nieistotne, ďż˝e przyjmuje siďż˝, ďż˝e zďż˝oďż˝onoďż˝ďż˝
> jest O(1), a nie np. O(1.3)

Jak juďż˝ inni napisali, O(1) == O(1.3) == O(103453123)

Nawet i przy rozsďż˝dnych zaďż˝oďż˝eniach moďż˝na mieďż˝ pecha i dostaďż˝ O(n).

To O(1) o jakim pisze Cormen to koszt zamortyzowany

pzdr
\SK
--
"Never underestimate the power of human stupidity" -- L. Lang
--
http://www.tajga.org -- (some photos from my travels)

Łukasz Rekucki

unread,

Jan 14, 2010, 11:31:42 AM1/14/10

to

> Co jest w ogólności kłamstwem. Choć w realnych sytuacjach jest OK (choć
> w realnych sytuacjach można by formalnie poprawnie napisać że dostęp do
> dowolnego elementu do realnej listy to O(1) tylko stała czasowa duża :)
> (Pamięć komputerów jest ograniczona przez stałą, przeszukanie jest
> jest więc formalnie O(1) -- oczywiście mało to przydatne do

> czegokolwiek, ale formalnie jest OK. :) )

Nie, nie można by, bo zależy on od ilości elementów w tej liście. I
nie jest to formalnie ok, bo poprostu liczysz zupełnie coś innego.

>
> Wszystkie te O(1) działają tylko i wyłącznie dzięki temu, że pamięć jest
> skończona, więc długość reprezentacji dowolnego indeksu / hasha itp jest
> twardo ograniczona z góry niewielką stałą (w dzisiejszych czasach stałą
> to jest 64).
Prawię, 2**64, to tylko 1TB - w linux'ie spokojnie możesz mieć 4TB
pamięci wirtualnej.

> Bo tak na prawdę to zarówno odwołanie do tablicy hashującej czy nawet do
> dowlonej pozycji w zwykłej tablicy to ma koszt nie O(1) tylko O(log n).
> Bo nie ma cudów i zapis dowolnego indeksu do struktury długości n musi
> mieć zająć log n. A że sięgnięcie pod dany indeks w większości
> przypadków wymaga "obejrzenia" całości jego zapisu to jest ograniczone z
> dołu przez O(log n).

Niby masz rację, ale po drodze zmieniasz model obliczeń. Długość
liczby na takim przyziemnym komputerze jak mój jest stała, a procesor
wykonuję na niej operację w jednym albo kilku taktach - niezależnie od
jej wartości. Długość struktury zupełnie go jakoś nie obchodzi.

> W dzisiejszych komputerach korzystamy z tego, że podstawa tego log jest
> duża (2**32 lub 2**64) i dlatego w praktyce zwija się to do O(1).
NIE, NIE, NIE - Dla dowolnego C i dowolnej funkcji stałej g, Istnieje
n, t. że log_C(n) > g(n), więc nigdy log_C(n) nie będzie O(1). Nigdy.
To są dwie różne klasy funkcji.

Powodem nie jest jakieś *magiczne* oszacowanie, czy zwijanie się,
tylko model obliczeń. Poprostu mnie nie interesuję ile kosztują
operację na liczbach!

Mam:
1) pamięć RAM o stałym czasie dostępu
2) Maszynę, która umie wykonywać arytmetykę na liczbach w czasie
stałym.
I pytam się jaka jest zależność ilości takich operacji od ilości
danych?

To nie jest model uniwersalny, ale się tutaj sprawdza.

> > Oczywiście można czepiać się, że czasami w przypadku kilku elementów o 2
> > takich samych kluczach będzie trzeba wykonać jakąś dodatkową operacje,

> > jednak w porównaniu z złożonością liniową O(n) dla większej ilości
> > elementów jest to na tyle nieistotne, że przyjmuje się, że złożoność

> > jest O(1), a nie np. O(1.3)
>

> Jak już inni napisali, O(1) == O(1.3) == O(103453123)
>
> Nawet i przy rozsądnych założeniach można mieć pecha i dostać O(n).

>
> To O(1) o jakim pisze Cormen to koszt zamortyzowany

Nie. Co ma wyszukanie do amortyzacji! Wikipedia to może nie jest
najlepsze źródło, ale tu akurat jest ok:

http://en.wikipedia.org/wiki/Best,_worst_and_average_case

Sensowne założenia ~ średni przypadek.

>
> pzdr
> \SK
> --
> "Never underestimate the power of human stupidity" -- L. Lang

> --http://www.tajga.org-- (some photos from my travels)

Sebastian Kaliszewski

unread,

Jan 15, 2010, 6:48:23 AM1/15/10

to

ďż˝ukasz Rekucki wrote:
>> Co jest w ogďż˝lnoďż˝ci kďż˝amstwem. Choďż˝ w realnych sytuacjach jest OK (choďż˝

>> w realnych sytuacjach moďż˝na by formalnie poprawnie napisaďż˝ ďż˝e dostďż˝p do

>> dowolnego elementu do realnej listy to O(1) tylko staďż˝a czasowa duďż˝a :)
>> (Pamiďż˝ďż˝ komputerďż˝w jest ograniczona przez staďż˝ďż˝, przeszukanie jest

>> jest wiďż˝c formalnie O(1) -- oczywiďż˝cie maďż˝o to przydatne do

>> czegokolwiek, ale formalnie jest OK. :) )

> Nie, nie moďż˝na by, bo zaleďż˝y on od iloďż˝ci elementďż˝w w tej liďż˝cie.

I co z tego? Jest zawsze ograniczony z gďż˝ry przez staďż˝ďż˝. Przeczytaj
sobie definicjďż˝ zapisu O(x).

> I
> nie jest to formalnie ok, bo poprostu liczysz zupeďż˝nie coďż˝ innego.

Jest formalnie ok. Maďż˝o przydatne, ale OK.

>
>> Wszystkie te O(1) dziaďż˝ajďż˝ tylko i wyďż˝ďż˝cznie dziďż˝ki temu, ďż˝e pamiďż˝ďż˝ jest

>> skoďż˝czona, wiďż˝c dďż˝ugoďż˝ďż˝ reprezentacji dowolnego indeksu / hasha itp jest

>> twardo ograniczona z gďż˝ry niewielkďż˝ staďż˝ďż˝ (w dzisiejszych czasach staďż˝ďż˝
>> to jest 64).

> Prawiďż˝, 2**64, to tylko 1TB

Aleďż˝ skďż˝d. To 16EB -- Pomylileďż˝ siďż˝ "jedynie" 2**24 krotnie.

>- w linux'ie spokojnie moďż˝esz mieďż˝ 4TB
> pamiďż˝ci wirtualnej.

Nie szkodzi. To i tak 2**22 razy mniej niďż˝ limit.

>> Bo tak na prawdďż˝ to zarďż˝wno odwoďż˝anie do tablicy hashujďż˝cej czy nawet do
>> dowlonej pozycji w zwykďż˝ej tablicy to ma koszt nie O(1) tylko O(log n).

>> Bo nie ma cudďż˝w i zapis dowolnego indeksu do struktury dďż˝ugoďż˝ci n musi
>> mieďż˝ zajďż˝ďż˝ log n. A ďż˝e siďż˝gniďż˝cie pod dany indeks w wiďż˝kszoďż˝ci

>> przypadkďż˝w wymaga "obejrzenia" caďż˝oďż˝ci jego zapisu to jest ograniczone z
>> doďż˝u przez O(log n).
>
> Niby masz racjďż˝, ale po drodze zmieniasz model obliczeďż˝. Dďż˝ugoďż˝ďż˝
> liczby na takim przyziemnym komputerze jak mďż˝j jest staďż˝a, a procesor
> wykonujďż˝ na niej operacjďż˝ w jednym albo kilku taktach - niezaleďż˝nie od
> jej wartoďż˝ci. Dďż˝ugoďż˝ďż˝ struktury zupeďż˝nie go jakoďż˝ nie obchodzi.

Oczywiďż˝cie, ďż˝e go obchodzi. Dďż˝uďż˝sza siďż˝ nie zmieďż˝ci. To dosyďż˝ kluczowe
ograniczenie.

>
>> W dzisiejszych komputerach korzystamy z tego, ďż˝e podstawa tego log jest

>> duďż˝a (2**32 lub 2**64) i dlatego w praktyce zwija siďż˝ to do O(1).
> NIE, NIE, NIE - Dla dowolnego C i dowolnej funkcji staďż˝ej g, Istnieje
> n, t. ďż˝e log_C(n) > g(n), wiďż˝c nigdy log_C(n) nie bďż˝dzie O(1). Nigdy.
> To sďż˝ dwie rďż˝ne klasy funkcji.
>
> Powodem nie jest jakieďż˝ *magiczne* oszacowanie, czy zwijanie siďż˝,
> tylko model obliczeďż˝. Poprostu mnie nie interesujďż˝ ile kosztujďż˝
> operacjďż˝ na liczbach!
>
> Mam:
> 1) pamiďż˝ďż˝ RAM o staďż˝ym czasie dostďż˝pu
> 2) Maszynďż˝, ktďż˝ra umie wykonywaďż˝ arytmetykďż˝ na liczbach w czasie
> staďż˝ym.
> I pytam siďż˝ jaka jest zaleďż˝noďż˝ďż˝ iloďż˝ci takich operacji od iloďż˝ci
> danych?
>
> To nie jest model uniwersalny, ale siďż˝ tutaj sprawdza.

To siďż˝ robi trochďż˝ inaczej. Przyjmuje siďż˝ nie jakďż˝ďż˝ jednostkďż˝ czasu,
tylko liczbďż˝ operacji okreďż˝lonych typďż˝w -- wtedy siďż˝ zgadza i nie zaleďż˝y
od wielkoďż˝ci pamiďż˝ci.

>>> Oczywiďż˝cie moďż˝na czepiaďż˝ siďż˝, ďż˝e czasami w przypadku kilku elementďż˝w o 2

>>> takich samych kluczach bďż˝dzie trzeba wykonaďż˝ jakďż˝ďż˝ dodatkowďż˝ operacje,
>>> jednak w porďż˝wnaniu z zďż˝oďż˝onoďż˝ciďż˝ liniowďż˝ O(n) dla wiďż˝kszej iloďż˝ci
>>> elementďż˝w jest to na tyle nieistotne, ďż˝e przyjmuje siďż˝, ďż˝e zďż˝oďż˝onoďż˝ďż˝

>>> jest O(1), a nie np. O(1.3)

>> Jak juďż˝ inni napisali, O(1) == O(1.3) == O(103453123)
>>

>> Nawet i przy rozsďż˝dnych zaďż˝oďż˝eniach moďż˝na mieďż˝ pecha i dostaďż˝ O(n).

>>
>> To O(1) o jakim pisze Cormen to koszt zamortyzowany
>
> Nie. Co ma wyszukanie do amortyzacji!

To, ďż˝e ďż˝ďż˝czny koszt wyszukaďż˝ wszystkich elementďż˝w jest ograniczony z
gďż˝ry liniowo.

> Wikipedia to moďż˝e nie jest
> najlepsze ďż˝rďż˝dďż˝o, ale tu akurat jest ok:
>

Nie musisz mnie tego uczyďż˝. Zamortyzowany znaczy ďż˝redni po wszystkich
wyszukiwaniach.

> Sensowne zaďż˝oďż˝enia ~ ďż˝redni przypadek.

Ale stwierdzenie staďż˝y koszt zamortyzowany jest lepsze niďż˝ ďż˝redni koszt
staďż˝y, bo nie bardzo wiadomo co to czas ďż˝redni -- ďż˝rednia po czym liczona?

pzdr
\SK

--
"Never underestimate the power of human stupidity" -- L. Lang
--

http://www.tajga.org -- (some photos from my travels)

Łukasz Rekucki

unread,

Jan 15, 2010, 7:28:00 AM1/15/10

to

On Jan 15, 12:48 pm, Sebastian Kaliszewski

<s.bez_sp...@remove.this.informa.and.that.pl> wrote:
> ukasz Rekucki wrote:

> >> Co jest w og lno ci k amstwem. Cho w realnych sytuacjach jest OK (cho
> >> w realnych sytuacjach mo na by formalnie poprawnie napisa e dost p do
> >> dowolnego elementu do realnej listy to O(1) tylko sta a czasowa du a :)
> >> (Pami komputer w jest ograniczona przez sta , przeszukanie jest
> >> jest wi c formalnie O(1) -- oczywi cie ma o to przydatne do

> >> czegokolwiek, ale formalnie jest OK. :) )

> > Nie, nie mo na by, bo zale y on od ilo ci element w w tej li cie.
>
> I co z tego? Jest zawsze ograniczony z g ry przez sta . Przeczytaj
> sobie definicj zapisu O(x).
Nie jest ograniczony przez stałą, bo model obliczeń o którym
rozmawiamy, nie ma takich ograniczeń jak pamięć! Definicja klas o(x), O
(x) i theta(x) to już w ogóle nie widzą co to jest "pamięć". Jaki jest
sens notacji granicznej do nieskończoności, jeśli ograniczasz z góry
argumenty ?! żaden.

> > I
> > nie jest to formalnie ok, bo poprostu liczysz zupe nie co innego.
>
> Jest formalnie ok. Ma o przydatne, ale OK.
Nie w tym modelu obliczeń. W innym może tak, ale nie w tym.

> >> Wszystkie te O(1) dzia aj tylko i wy cznie dzi ki temu, e pami jest
> >> sko czona, wi c d ugo reprezentacji dowolnego indeksu / hasha itp jest
> >> twardo ograniczona z g ry niewielk sta (w dzisiejszych czasach sta
> >> to jest 64).
> > Prawi , 2**64, to tylko 1TB
>
> Ale sk d. To 16EB -- Pomylile si "jedynie" 2**24 krotnie.
Ok, pomyliłem się.

>
> >- w linux'ie spokojnie mo esz mie 4TB
> > pami ci wirtualnej.
>
> Nie szkodzi. To i tak 2**22 razy mniej ni limit.
Niż 2**64 taj, ale do tego nie trzeba mieć architektury 64-bitowej.
Jeśli masz tylko 32-bitowe adresy, to każdy proces jest ograniczony do
4GB, ale cały może alokować więcej. Technika jest prosta - należy
używać tablic wielopoziomowych.

> >> Bo tak na prawd to zar wno odwo anie do tablicy hashuj cej czy nawet do
> >> dowlonej pozycji w zwyk ej tablicy to ma koszt nie O(1) tylko O(log n).
> >> Bo nie ma cud w i zapis dowolnego indeksu do struktury d ugo ci n musi
> >> mie zaj log n. A e si gni cie pod dany indeks w wi kszo ci
> >> przypadk w wymaga "obejrzenia" ca o ci jego zapisu to jest ograniczone z
> >> do u przez O(log n).
>
> > Niby masz racj , ale po drodze zmieniasz model oblicze . D ugo
> > liczby na takim przyziemnym komputerze jak m j jest sta a, a procesor
> > wykonuj na niej operacj w jednym albo kilku taktach - niezale nie od
> > jej warto ci. D ugo struktury zupe nie go jako nie obchodzi.
>
> Oczywi cie, e go obchodzi. D u sza si nie zmie ci. To dosy kluczowe
> ograniczenie.
Twój komputer ma widać dużo zmartwień. Co nie zmienia faktu, że 1 +1
działa tak samo szybko jak 10000 + 10000.

> >> W dzisiejszych komputerach korzystamy z tego, e podstawa tego log jest
> >> du a (2**32 lub 2**64) i dlatego w praktyce zwija si to do O(1).
> > NIE, NIE, NIE - Dla dowolnego C i dowolnej funkcji sta ej g, Istnieje
> > n, t. e log_C(n) > g(n), wi c nigdy log_C(n) nie b dzie O(1). Nigdy.
> > To s dwie r ne klasy funkcji.
>
> > Powodem nie jest jakie *magiczne* oszacowanie, czy zwijanie si ,
> > tylko model oblicze . Poprostu mnie nie interesuj ile kosztuj
> > operacj na liczbach!
>
> > Mam:
> > 1) pami RAM o sta ym czasie dost pu
> > 2) Maszyn , kt ra umie wykonywa arytmetyk na liczbach w czasie
> > sta ym.
> > I pytam si jaka jest zale no ilo ci takich operacji od ilo ci
> > danych?
>
> > To nie jest model uniwersalny, ale si tutaj sprawdza.
>
> To si robi troch inaczej. Przyjmuje si nie jak jednostk czasu,
> tylko liczb operacji okre lonych typ w -- wtedy si zgadza i nie zale y
> od wielko ci pami ci.
Inaczej, czyli tak jak napisałem. Interesuje mnie ilość dostępów do
pamięci i operacji arytmetyki.

> >>> Oczywi cie mo na czepia si , e czasami w przypadku kilku element w o 2
> >>> takich samych kluczach b dzie trzeba wykona jak dodatkow operacje,
> >>> jednak w por wnaniu z z o ono ci liniow O(n) dla wi kszej ilo ci
> >>> element w jest to na tyle nieistotne, e przyjmuje si , e z o ono

> >>> jest O(1), a nie np. O(1.3)

> >> Jak ju inni napisali, O(1) == O(1.3) == O(103453123)
>
> >> Nawet i przy rozs dnych za o eniach mo na mie pecha i dosta O(n).

>
> >> To O(1) o jakim pisze Cormen to koszt zamortyzowany
>
> > Nie. Co ma wyszukanie do amortyzacji!
>

> To, e czny koszt wyszuka wszystkich element w jest ograniczony z
> g ry liniowo.
I co ma to wspólnego z amortyzacją ? Koszt znalezienia pojedyńczego
elementu, też się szacuję z góry przez ilość elementów. I co nagle do
tego mają wszystkie elementy?

> > Wikipedia to mo e nie jest
> > najlepsze r d o, ale tu akurat jest ok:
>
> Nie musisz mnie tego uczy . Zamortyzowany znaczy redni po wszystkich
> wyszukiwaniach.(
Nie. Zamortyzowany znaczy średni w ciągu N operacji np. N razy znajdź
liczbę 8. Jeśli 8 było na końcu listy kollzji długości n/2, to
jednostkowy koszt będzie O(n) i zamortyzowany też będzie O(n). Jeśli
bardzo się upierasz przy znajdowaniu wszystkich, to wystarczy wziąć
tablicę z K elementami, gdzie wszystkie są w kolizji. Wyszukanie ich
wszystkich zajmię ci ~ K^2.

> > Sensowne za o enia ~ redni przypadek.
>
> Ale stwierdzenie sta y koszt zamortyzowany jest lepsze ni redni koszt
> sta y, bo nie bardzo wiadomo co to czas redni -- rednia po czym liczona?
średni koszt = koszt w średnim przypadku. Bardziej po polsku pewnie by
było "typowym" przypadku, ale tak już jakoś jest. To co jest typowym
przypadkiem oczywiście jest bardzo względne. Dlatego w Cormenie jest
"sensowne założenia"!

>
> pzdr
> \SK
>
> --
> "Never underestimate the power of human stupidity" -- L. Lang

> --http://www.tajga.org-- (some photos from my travels)

Sebastian Kaliszewski

unread,

Jan 18, 2010, 6:21:40 AM1/18/10

to

Psujesz polskie literki.

ďż˝ukasz Rekucki wrote:
> On Jan 15, 12:48 pm, Sebastian Kaliszewski
> <s.bez_sp...@remove.this.informa.and.that.pl> wrote:
>> ukasz Rekucki wrote:
>>>> Co jest w og lno ci k amstwem. Cho w realnych sytuacjach jest OK (cho
>>>> w realnych sytuacjach mo na by formalnie poprawnie napisa e dost p do
>>>> dowolnego elementu do realnej listy to O(1) tylko sta a czasowa du a :)
>>>> (Pami komputer w jest ograniczona przez sta , przeszukanie jest
>>>> jest wi c formalnie O(1) -- oczywi cie ma o to przydatne do
>>>> czegokolwiek, ale formalnie jest OK. :) )
>>> Nie, nie mo na by, bo zale y on od ilo ci element w w tej li cie.
>> I co z tego? Jest zawsze ograniczony z g ry przez sta . Przeczytaj
>> sobie definicj zapisu O(x).

> Nie jest ograniczony przez staďż˝ďż˝,

Oczywiďż˝cie ďż˝e jest. Ba, komputer stojďż˝cy na twoim biurku moďż˝na spokojnie
przedstawiďż˝ jako automat skoďż˝czony (trochďż˝ duďż˝y, ale skoďż˝czony).

> bo model obliczeďż˝ o ktďż˝rym
> rozmawiamy, nie ma takich ograniczeďż˝ jak pamiďż˝ďż˝!

Oczywiďż˝cie ďż˝e ma.

> Definicja klas o(x), O
> (x) i theta(x) to juďż˝ w ogďż˝le nie widzďż˝ co to jest "pamiďż˝ďż˝"

Oczywiďż˝cie ďż˝e wiedzďż˝. Liczba symboli nie blank na taďż˝mie maszyny Turinga
to jest pamiďż˝ďż˝.

>. Jaki jest
> sens notacji granicznej do nieskoďż˝czonoďż˝ci, jeďż˝li ograniczasz z gďż˝ry
> argumenty ?! ďż˝aden.

Dlatego nie naleďż˝y ich ograniczaďż˝. Ale wtedy indeks tablicy teďż˝ nie jest
ograniczony. Jeďż˝li ograniczyďż˝eďż˝ dďż˝ugoďż˝ďż˝ indeksďż˝w do staďż˝ej to
ograniczyďż˝eďż˝ rďż˝wnieďż˝ do staďż˝ej wielkoďż˝ďż˝ tablicy.

>>> I
>>> nie jest to formalnie ok, bo poprostu liczysz zupe nie co innego.
>> Jest formalnie ok. Ma o przydatne, ale OK.

> Nie w tym modelu obliczeďż˝. W innym moďż˝e tak, ale nie w tym.

W tym, w tym.

>
>>>> Wszystkie te O(1) dzia aj tylko i wy cznie dzi ki temu, e pami jest
>>>> sko czona, wi c d ugo reprezentacji dowolnego indeksu / hasha itp jest
>>>> twardo ograniczona z g ry niewielk sta (w dzisiejszych czasach sta
>>>> to jest 64).
>>> Prawi , 2**64, to tylko 1TB
>> Ale sk d. To 16EB -- Pomylile si "jedynie" 2**24 krotnie.

> Ok, pomyliďż˝em siďż˝.

>
>>> - w linux'ie spokojnie mo esz mie 4TB
>>> pami ci wirtualnej.
>> Nie szkodzi. To i tak 2**22 razy mniej ni limit.

> Niďż˝ 2**64 taj, ale do tego nie trzeba mieďż˝ architektury 64-bitowej.
> Jeďż˝li masz tylko 32-bitowe adresy, to kaďż˝dy proces jest ograniczony do
> 4GB, ale caďż˝y moďż˝e alokowaďż˝ wiďż˝cej. Technika jest prosta - naleďż˝y
> uďż˝ywaďż˝ tablic wielopoziomowych.

Czyli wydďż˝uďż˝yďż˝ indeksy. Jak uďż˝ywasz "tablicy wielopoziomowej" to dla
nieograniczonej pamiďż˝ci trzeba w sposďż˝b nieograniczony zwiďż˝kszyďż˝ liczbďż˝
poziomďż˝w -- i z tablicy mamy drzewo :)

>
>>>> Bo tak na prawd to zar wno odwo anie do tablicy hashuj cej czy nawet do
>>>> dowlonej pozycji w zwyk ej tablicy to ma koszt nie O(1) tylko O(log n).
>>>> Bo nie ma cud w i zapis dowolnego indeksu do struktury d ugo ci n musi
>>>> mie zaj log n. A e si gni cie pod dany indeks w wi kszo ci
>>>> przypadk w wymaga "obejrzenia" ca o ci jego zapisu to jest ograniczone z
>>>> do u przez O(log n).
>>> Niby masz racj , ale po drodze zmieniasz model oblicze . D ugo
>>> liczby na takim przyziemnym komputerze jak m j jest sta a, a procesor
>>> wykonuj na niej operacj w jednym albo kilku taktach - niezale nie od
>>> jej warto ci. D ugo struktury zupe nie go jako nie obchodzi.
>> Oczywi cie, e go obchodzi. D u sza si nie zmie ci. To dosy kluczowe
>> ograniczenie.

> Twďż˝j komputer ma widaďż˝ duďż˝o zmartwieďż˝. Co nie zmienia faktu, ďż˝e 1 +1
> dziaďż˝a tak samo szybko jak 10000 + 10000.

ale nie tak samo szybko jak
12391823712345189374918743198374+1290348571028761782645245412454.

BTW rozszerzenie 32bity -> 64bit nie jest za darmo, procesor 32bit
wykonany w dokďż˝adnie tym samym procesie bďż˝dzie kilka procent szybszy.

>>>> W dzisiejszych komputerach korzystamy z tego, e podstawa tego log jest
>>>> du a (2**32 lub 2**64) i dlatego w praktyce zwija si to do O(1).
>>> NIE, NIE, NIE - Dla dowolnego C i dowolnej funkcji sta ej g, Istnieje
>>> n, t. e log_C(n) > g(n), wi c nigdy log_C(n) nie b dzie O(1). Nigdy.
>>> To s dwie r ne klasy funkcji.
>>> Powodem nie jest jakie *magiczne* oszacowanie, czy zwijanie si ,
>>> tylko model oblicze . Poprostu mnie nie interesuj ile kosztuj
>>> operacj na liczbach!
>>> Mam:
>>> 1) pami RAM o sta ym czasie dost pu
>>> 2) Maszyn , kt ra umie wykonywa arytmetyk na liczbach w czasie
>>> sta ym.
>>> I pytam si jaka jest zale no ilo ci takich operacji od ilo ci
>>> danych?
>>> To nie jest model uniwersalny, ale si tutaj sprawdza.
>> To si robi troch inaczej. Przyjmuje si nie jak jednostk czasu,
>> tylko liczb operacji okre lonych typ w -- wtedy si zgadza i nie zale y
>> od wielko ci pami ci.

> Inaczej, czyli tak jak napisaďż˝em. Interesuje mnie iloďż˝ďż˝ dostďż˝pďż˝w do
> pamiďż˝ci i operacji arytmetyki.

Nie. Iloďż˝ďż˝ dostďż˝pďż˝w do pamiďż˝ci roďż˝nie (logarytmicznie) wraz wielkoďż˝ciďż˝
adresowanej pamiďż˝ci.

Przyjmuje siďż˝ liczbďż˝ odwoďż˝aďż˝ (byďż˝ moďż˝e zďż˝oďż˝onych) pod podany adres

>
>>>>> Oczywi cie mo na czepia si , e czasami w przypadku kilku element w o 2
>>>>> takich samych kluczach b dzie trzeba wykona jak dodatkow operacje,
>>>>> jednak w por wnaniu z z o ono ci liniow O(n) dla wi kszej ilo ci
>>>>> element w jest to na tyle nieistotne, e przyjmuje si , e z o ono
>>>>> jest O(1), a nie np. O(1.3)
>>>> Jak ju inni napisali, O(1) == O(1.3) == O(103453123)
>>>> Nawet i przy rozs dnych za o eniach mo na mie pecha i dosta O(n).
>>>> To O(1) o jakim pisze Cormen to koszt zamortyzowany
>>> Nie. Co ma wyszukanie do amortyzacji!
>> To, e czny koszt wyszuka wszystkich element w jest ograniczony z
>> g ry liniowo.

> I co ma to wspďż˝lnego z amortyzacjďż˝ ? Koszt znalezienia pojedyďż˝czego
> elementu, teďż˝ siďż˝ szacujďż˝ z gďż˝ry przez iloďż˝ďż˝ elementďż˝w. I co nagle do
> tego majďż˝ wszystkie elementy?

>
>>> Wikipedia to mo e nie jest
>>> najlepsze r d o, ale tu akurat jest ok:
>> Nie musisz mnie tego uczy . Zamortyzowany znaczy redni po wszystkich
>> wyszukiwaniach.(

> Nie. Zamortyzowany znaczy ďż˝redni w ciďż˝gu N operacji np. N razy znajdďż˝
> liczbďż˝ 8. Jeďż˝li 8 byďż˝o na koďż˝cu listy kollzji dďż˝ugoďż˝ci n/2, to
> jednostkowy koszt bďż˝dzie O(n) i zamortyzowany teďż˝ bďż˝dzie O(n). Jeďż˝li
> bardzo siďż˝ upierasz przy znajdowaniu wszystkich, to wystarczy wziďż˝ďż˝
> tablicďż˝ z K elementami, gdzie wszystkie sďż˝ w kolizji. Wyszukanie ich
> wszystkich zajmiďż˝ ci ~ K^2.

>
>>> Sensowne za o enia ~ redni przypadek.
>> Ale stwierdzenie sta y koszt zamortyzowany jest lepsze ni redni koszt
>> sta y, bo nie bardzo wiadomo co to czas redni -- rednia po czym liczona?

> ďż˝redni koszt = koszt w ďż˝rednim przypadku.

Co to jest ďż˝redni przypadek?

> Bardziej po polsku pewnie by

> byďż˝o "typowym" przypadku, ale tak juďż˝ jakoďż˝ jest. To co jest typowym
> przypadkiem oczywiďż˝cie jest bardzo wzglďż˝dne. Dlatego w Cormenie jest
> "sensowne zaďż˝oďż˝enia"!

pzdr
\SK
--
"Never underestimate the power of human stupidity" -- L. Lang
--

http://www.tajga.org -- (some photos from my travels)

Łukasz Rekucki

unread,

Jan 18, 2010, 6:17:10 AM1/18/10

to

Uważam, że dalsza dyskusja z tobą nie ma sensu, bo mylisz pojęcia
matematyczne i ich zastosowanie do analizy asymptotycznej złożoności
algorytmów z jakimiś swoimi wyobrażeniami.

On Jan 18, 12:21 pm, Sebastian Kaliszewski
<s.bez_sp...@remove.this.informa.and.that.pl> wrote:
> Psujesz polskie literki.

>
> Łukasz Rekucki wrote:
> > On Jan 15, 12:48 pm, Sebastian Kaliszewski
> > <s.bez_sp...@remove.this.informa.and.that.pl> wrote:
> >> ukasz Rekucki wrote:
> >>>> Co jest w og lno ci k amstwem. Cho w realnych sytuacjach jest OK (cho
> >>>> w realnych sytuacjach mo na by formalnie poprawnie napisa e dost p do
> >>>> dowolnego elementu do realnej listy to O(1) tylko sta a czasowa du a :)
> >>>> (Pami komputer w jest ograniczona przez sta , przeszukanie jest
> >>>> jest wi c formalnie O(1) -- oczywi cie ma o to przydatne do
> >>>> czegokolwiek, ale formalnie jest OK. :) )
> >>> Nie, nie mo na by, bo zale y on od ilo ci element w w tej li cie.
> >> I co z tego? Jest zawsze ograniczony z g ry przez sta . Przeczytaj
> >> sobie definicj zapisu O(x).

> > Nie jest ograniczony przez stałą,
>
> Oczywiście że jest. Ba, komputer stojący na twoim biurku można spokojnie
> przedstawić jako automat skończony (trochę duży, ale skończony).

>
> > bo model obliczeń o którym
> > rozmawiamy, nie ma takich ograniczeń jak pamięć!
>

> Oczywiście że ma.
>
> > Definicja klas o(x), O

> > (x) i theta(x) to już w ogóle nie widzą co to jest "pamięć"
>

> Oczywiście że wiedzą. Liczba symboli nie blank na taśmie maszyny Turinga
> to jest pamięć.
>
> >. Jaki jest

> > sens notacji granicznej do nieskończoności, jeśli ograniczasz z góry
> > argumenty ?! żaden.
>

> Dlatego nie należy ich ograniczać. Ale wtedy indeks tablicy też nie jest
> ograniczony. Jeśli ograniczyłeś długość indeksów do stałej to
> ograniczyłeś również do stałej wielkość tablicy.

>
> >>> I
> >>> nie jest to formalnie ok, bo poprostu liczysz zupe nie co innego.
> >> Jest formalnie ok. Ma o przydatne, ale OK.

> > Nie w tym modelu obliczeń. W innym może tak, ale nie w tym.

>
> W tym, w tym.
>
> >>>> Wszystkie te O(1) dzia aj tylko i wy cznie dzi ki temu, e pami jest
> >>>> sko czona, wi c d ugo reprezentacji dowolnego indeksu / hasha itp jest
> >>>> twardo ograniczona z g ry niewielk sta (w dzisiejszych czasach sta
> >>>> to jest 64).
> >>> Prawi , 2**64, to tylko 1TB
> >> Ale sk d. To 16EB -- Pomylile si "jedynie" 2**24 krotnie.

> > Ok, pomyliłem się.

>
> >>> - w linux'ie spokojnie mo esz mie 4TB
> >>> pami ci wirtualnej.
> >> Nie szkodzi. To i tak 2**22 razy mniej ni limit.

> > Niż 2**64 taj, ale do tego nie trzeba mieć architektury 64-bitowej.
> > Jeśli masz tylko 32-bitowe adresy, to każdy proces jest ograniczony do
> > 4GB, ale cały może alokować więcej. Technika jest prosta - należy
> > używać tablic wielopoziomowych.
>

> Czyli wydłużyć indeksy. Jak używasz "tablicy wielopoziomowej" to dla
> nieograniczonej pamięci trzeba w sposób nieograniczony zwiększyć liczbę
> poziomów -- i z tablicy mamy drzewo :)

>
> >>>> Bo tak na prawd to zar wno odwo anie do tablicy hashuj cej czy nawet do
> >>>> dowlonej pozycji w zwyk ej tablicy to ma koszt nie O(1) tylko O(log n).
> >>>> Bo nie ma cud w i zapis dowolnego indeksu do struktury d ugo ci n musi
> >>>> mie zaj log n. A e si gni cie pod dany indeks w wi kszo ci
> >>>> przypadk w wymaga "obejrzenia" ca o ci jego zapisu to jest ograniczone z
> >>>> do u przez O(log n).
> >>> Niby masz racj , ale po drodze zmieniasz model oblicze . D ugo
> >>> liczby na takim przyziemnym komputerze jak m j jest sta a, a procesor
> >>> wykonuj na niej operacj w jednym albo kilku taktach - niezale nie od
> >>> jej warto ci. D ugo struktury zupe nie go jako nie obchodzi.
> >> Oczywi cie, e go obchodzi. D u sza si nie zmie ci. To dosy kluczowe
> >> ograniczenie.

> > Twój komputer ma widać dużo zmartwień. Co nie zmienia faktu, że 1 +1

> > działa tak samo szybko jak 10000 + 10000.

>
> ale nie tak samo szybko jak
> 12391823712345189374918743198374+1290348571028761782645245412454.
>
> BTW rozszerzenie 32bity -> 64bit nie jest za darmo, procesor 32bit

> wykonany w dokładnie tym samym procesie będzie kilka procent szybszy.

>
>
>
>
>
> >>>> W dzisiejszych komputerach korzystamy z tego, e podstawa tego log jest
> >>>> du a (2**32 lub 2**64) i dlatego w praktyce zwija si to do O(1).
> >>> NIE, NIE, NIE - Dla dowolnego C i dowolnej funkcji sta ej g, Istnieje
> >>> n, t. e log_C(n) > g(n), wi c nigdy log_C(n) nie b dzie O(1). Nigdy.
> >>> To s dwie r ne klasy funkcji.
> >>> Powodem nie jest jakie *magiczne* oszacowanie, czy zwijanie si ,
> >>> tylko model oblicze . Poprostu mnie nie interesuj ile kosztuj
> >>> operacj na liczbach!
> >>> Mam:
> >>> 1) pami RAM o sta ym czasie dost pu
> >>> 2) Maszyn , kt ra umie wykonywa arytmetyk na liczbach w czasie
> >>> sta ym.
> >>> I pytam si jaka jest zale no ilo ci takich operacji od ilo ci
> >>> danych?
> >>> To nie jest model uniwersalny, ale si tutaj sprawdza.
> >> To si robi troch inaczej. Przyjmuje si nie jak jednostk czasu,
> >> tylko liczb operacji okre lonych typ w -- wtedy si zgadza i nie zale y
> >> od wielko ci pami ci.

> > Inaczej, czyli tak jak napisałem. Interesuje mnie ilość dostępów do
> > pamięci i operacji arytmetyki.
>

> Nie. Ilość dostępów do pamięci rośnie (logarytmicznie) wraz wielkością
> adresowanej pamięci.
>
> Przyjmuje się liczbę odwołań (być może złożonych) pod podany adres

>
>
>
>
>
>
>
> >>>>> Oczywi cie mo na czepia si , e czasami w przypadku kilku element w o 2
> >>>>> takich samych kluczach b dzie trzeba wykona jak dodatkow operacje,
> >>>>> jednak w por wnaniu z z o ono ci liniow O(n) dla wi kszej ilo ci
> >>>>> element w jest to na tyle nieistotne, e przyjmuje si , e z o ono
> >>>>> jest O(1), a nie np. O(1.3)
> >>>> Jak ju inni napisali, O(1) == O(1.3) == O(103453123)
> >>>> Nawet i przy rozs dnych za o eniach mo na mie pecha i dosta O(n).
> >>>> To O(1) o jakim pisze Cormen to koszt zamortyzowany
> >>> Nie. Co ma wyszukanie do amortyzacji!
> >> To, e czny koszt wyszuka wszystkich element w jest ograniczony z
> >> g ry liniowo.

> > I co ma to wspólnego z amortyzacją ? Koszt znalezienia pojedyńczego

> > elementu, też się szacuję z góry przez ilość elementów. I co nagle do
> > tego mają wszystkie elementy?

>
> >>> Wikipedia to mo e nie jest
> >>> najlepsze r d o, ale tu akurat jest ok:
> >> Nie musisz mnie tego uczy . Zamortyzowany znaczy redni po wszystkich
> >> wyszukiwaniach.(

> > Nie. Zamortyzowany znaczy średni w ciągu N operacji np. N razy znajdź
> > liczbę 8. Jeśli 8 było na końcu listy kollzji długości n/2, to
> > jednostkowy koszt będzie O(n) i zamortyzowany też będzie O(n). Jeśli

> > bardzo się upierasz przy znajdowaniu wszystkich, to wystarczy wziąć
> > tablicę z K elementami, gdzie wszystkie są w kolizji. Wyszukanie ich
> > wszystkich zajmię ci ~ K^2.

>
> >>> Sensowne za o enia ~ redni przypadek.
> >> Ale stwierdzenie sta y koszt zamortyzowany jest lepsze ni redni koszt
> >> sta y, bo nie bardzo wiadomo co to czas redni -- rednia po czym liczona?

> > średni koszt = koszt w średnim przypadku.
>

> Co to jest średni przypadek?

>
> > Bardziej po polsku pewnie by

> > było "typowym" przypadku, ale tak już jakoś jest. To co jest typowym
> > przypadkiem oczywiście jest bardzo względne. Dlatego w Cormenie jest
> > "sensowne założenia"!

>
> pzdr
> \SK
> --
> "Never underestimate the power of human stupidity" -- L. Lang

> --http://www.tajga.org-- (some photos from my travels)

Bart Ogryczak

unread,

Jan 18, 2010, 8:18:43 AM1/18/10

to

On Jan 10, 12:11 am, wodzik <wod...@noreply.com> wrote:
> On 2010-01-09 23:24, Stachu 'Dozzie' K. wrote:
>

> > To ze szkoły powinieneś wiedzieć że to nie do końca daje złożoność O(1).
>
> Powiedz to moim wykładowcom, albo chociaż by Thomasowi Cormenowi.
> Cytując z książki "Wprowadzenie do algorytmów":
> -"Przy rozsądnych założeniach można wykazać, że oczekiwany czas

> wyszukiwania elementu z tablicy z haszowaniem wynosi O(1)."
> czy:

> -"średni czas działania podstawowych operacji słownikowych na tablicy z
> haszowaniem wynosi O(1)."
>

> Oczywiście można czepiać się, że czasami w przypadku kilku elementów o 2
> takich samych kluczach będzie trzeba wykonać jakąś dodatkową operacje,

Całość opiera się tu na "przy rozsądnych założeniach". Przy
dostatecznie krótkich haszach i dostatecznie dużej liczbie elementów,
kolizje będą zdarzały się zbyt często.

> jednak w porównaniu z złożonością liniową O(n) dla większej ilości
> elementów jest to na tyle nieistotne, że przyjmuje się, że złożoność

> jest O(1), a nie np. O(1.3)

Nie ma czegoś takiego jak O(1.3), jest O(1).

Sebastian Kaliszewski

unread,

Jan 18, 2010, 11:29:58 AM1/18/10

to

ďż˝ukasz Rekucki wrote:
> Uwaďż˝am, ďż˝e dalsza dyskusja z tobďż˝ nie ma sensu, bo mylisz pojďż˝cia
> matematyczne i ich zastosowanie do analizy asymptotycznej zďż˝oďż˝onoďż˝ci
> algorytmďż˝w z jakimiďż˝ swoimi wyobraďż˝eniami.

Whatever. Chciaďż˝eďż˝ powiedzieďż˝, ďż˝e nie masz argumentďż˝w. Rozumiem.
Przy okazji musiaďż˝eďż˝ zacytowaďż˝ caďż˝y post wraz z sygnaturkďż˝ i odpisaďż˝ nad
cytatem.

Przypomnďż˝ tylko kilka faktďż˝w...
1. Pamiďż˝ďż˝ kaďż˝dego komputera, w odrďż˝nieniu od maszyny Tuninga czy
maszyny RAM, *jest* ograniczona.
2. Jeďż˝li pamiďż˝ďż˝ jest ograniczona to wszelkie obliczenia albo zakoďż˝czďż˝
siďż˝ albo zapďż˝tlďż˝ siďż˝ w czasie 2^M gdzie M to wielkoďż˝ďż˝ pamiďż˝ci w bitach.
3. Czas ten dla realnych komputerďż˝w jest oczywiďż˝cie absurdalnie wielki,
wiďż˝c takiego podejďż˝cia siďż˝ nie stosuje, bo nie ma praktycznego sensu.
Dlatego napisaďż˝em: "oczywiďż˝cie maďż˝o to przydatne do czegokolwiek, ale
formalnie jest OK.". Niezaleďż˝nie od przyjďż˝tego formalizmu *moďż˝na* tak
powiedzieďż˝, choďż˝byďż˝ tupaďż˝ i zatykaďż˝ uszy.
3a. Algorytm sprawdzania czy wďż˝rďż˝d pierwszych C (C staďż˝e) elementďż˝w
tablicy (czy listy) nie ma wybroanego elementu X, realizuje siďż˝ w
koszcie staďż˝ym. Prawda?
4. Jako bardziej uďż˝ytecznego formalizmu uďż˝ywa siďż˝ (abstrakcyjnej)
maszyny RAM ktďż˝rej cechďż˝ charakerycztycznďż˝ nie tylko jest nieskoďż˝czona
liczba komďż˝rek pamiďż˝ci, ale nieskoďż˝czona pojemnoďż˝ďż˝ kaďż˝dej komďż˝rki. W tym
modelu rozpatruje siďż˝ normalnie uďż˝ywane algorytmy, a nie w modelu
realnego komputera ktďż˝ry jest skoďż˝czony.
5. Alternatywnie do 4 koszt liczy siďż˝ w liczbie "operacji dominujďż˝cych"
koszt pozosytaďż˝ych uznajďż˝c za zerowy.

Na marginesie:
Co do tablic haszujďż˝cych to zaďż˝oďż˝enie kosztu staďż˝ego opiera siďż˝ na
zaďż˝oďż˝eniu ďż˝e wyliczenie hasha ma koszt staďż˝y -- i z tym zaďż˝oďż˝eniem teďż˝
trzeba sobie poradziďż˝.

\SK
--
"Never underestimate the power of human stupidity" -- L. Lang
--

http://www.tajga.org -- (some photos from my travels)

Sebastian Kaliszewski

unread,

Jan 19, 2010, 5:42:34 AM1/19/10

to

Jako ďż˝e grupďż˝ czytujďż˝ rďż˝wnieďż˝ "dzieci" (np. takie co to wďż˝aďż˝nie uczďż˝ siďż˝
o zďż˝oďż˝onoďż˝ci asymptotycznej, itd). to rozwinďż˝.

ďż˝eby w ogďż˝le mďż˝wiďż˝ o (nietrywalnej) zďż˝oďż˝onoďż˝ci asymptotycznej (czyli dla
rozmiaru danych dďż˝ďż˝ďż˝cego do nieskoďż˝czonoďż˝ci) realizowany (abstrakcyjny)
algorytm nie moďż˝e mieďż˝ ograniczenia na wielkoďż˝ďż˝ danych. Jeďż˝li wielkoďż˝ďż˝
danych jest ograniczona (przez staďż˝ďż˝), to mďż˝wienie o zďż˝oďż˝onoďż˝ci dla
dowolnie wielkich danych jest bez sensu, w najlepszym razie mamy
przypadek trywialny, czyli zďż˝oďż˝onoďż˝ďż˝ (asymptotycznie) staďż˝ďż˝ -- O(1).

Naleďż˝y pamiďż˝taďż˝ ďż˝e jeďż˝li gdzies jest mowa o staďż˝ej to to moďż˝e byc 1, 2,
3, 100, 0.000001, ale takďż˝e 2**35, albo i 2**(2**35) albo i dowolnie gorzej.

Jeďż˝li juďż˝ przejdziemy do dowolnie wielkich danych to zďż˝oďż˝onoďż˝ďż˝ rďż˝nych
teoretycznie prostych algorytmďż˝w bďż˝dzie rďż˝na w zaleďż˝noďż˝ci od uďż˝ytego
modelu. Np. banalne odwoďż˝anie do k-tego indeksu w zwykďż˝ej tablicy w
zaleďż˝noďż˝ci od modelu bďż˝dzie miaďż˝o zďż˝oďż˝onoďż˝ďż˝ O(1), O(log n) albo i O(n)
lub gorzej, to ostatnie dotyczy zwykďż˝ej maszyny Turinga choďż˝by i z
wieloma taďż˝mami -- bo w niej dostďż˝p jest sekwencyjny i juďż˝. Przy czym w
modelach o dostďż˝pie swobodnym moďż˝e byďż˝ zarďż˝wno O(log n) jak i O(1)
zaleďż˝nie od tego czy mamy model z ograniczonymi rejestrami[*] (mamy
alfabet symboli rejestrowych i nieskoďż˝czenie wiele rejestrďż˝w) czy teďż˝,
jam maszyna RAM z nieograniczonymi rejestrami (kaďż˝da "komďż˝rka pamiďż˝ci"
tej abstrakcyjnej maszyny przechowuje dowolnďż˝ liczbďż˝ naturalnďż˝, czyli ma
nieograniczonďż˝ pojemnoďż˝ďż˝ i tych komďż˝rek znowu jest nieskoďż˝czenie wiele).
Pozostaje jeszcze liczenie liczby tzw. operacji dominujďż˝cych, np. liczby
porďż˝wnaďż˝, kopiowaďż˝, dostďż˝pďż˝w do pamiďż˝ci itd. Ale to rďż˝wnieďż˝ musi byďż˝
zanuďż˝one w jakimďż˝ modelu abstrakcyjnej maszyny. Oczywiďż˝cie, jeďż˝li np.
bďż˝dziemy liczyli liczbďż˝ kopiowaďż˝ przechowywanych danych, czy np. liczďż˝
odwoďż˝aďż˝ do tablicy to moďż˝na mieďż˝ trywialnie koszt O(1), ale to i w wielu
opeacjach drzewiastych liczba kopiowaďż˝ na wstawienie jest staďż˝a (rďż˝wna
1). Zatem z operacjami dominujďż˝cymi trzeba uwaďż˝aďż˝ -- muszďż˝ byďż˝
rzeczywiďż˝cie dominujďż˝ce.

[*] ograniczone sďż˝ wszystkie rejestry poza jednym -- trzeba jakoďż˝
zaindeksowaďż˝ dowolny rejestr.

Zatem... w zaleďż˝noďż˝ci od tego co nas interesuje stosujemy rďż˝ne modele.
Ale nie wolno zapomnieďż˝ o powyďż˝szym (rďż˝nych zďż˝oďż˝onoďż˝ciach tego samego
rozwiďż˝zania). Rďż˝nice zďż˝oďż˝onoďż˝ci miďż˝dzy rďż˝nymi modelami (Turing
complete, nie wliczamy tu zliczania operaci dominujďż˝cych bo to trochďż˝ co
innego) mogďż˝ byďż˝ duďż˝e, ale teďż˝ zwykle nie przekraczajďż˝ O(n**3) a i teďż˝
gwarantuje siďż˝ ďż˝e ogďż˝lna klasa O(wielomian(n)) czy O(2**wielomian(n))
itd jest zachowana. Wynika to z tego, ďż˝e kaďż˝dy z tych modeli moďż˝e
zasymulowaďż˝ inny z narzutem wielomianowym (i ten wielomian jest
konkretny, zwykle nie gorszy niďż˝ 3 stopnia).

Co do samego hashowania i jego liniowoďż˝ci nawet w modelu RAM
(nieskoďż˝czenie wiele nieograniczonych rejestrďż˝w z dostďż˝pem swobodnym) to
jest jeszcze problem zasadniczy (o ktďż˝rym napisaďż˝em na gďż˝rze) -- funkcja
mieszajďż˝ca ma po pierwsze bardzo czďż˝sto staďż˝ej wielkoďż˝ci wyniki (dotyczy
zdecydowanej wiďż˝kszoďż˝ci realnie uďż˝ywanych hashy, czy to rďż˝nych prostych
xor/shift/mod czy crc, czy md4, czy md5 czy sha1, itd) wiďż˝c dla
odpowiednio duďż˝ych danych przestaje dziaďż˝aďż˝ (co z tego, ďż˝e mamy 2**36
pozycji w tablicy skoro uďż˝yty hash crc32 da 2**32 rďż˝nych wynikďż˝w). Po
drugie nawet na maszynie RAM z dodatkami (typu operacje arytmetyczne i
bitowe a nie tylko inkrementacja) typowy sensowny hash liczy siďż˝ w
czasie liniowo zaleďż˝nym od wielkoďż˝ci hashowanych danych a nie w czasie
staďż˝ym.

W innych modelach maszyn niďż˝ RAM-podobne (nieskoďż˝czenie wiele
nieograniczonych rejestrďż˝w) w ogďż˝le nie ma co mďż˝wiďż˝ o staďż˝ym koszcie
liczenia hasha. No chyba ďż˝e uďż˝ywamy zliczania operacji dominujďż˝cych i za
takďż˝ uznajemy policzenie hasha, ale to jest masďż˝o maďż˝lane.

Do tego nie wolno zapomnieďż˝, ďż˝e w dzisiejszych rzeczywistych komputerach
(poza drobnymi komputerkami wbudowanymi (embedded)) dostďż˝p do pamiďż˝ci
nie jest jednolity -- nawet bez swapowania rďż˝nice w czasie dostďż˝pu
siďż˝gajďż˝ 3 rzďż˝dďż˝w wielkoďż˝ci (do ok. 1000 razy) i zaleďż˝ďż˝ nie tylko od
trafieďż˝ w cache ale np. dostďż˝p sekwencyjny do wiďż˝kszych blokďż˝w ďż˝rednio
bywa kilkanaďż˝cie-kilkadziesiďż˝t razy szybszy niďż˝ stricte swobodny. Ale to
juďż˝ temat na osobnďż˝ bajkďż˝.