Nie chce pisać "pół godziny obliczeń" - bo to głupota (za 2 lata
zdezaktualizuje się to). Chcę napisać po prostu "obliczenia wymagają około x
operacji zmiennoprzecinkowych".
Nie chcę mierzyć - bo używam różnych CPU, różnych komputerów itd. itp. -
zrobiłyby się z tego poważne benchmarki - a ja potrzebuję tylko rzędu
wielkości.
Jest gdzieś jakaś sensowna tabelka? (Pentium III wyciągało około 900 MFLOPS,
ale potrzebuję dla "normalnego procesora z 2011".)
slawek
A "rząd wielkości" to będzie pewnie w okolicy pojedynczych/dziesiątek
GFLOPS dla procesora (zależnie od tego jaki procek) i setek dla karty
graficznej.
--
Pozdrawiam
Michoo
>Ile dziś (2011) wynosi moc obliczeniowa we FLOPS-ach dla typowego rdzenia
>procesora Intela/AMD dla typowego PC?
>
>Nie chce pisać "pół godziny obliczeń" - bo to głupota (za 2 lata
>zdezaktualizuje się to). Chcę napisać po prostu "obliczenia wymagają około x
>operacji zmiennoprzecinkowych".
>
>Nie chcę mierzyć - bo używam różnych CPU, różnych komputerów itd. itp. -
>zrobiłyby się z tego poważne benchmarki - a ja potrzebuję tylko rzędu
>wielkości.
>
>Jest gdzieś jakaś sensowna tabelka?
Na googlu
A.L.
Nie ma.
I to nie dlatego że wujek Google to tylko wyszukuje gdzie jest informacja -
a nie udostępnia zasoby ze swojego cache (kto jak kto ale A.L powinien
wiedzieć co to Google).
Przez Google.dość łatwo znaleźć kupę badziewnych reklam nt. "jakich to
wspaniałych procesorów nie robimy".
Ale nigdzie nie ma danych nt. "zwykłych procesorów" - tj. takich jak te
zwykłe proszki do prania.
Z grubsza jak CPU jest pędzone na 3 GHz, to robi 3x10^9 cykli na sekundę,
czyli mniej więcej tyle samo float point operations, jeżeli 1 cykl = 1
operacja (w jednym rdzeniu).
Ale... jeżeli dobrze pamiętam, to procesor może paralelizować sobie niektóre
rzeczy - w tym obliczenia zmiennoprzecinkowe. Z drugiej strony są takie
wredne niektóre rozkazy, które kiedyś potrafiły zajumać 400 cykli i więcej.
Z trzeciej strony mamy XXI wiek - i może nawet csch liczy w jednym cyklu? Z
czwartej strony - ale chyba nie ARM?! Z piątej strony - jak się ogrzeje to
zwalnia? A co z oszczędzaniem energii - i obniżaniem taktowania?
No, to rebiata ma ktoś z was jakiś pomysł na odpowiedź na proste pytanie:
"ile wynosi moc obliczeniowa zwykłego komputera"?
Czy też nie wiecie?
slawek
>
>Użytkownik "A.L." <lew...@aol.com> napisał w wiadomości grup
>dyskusyjnych:vfe5n6tie687k5hiv...@4ax.com...
>>>Jest gdzieś jakaś sensowna tabelka?
>>
>> Na googlu
>>
>> A.L.
>
>Nie ma.
>
>I to nie dlatego że wujek Google to tylko wyszukuje gdzie jest informacja -
>a nie udostępnia zasoby ze swojego cache (kto jak kto ale A.L powinien
>wiedzieć co to Google).
>
>Przez Google.dość łatwo znaleźć kupę badziewnych reklam nt. "jakich to
>wspaniałych procesorów nie robimy".
>
Drogi Kolego, jak ja pisze ze cos jest na googlu, to pisze dlatego ze
najpierw sprawdzilem czy jest.
Powszechne uznanym testem sprawnosci obliczeniowej proesora jest
"linpack benchmark"; autorem jest Jack Dongarra. Dostepny jest w wielu
miejscach i wielu wersjach, na przykald tutaj
http://www.roylongbottom.org.uk/linpack%20results.htm
http://www.roylongbottom.org.uk/index.htm
Nie wiem czy to jest lista najnowsza i czy najbardziej kompletna, ale
to niech sobei Kolega sprawdzi sam
Na googlu
A.L.
Pytanie się komplikuje, gdy trzeba się zastanowić nad:
- czy jeden rdzeń czy wszystkie?
- a wtedy jaki komputer jest "zwykły": jedno-, dwu-, czterordzeniowy?
- czy obliczenia na FPU x87 czy na SSE?
--
Azarien
Szanowny dyskutancie: jeżeli uważasz, że Google hostują wszystkie serwisy,
do których linki zapodają... to chyba nie muszę dalej wyjaśniać 99%
czytelnikom tej grupy dyskusyjnej, dlaczego jest to śmieszne.
Nota bene, jak ciebie zmusić - to idziesz na współpracę - czego dowodem
zapodany przez ciebie link. Poprosiłem raz i drugi - i co? I mam co chciałem
mieć. Łatwo miło i szybciej niż myślałem. Zdziwiony? Przemyśl raz jeszcze.
> Powszechne uznanym testem sprawnosci obliczeniowej proesora jest
> "linpack benchmark"; autorem jest Jack Dongarra. Dostepny jest w wielu
> miejscach i wielu wersjach, na przykald tutaj
Za jasną cholerę (i za ciemną też) nie podawany jest przez Google. A jeżeli
już - to wśród najrozmaitszych głupich bzdetów bez wartości.
> http://www.roylongbottom.org.uk/linpack%20results.htm
Trochę nie rozumiem co przedstawiają rezultaty: dlaczego wydajność procesora
w MFLOPS miałaby zależeć od optymalizacji kodu? Jedyna sensowna odpowiedź,
to kolejkowanie instrukcji lepiej pasujące pod procesor. Bo jeżeli po
optymalizacji jest mniej instrukcji - to nie można tego uważać za wzrost
mocy obliczeniowej - obliczenia są szybsze, ale liczy się mniej rozkazów.
Ponadto LINPACK to będą cztery działania - bez wspomnianego csch.
> Nie wiem czy to jest lista najnowsza i czy najbardziej kompletna, ale
> to niech sobei Kolega sprawdzi sam
>
> Na googlu
No, no, więc czegoś jednak A.L. nie wie? A przecież jest Google, czyż nie?
Ale do rzeczy - z listy (lorda?) Longbottoma wynika że old gold Athlon XP
jest mniej więcej tak samo wydajny jak full wypas i7. Nie będziemy się
przecież kłócić o czynnik 2.
I drugi wniosek - coś jest nie teges, skoro Pentium 3 na 800 MHz wyciągało
około 900 milionów operacji zmiennoprzecinkowych. Ergo: jedna operacja na i7
zajmuje średnio niemal 3 cykle zegara?! Na rdzeniu który ma pralelizację
obliczeń zmiennoprzecinkowych?
slawek
Ja tam się nie znam ;), ale czy SSE jest FPU czy fixed?
Nic się nie komplikuje - po prostu liczymy na 1 rdzeń - bo jak mamy 4
rdzenie, to mamy "400% normy".
Teoretycznie można się zastanawiać - np. jak jeden rdzeń na maxa - to czy
pozostałe też mogą tak iść bez usmażenia.
Ale w praktyce chodzi o trywialne pytanie - czy to jest 100 MFLOPS czy
raczej 10 GFLOPS?
Znudziło mnie czytanie, jak to kolejny "naukowiec" chwali się, że jego
program jest zajetego szybki, bo liczy się tylko tydzień non-stop i już są
wyniki. Moim zdaniem, powinien po prostu oszacować ile działań
arytmetycznych (zmiennoprzecinkowych) potrzeba, aby policzyć to, co ma być
policzone. Wtedy nie byłoby problemu z dezaktualizacją i durnymi
zgaduj-zgadulami w rodzaju: "na Cray-1 to liczyło się przez miesiąc, na
laptopie liczy się to przez pięć godzin... który program jest
efektywniejszy?" (Nota bene, nie mamy ani tego ani tego kodu, tylko
zapewnienia kolejnego "naukowca"; do tego koszt w O(N^m) nic nie ma do
rzeczy, bo N stałe i ważna jest też stała przed O).
slawek
zapomniałeś dodać "po prostu znaleźć optymalny algorytm obliczeniowy". Lol.
B.
>
>Użytkownik "A.L." <lew...@aol.com> napisał w wiadomości grup
>dyskusyjnych:6nu5n6ps1ft4f5c55...@4ax.com...
>> Drogi Kolego, jak ja pisze ze cos jest na googlu, to pisze dlatego ze
>> najpierw sprawdzilem czy jest.
>
>Szanowny dyskutancie: jeżeli uważasz, że Google hostują wszystkie serwisy,
>do których linki zapodają... to chyba nie muszę dalej wyjaśniać 99%
>czytelnikom tej grupy dyskusyjnej, dlaczego jest to śmieszne.
>
Smeiszne jest to co piszesz.
>Nota bene, jak ciebie zmusić - to idziesz na współpracę - czego dowodem
>zapodany przez ciebie link. Poprosiłem raz i drugi - i co? I mam co chciałem
>mieć. Łatwo miło i szybciej niż myślałem. Zdziwiony? Przemyśl raz jeszcze.
>
Do niczego mnie nie zmusiles, i nikt mnie do niczego nei musi zmusic.
Chyba ze Malzonka. Podalem ci link zupelnie dobrowalnie.
Ale na wszelki wypadek, abys nei czul ze nie do czegos zmuszasz,
wpuszczam cie do KF. Wlasciwie to ZMUSILES mnei do wpuszczenia cie
tam.
A.L.
> Jest gdzie jaka sensowna tabelka? (Pentium III wyci ga o oko o 900 MFLOPS,
> ale potrzebuj dla "normalnego procesora z 2011".)
Do czego to potrzebujesz jesli mozna spytac? Chcesz znac teoretyczna
maksymalna ilosc instrukcji na sekunde, czy w jakims konkretnym
zastosowaniu? W zastosowaniach ilosc operacji na sekunde jest
mniejsza, bo poza mnozeniem, dodawaniem, itd. program jeszcze
robi soki, laduje dane do chache, kopiuje wyniki do zmiennych
tymczasowych, czeka az drugi rdzen zwolni semafor, itd.
Pozdrawiam
Ale to przecież zależy nie tylko od flopsów.
Różne są nie tylko algorytmy - ale nawet cele jakie stawia się przed tymi
algorytmami. Ważne jest osiągnięcie "oświecenia" - jakkolwiek można to
zrozumieć by aby.
Same algorytmy zaś są z gatunku idiotycznie prostych - wyliczenie ile tam
jest gwiazdek a ile plusów, pomnożenie przez liczbę robionych pętli... i
mamy ile operacji jest.
slawek
To co piszesz jest nieortograficzne. Nie abym się czepiał. Po prostu
stwierdzam fakt.
I drugi fakt: wcześniej pisałeś bezbłędnie.
Teraz wniosek, pochopny, nieuprawniony, etc. etc.: "poniosły cię emocje."
> Do niczego mnie nie zmusiles, i nikt mnie do niczego nei musi zmusic.
> Chyba ze Malzonka. Podalem ci link zupelnie dobrowalnie.
Przemyśl słowo: "socjotechnika".
Nie abym się z ciebie naśmiewał - po prostu każdego można do wielu rzeczy
"zachęcić". Mi udało się zachęcić ciebie do podania informacji takiej,
jakiej potrzebowałem. I to mimo bardzo buńczucznych z twojej strony
deklaracji, że "odmawiasz współpracy". Ej, nie przesadzajmy - ani tobie z
głowy korona nie spadła, ani ja też nie jestem jakimś wrednym typem,
specjalizującym się "w sprawie A.L." Danych o MFLOPS-ach potrzebuję
naprawdę, nie mam czasu na testy, chodzi mi bardziej zresztą "jak to jest u
ludzi".
I dlatego jeżeli ktoś nie chce odpisywać - na jego zdaniem głupie -
pytania - to niech nie odpisuje. A nie niczym Słoń Bez Trąby podchodzi do
Krokodyla pytając co tenże na śniadanie jada...
slawek
Program lazi na tabelce dlugiej na kilkadziesiat kilobajtów (czyli cala sie
schowa w cache), dodaje sobie, mnozy i czasem odejmuje. Chodzi jakies od pól
godziny. I teraz proste glupie pytanie - da sie o nim napisac, ze robi
okolo 0.5*60*60*1000 MFLOP? (Tj. tyle operacji - ale nie na sekunde! - tylko
ogólem...) - jezeli Wingroza pokazuje 100% obciazenia rdzenia taktowanego na
2GHz? Procesor ma wiecej rdzeni - wiec jest szansa, ze czesc demonów itp.
bedzie grzecznie nieprzeszkadzajaca.
Nie chce pisac "program liczy szybko, bo juz po paru godzinach sa wyniki".
Nie chce mi sie tez sprawdzac, czy to jest 5 i pól godziny, czy 5 godzin 14
minut 56 sekund. Chcialbym dac sensowne oszacowanie niezalezne od marki
procesora, roku jego produkcji itp. - srednie orientacyjne x MFLOPS razy y
liczba sekund jaka zostala zuzyta na obliczenie. Bez angazowania sie w
testy, itd. Jedynie orientacyjnie. To wszystko.
slawek
A od czego - poza fazą Księżyca - jeszcze?
slawek
Dla kart graficznych mozna latwo znalezc:
http://en.wikipedia.org/wiki/Comparison_of_NVIDIA_graphics_processing_units
Dla glownych procesorow nie wiedziec dlaczego nie podali w wikipedii:
http://en.wikipedia.org/wiki/Comparison_of_Intel_processors
Pozdrawiam
> I dlatego jeżeli ktoś nie chce odpisywać - na jego zdaniem głupie -
> pytania - to niech nie odpisuje. A nie niczym Słoń Bez Trąby podchodzi
> do Krokodyla pytając co tenże na śniadanie jada...
Zlej gościa :) Każdy który wytknie mu niekompetencję ląduje w jego KFie
:) Ciekaw jestem czy ma osobny dysk 2TB na tego KFa. (pomijam że np.
home.pl ma go w swoim, niestety byłem zmuszony przenieść się z home.pl
na onet i indywiduum się nagle pojawiło)
pozdrawiam,
Przemek O.
Glownie od czasow dostepu do pamieci.
w.
Ale co wam właściwie wyskakuje jak guglacie "CPU GFLOPS chart"? Bo mi
np to:
http://www.tomshardware.co.uk/charts/desktop-cpu-charts-2010/Raw-Perfor
mance-SiSoftware-Sandra-2010-Pro-GFLOPS,2409.html
> Chcialbym dac sensowne oszacowanie
> niezalezne od marki procesora, roku jego produkcji itp. - srednie
> orientacyjne x MFLOPS razy y liczba sekund jaka zostala zuzyta na
> obliczenie.
To tak nie działa. Obliczenia zmiennoprzecinkowe to jest jedno, ułożenie
danych w pamięci to jest drugie, kolejność operacji zmiennoprzecinkowych
to jest trzecie, dodatkowe operacje to jest czwarte. No i dochodzi
jeszcze rodzaj operacji - inaczej liczy się mnożenie a inaczej sqrt.
To wszystko wpływa na to, że program może pracować bardzo różny czas na
teoretycznie bardzo podobnych platformach.
> Bez angazowania sie w testy, itd. Jedynie orientacyjnie. To
> wszystko.
MFLOPS mają sens w kontekście określonego testu.
Używanie MFLOPS bez wdawania się w testy uważam za spore nadużycie.
Możesz ewentualnie napisać, że potrzeba (robiłem tak w kilku
sprawozdaniach) xx dodawań, yy mnożeń, zz dzieleń. Bo to daje jakieś
pojęcie o _maksymalnym_ czasie i zlożoności, zwłaszcza, gdy zapiszesz to
w odniesieniu do danych wejściowych.
--
Pozdrawiam
Michoo
dla uświadomienia Sławka - czas dostępu do pamięci może być ponad 100x
większy od czasu pojedynczej operacji.
B.
Tak, a do tego nietrafienia w cache potrafia byc kosztowne.
Niedawno zreszta byl tu watek o mnozeniu macierzy, gdzie zdaje
sie kol. Michoo dawal linki do implementacji cache-friendly tej
zdawaloby sie banalnej operacji.
Jak ktos chce sie pobawic pol minuty, proponuje skompilowac
programik http://0x80/snippets/cache_test.c (bez optymalizacji).
Robi banalna rzecz - 2 x czyta dane z duzej tablicy, tylko raz
odwoluje sie do kolejnych indeksow, a raz losowo. Ladnie widac
dysproporcje.
w.
Tj. do cache procesora?
Program potrzebuje jakieś 48 kB - a to /raczej/ da się zmieścić w cache.
Sam program ma jakieś 10 kB - też pewnie cały wlezie, choć pętla która
liczy - to pewnie nawet 1 kB nie przekracza.
slawek
Jeżeli to swap na HDD to może być nawet 10000 razy wolniej.
Ale - program+dane z luzem mieszczą się w cache procesora - więc czas
dostępu do pamięci nie ma znaczenia.
slawek
(Nota bene, ciągle zamiast prostych odpowiedzi - mamy przechwalanie się i
pozerstwo - a jak ktoś słusznie zauważył - w Wiki JEST zestawienie
procesorów Intela, ale NIE MA w nim tak zasadniczych danych, jak wydajność
tych procesorów w FLOPS/MIPS. A podobno to takie proste i oczywiste. LOL
Poprawcie to, genjusze.)
slawek
Ciekawe, bo pod tym adresem mam:
Tom's Hardware > Error 404
Sorry!
The page you requested couldn't be found
Tom's Hardware
Zupełnie nie wiem czemu. LOL
slawek
1. Niewygodne;
2. Robię obliczenia na różnym sprzęcie;
3. Docelowy "target" niekumaty odnośnie użycia komputerów (tj. nawet kumaty,
ale wypada udawać, że jest się ponad takie rzeczy);
4. Mogłoby być potraktowane jako kryptoreklama danego sprzętu;
5. Mogłoby być potraktowane jako reklama konkurencji.
> To wszystko wpływa na to, że program może pracować bardzo różny czas na
> teoretycznie bardzo podobnych platformach.
Niemniej jednak, biorąc przeciętny technologicznie sprzęt można znaleźć
oszacowanie. Takie lub inne. Może bardzo złe. Ale jednak jakieś.
No, nie udawajmy, że się nie da. Raczej - nie jest to wygodne - bo od paru
lat procesory niby lepsze - a "raw MFLOPS" buksują w miejscu (podobnie jak
częstości zegara).
Kiedyś podawano np. jak szybko dany komputer obliczył ileś tam cyfr pi.
Teraz, gdyby takie dane wykreślać... mogłoby być niezbyt "postępowo".
> MFLOPS mają sens w kontekście określonego testu.
> Używanie MFLOPS bez wdawania się w testy uważam za spore nadużycie.
Millions Float Point Operations Per Second. Co tu jest nadużyciem?
Jeżeli założymy, że dobre procesory liczą tak samo szybko csch (cosecant
hiperbolicus) jak zwykłe dodawanie - to trywialne.
Jeżeli założymy, że procesory liczą jednak wolniej ATAN2 niż FADD (jak to
było w czasach 80287) - to już trochę gorzej - ale można podać np. że dla 4
działań tyle, w skrajnych przypadkach jednak znacznie mniej, bo tyle.
Oczywiście - cache, RAM, prędkość SSHD, kolor myszki - też może mają
znaczenie. Tak samo jak nie sama moc silnika decyduje o prędkości samochodu.
Ale jeżeli kupujący samochód ma prawo wiedzieć, jakie parametry ma silnik -
tak samo ja chcę wiedzieć, ile MFLOPS wyciąga CPU. To logiczne.
> Możesz ewentualnie napisać, że potrzeba (robiłem tak w kilku
> sprawozdaniach) xx dodawań, yy mnożeń, zz dzieleń. Bo to daje jakieś
> pojęcie o _maksymalnym_ czasie i zlożoności, zwłaszcza, gdy zapiszesz to w
> odniesieniu do danych wejściowych.
Patrz wyżej - przeciętny czytacz będzie udawał że go to nie interesuje.
Trochę zresztą tak jak z samochodami - 1000 KM to fajnie się czyta - 52
uszczelki, 431 łożysk itd. to trochę durnowate szczegóły.
Jak na razie zakładam 1 cykl zegara = 1 operacja FPU. 10x w tę czy w tamtą
stronę... bez większego znaczenia. I tak algorytm O(N^3), więc jakby coś, to
5 razy mniejszy krok ;) i wyrobi się normę.
Nota bene, samo przełączenie na FPU też kosztuje.
slawek
>
> No, nie udawajmy, że się nie da. Raczej - nie jest to wygodne - bo od
> paru lat procesory niby lepsze - a "raw MFLOPS" buksują w miejscu
> (podobnie jak częstości zegara).
Jesteś ignorantem. Od pewnego czasu mamy właśnie wzrost GIPS (i trochę
mniejszy GFLOPS) przy równoczesnym zatrzymaniu, czy wręcz spadku
częstotliwości.
> Kiedyś podawano np. jak szybko dany komputer obliczył ileś tam cyfr pi.
> Teraz, gdyby takie dane wykreślać... mogłoby być niezbyt "postępowo".
Naprawdę?
>
>> MFLOPS mają sens w kontekście określonego testu.
>> Używanie MFLOPS bez wdawania się w testy uważam za spore nadużycie.
>
> Millions Float Point Operations Per Second. Co tu jest nadużyciem?
Zamiana _kolejności_ instrukcji (a więc brak zmiany ilości tych FLO)
może dać wielokrotnie różne wyniki.
>
> Jeżeli założymy, że dobre procesory liczą tak samo szybko csch (cosecant
> hiperbolicus) jak zwykłe dodawanie - to trywialne.
Nie zwykłe, bo tych dodawań jest po drodze kilka.
> Oczywiście - cache, RAM, prędkość SSHD, kolor myszki - też może mają
> znaczenie. Tak samo jak nie sama moc silnika decyduje o prędkości
> samochodu. Ale jeżeli kupujący samochód ma prawo wiedzieć, jakie
> parametry ma silnik - tak samo ja chcę wiedzieć, ile MFLOPS wyciąga CPU.
> To logiczne.
Od czasów wymyślenia przewidywania skoków i wywoływania operacji FP w
pipeline nie ma czegoś takiego jak RAW IPS/RAW FLOPS. Wszystko jest w
kontekście określonego testu na określonej wersji kompilatora.
>
>> Możesz ewentualnie napisać, że potrzeba (robiłem tak w kilku
>> sprawozdaniach) xx dodawań, yy mnożeń, zz dzieleń. Bo to daje jakieś
>> pojęcie o _maksymalnym_ czasie i zlożoności, zwłaszcza, gdy zapiszesz
>> to w odniesieniu do danych wejściowych.
>
> Patrz wyżej - przeciętny czytacz będzie udawał że go to nie interesuje.
> Trochę zresztą tak jak z samochodami - 1000 KM to fajnie się czyta
Może i fajnie, ale niewiele daje informacji o takich 'szczegółach' jak
np prędkość maksymalna, czy "ile +- czasu będę jechał na 100km pustej
autostradzie".
> - 52
> uszczelki, 431 łożysk itd. to trochę durnowate szczegóły.
To jest bez związku. Ja mówię bardziej o podaniu mocy, masy i
przełożenia zamiast podawania prędkości maksymalnej zmierzonej w
warunkach idealnych. (Najlepiej na hamowni bez obciążenia.)
>
> Jak na razie zakładam 1 cykl zegara = 1 operacja FPU. 10x w tę czy w
> tamtą stronę... bez większego znaczenia.
Jeżeli Cię interesuje taki rząd wielkości to o czym jest ta dyskusja?
--
Pozdrawiam
Michoo
>Jeżeli oszacowanie na poziomie 10X Cię interesuje to tak.
Jeżeli nie możesz podać z dokładnością do 0.01%, to lepiej znać "na poziomie
10X" - niż nic nie umieć odpowiedzieć.
Jak na razie - nie podałeś nawet "na poziomie 10X". Dlaczego? Trywialne
wyjaśnienie - nie masz "wiedzy na ten temat".
>Jesteś ignorantem. Od pewnego czasu mamy właśnie wzrost GIPS (i trochę
>mniejszy GFLOPS) przy równoczesnym zatrzymaniu, czy wręcz spadku
>częstotliwości.
Gdybym miał konkretne dane - nie pytałbym - a więc masz rację, w jakimś
sensie jestem "ignorantem".
Niemniej jednak - jak czytam to co napisałeś - to jawisz się jako picer od
reklamy w marketingu, który nawija niczym towarzysz Gierek - "mamy wzrost
przy jednoczesnym zatrzymaniu"! LOL
A już "czy wręcz spadku" - to mega-LOL - przypomnienie "starych dobrych
czasów betonu" bezcenne. (Czekam jeszcze na "na tym odcinku"; "pomożecie?";
"ciągłe doskonalenie".)
Konkrety może jakieś? Ile mamy dziś megaflopsów - a ile mieliśmy w
analogicznym kwartale roku ubiegłego? Sam napisałeś, patrz wyżej, że
oszacowanie obarczone jest błędem rzędu tysiąca procent... więc skąd u
ciebie optymizm?! Nota bene, spadek częstotliwości to raczej nigdy nie jest
postępem - można, choćby chłodząc azotem, zawsze podkręcić i mieć trochę
więcej i trochę do przodu. Obniżanie częstotliwości służy bateriom, ale my
nie dyskutujemy o czasie pracy netbooków - jakbyś nie zauważył.
>Zamiana _kolejności_ instrukcji (a więc brak zmiany ilości tych FLO) może
>dać wielokrotnie różne wyniki.
Acha, właśnie usiłujesz mi przekazać, że czas obliczania 1+2+3 jest różny od
3+2+1 . Acha. A w domu to wszyscy zdrowi?
>Nie zwykłe, bo tych dodawań [dla obliczenia funkcji trygonometrycznych,
>hiperbolicznych] jest po drodze kilka.
To poczytaj sobie, jak był zrobiony Intel 80287. Od tamtych czasów trochę
minęło, oczekiwałbym jakiegoś postępu. Nota bene, masz jakieś blade pojęcie
o tym, jak naprawdę zaimplementowane są rozkazy FPU?! LOL
>Od czasów wymyślenia przewidywania skoków i wywoływania operacji FP w
>pipeline nie ma czegoś takiego jak RAW IPS/RAW FLOPS. Wszystko jest w
>kontekście określonego testu na określonej wersji kompilatora.
Wykręcasz się. Oczywiście, można nieco zaoszczędzić. Są dwie możliwości:
albo wyrocznia odgadnie wszystko i wszystko ułoży się optymalnie dla
prędkości - albo wyjdzie jak zwykle, tj. wszystko się spieprzy, nic się nie
da przyspieszyć. W jednym i drugim przypadku MOŻNA określić ile FLOPS
wyciągnął procesor. Każda inna możliwość będzie zawierała się w tak
ustalonym przedziale.
>Może i fajnie, ale [moc silnika samochodu] niewiele daje informacji o
>takich 'szczegółach' jak np prędkość maksymalna, czy "ile +- czasu będę
>jechał na 100km pustej autostradzie".
Zdziwisz się - daje. Prędkość maksymalną wyliczysz sobie, porównując ze
znana prędkością maksymalną tego samego auta, ale z innymi silnikami. Znając
masę - nietrudno obliczyć, z mocy silnika, ile zajmie rozpędzenie do 100
km/h. Czas przejazdu autostradą- też - choć w tym przypadku jest to nawet
prostsze - jeżeli auto jest ok, to ograniczeniem będą przepisy ruchu. I na
odwrót - jeżeli autko ma silnik o mocy 0.1 KM, to nie spodziewałbym się
pokonania bariery dźwięku.
Tymczasem dziś robi się ściemę na maksa - sprzedaje PC-ty o przyzwoitej
wydajności i "takie same laptopy" mające 10x mniej mocy obliczeniowej. A do
tego "tak samo dobre" netbooki, mające ułamek mocy laptopów. I szafa gra -
e-mail/www działa i na PC, i na lapku, i na netbooku równie zwiewnie.
>przełożenia zamiast podawania prędkości maksymalnej zmierzonej w
O ile pamiętam, to dla R&R nie podawano prędkości maksymalnej. Dla
pozostałych modeli aut - jak najbardziej się podaje. Poszukaj, sprawdź.
>Jeżeli Cię interesuje taki rząd wielkości to o czym jest ta dyskusja?
O tym, że nie jestem najmądrzejszy na świecie, więc pytam się, czy ktoś wie
coś, co pozwoliłoby moje - jakże zgrubne - oszacowania uściślić.
Niestety, choć grupa jest PCP - to mam jednak wrażenie, że poziom
przedszkolaków, co to dorwały się do fejsbuka. Zamiast konkretów - czyli
konkretnych danych, linków, referencji - a nawet po prostu jakichś własnych
pomysłów - "bywalcy" PCP napinają się aby wypaść na expertów. Pisownia
nieprzypadkowa.
slawek
Duzo zalezy od algorytmu, wspomianie dostepy do pamieci (w tym TLB ktory
dla 4KB stron nie pokrywa duzego obszaru pamieci), CPU ma przeciez tez
potoki (juz w przypadku pentium kolejnosc instrukcji wplywala na czas
ich wykonania) i wiele jednostek wykonawczych, jednostka przewidywanie
skokow, wszystkie te elementy sa zalezne od siebie.
Pozdr
Marek
> > mance-SiSoftware-Sandra-2010-Pro-GFLOPS,2409.html
> Ciekawe, bo pod tym adresem mam:
> Tom's Hardware > Error 404
> Sorry!
> The page you requested couldn't be found
> Tom's Hardware
> Zupełnie nie wiem czemu. LOL
Wiesz, jeśli nie potrafisz rozgryźć tej zagadki, to może lepiej by
było, gdybyś zajął się czymś innym niż pisanie programów.
Doprowadz ponizszy kod do wersji kompilowalnejj, uruchom dla roznych
SIZE, zmierz czasy dla roznych SIZE ale tych samych TIME.
Zobaczymy co wyjdzie.
#define TIME 1000000000
#define SIZE od 1E3 do 1E9
double x[SIZE];
for( i=0 ; i<SIZE ; i++ )
x[i] = rand() % 16 - rand() % 16;
double sum=0;
unsigned int r1 = 1234;
unsigned int r2 = 2345;
unsigned int r3 = 3456;
for( i=0 ; i<TIME ; i++ ) {
sum += x[r1%SIZE];
r1 += r2 + r3;
r2 += r1 + r3;
r3 += r1 + r2;
}
printf( sum );
Po pierwsze przemyśl sobie jak zbudowane są współczesne procesory, pod
co są optymalizowane. Problem z obliczeniem ich wydajności jest na tyle
duży, że stosuje się profilowane testy. I nagle okazuje się, że jeden
procesor w grach jest lepszy, a drugi w obliczeniach, a trzeci w
przetwarzaniu grafiki w photoshopie.
To trochę tak jakby obecnie przeliczać na owies zużywane paliwo przez
samochód, śmigłowiec i rakietę kosmiczną.
--
wer <",,)~~
http://szumofob.eu
> Jak na razie - nie podałeś nawet "na poziomie 10X". Dlaczego? Trywialne
> wyjaśnienie - nie masz "wiedzy na ten temat".
Problemy ze wzrokiem?
Message-ID: <ikuaqr$1nr$1...@news.onet.pl>
>
>> Jesteś ignorantem. Od pewnego czasu mamy właśnie wzrost GIPS (i trochę
>> mniejszy GFLOPS) przy równoczesnym zatrzymaniu, czy wręcz spadku
>> częstotliwości.
>
> Gdybym miał konkretne dane - nie pytałbym - a więc masz rację, w jakimś
> sensie jestem "ignorantem".
_Jakieś_ konkretne dane już dostałeś od Andrzeja, ale linka nie umiesz
otworzyć.
>
> Niemniej jednak - jak czytam to co napisałeś - to jawisz się jako picer
> od reklamy w marketingu, który nawija niczym towarzysz Gierek - "mamy
> wzrost przy jednoczesnym zatrzymaniu"! LOL
Nie nie LOL. Twój brak wiedzy nie jest już nawet śmieszny.
>
> A już "czy wręcz spadku" - to mega-LOL - przypomnienie "starych dobrych
> czasów betonu" bezcenne. (Czekam jeszcze na "na tym odcinku";
> "pomożecie?"; "ciągłe doskonalenie".)
>
> Konkrety może jakieś? Ile mamy dziś megaflopsów - a ile mieliśmy w
> analogicznym kwartale roku ubiegłego?
Nie dotrze do ciebie, że takie liczby można porównywać w obrębie
KONKRETNEGO testu? Co robiłeś w szkole jak uczyli czytać ze zrozumieniem.
> Sam napisałeś, patrz wyżej, że
> oszacowanie obarczone jest błędem rzędu tysiąca procent... więc skąd u
> ciebie optymizm?!
Z *moich* testów. Polegających na kompilacji kodu - mnie taka strona
"wydajności" interesuje.
> Nota bene, spadek częstotliwości to raczej nigdy nie
> jest postępem - można, choćby chłodząc azotem, zawsze podkręcić i mieć
> trochę więcej i trochę do przodu.
Widzę, że jesteś też specjalistą w dziedzinie krzemu i projektowania
układów.
> Obniżanie częstotliwości służy
> bateriom, ale my nie dyskutujemy o czasie pracy netbooków - jakbyś nie
> zauważył.
Służy też zapewnieniu wystarczającego odprowadzania ciepła. Nawet ciekły
azot nie pomoże jak się zagotuje interconnect albo sam krzem przegrzeje.
Poza tym przy pewnej dozie równoległości nie ma sensu zwiększanie
częstotliwości bo pamięć nie wyrobi. Dzisiejsze komputery zazwyczaj nie
_prowadzą obliczeń_ a _przetwarzają dane_. I pod to się je optymalizuje.
>
>> Zamiana _kolejności_ instrukcji (a więc brak zmiany ilości tych FLO)
>> może dać wielokrotnie różne wyniki.
>
> Acha, właśnie usiłujesz mi przekazać, że czas obliczania 1+2+3 jest
> różny od 3+2+1 .
Nie. Czas obliczania:
for(int i=0;i<SIZE;i++)
{
tabA[i]=tabB[i]*tabC[i]+tabD[i];
}
Może być różny (i wcale nie w tę stronę co myślisz) od:
for(int i=0;i<SIZE;i++)
{
tabA[i]=tabB[i]*tabC[i];
}
for(int i=0;i<SIZE;i++)
{
tabA[i]+=tabD[i];
}
> Acha. A w domu to wszyscy zdrowi?
U mnie na szczęście tak, bardzo mi przykro z twojego powodu.
>> Nie zwykłe, bo tych dodawań [dla obliczenia funkcji
>> trygonometrycznych, hiperbolicznych] jest po drodze kilka.
>
> To poczytaj sobie, jak był zrobiony Intel 80287.
Taa... Oidp 80287 potrzebowało ~50 cykli na jedno dodawanie. Nie ma jak
turbo wydajność.
> Od tamtych czasów
> trochę minęło, oczekiwałbym jakiegoś postępu.
Tak, jest SSE i spółka - one są właśnie potokowe. A nie
turboszbkie/instrukcja.
> Nota bene, masz jakieś
> blade pojęcie o tym, jak naprawdę zaimplementowane są rozkazy FPU?!
Pewnie. A ty?
> LOL
Już pisałem, że twoja wiedza nie jest śmieszna tylko przygnębiająca.
>
>> Od czasów wymyślenia przewidywania skoków i wywoływania operacji FP w
>> pipeline nie ma czegoś takiego jak RAW IPS/RAW FLOPS. Wszystko jest w
>> kontekście określonego testu na określonej wersji kompilatora.
>
> Wykręcasz się. Oczywiście, można nieco zaoszczędzić. Są dwie możliwości:
> albo wyrocznia odgadnie wszystko i wszystko ułoży się optymalnie dla
> prędkości - albo wyjdzie jak zwykle, tj. wszystko się spieprzy, nic się
> nie da przyspieszyć. W jednym i drugim przypadku MOŻNA określić ile
> FLOPS wyciągnął procesor. Każda inna możliwość będzie zawierała się w
> tak ustalonym przedziale.
No to robimy test z NOP'ami (2 NOP/cykl to już od dawna standard). O
czym mówi tak zmierzona wydajność? Czy daje się porównać z platformą,
która robi tylko 1 NOP/cykl? (I która "w teście" wychodzi 2 razy
wolniejsza?)
>
>> Może i fajnie, ale [moc silnika samochodu] niewiele daje informacji o
>> takich 'szczegółach' jak np prędkość maksymalna, czy "ile +- czasu
>> będę jechał na 100km pustej autostradzie".
>
> Zdziwisz się - daje. Prędkość maksymalną wyliczysz sobie, porównując ze
> znana prędkością maksymalną tego samego auta, ale z innymi silnikami.
Jeden model będzie miał karoserię z włókna a drugi wzmocnioną, z
dodatkową klatką wewnątrz i twoje wyliczenia staja się bardzo trafne...
> Znając masę - nietrudno obliczyć, z mocy silnika, ile zajmie rozpędzenie
> do 100 km/h.
Ile może zająć teoretycznie. 1000 konny spychacz może mieć problem z
rozpędzeniem się do 80. Bo mu ta moc jest w innym celu potrzebna.
>> przełożenia zamiast podawania prędkości maksymalnej zmierzonej w
>
> O ile pamiętam, to dla R&R nie podawano prędkości maksymalnej. Dla
> pozostałych modeli aut - jak najbardziej się podaje. Poszukaj, sprawdź.
Przeczytałeś o warunkach testowych? Co u diabła da Ci w realnej sytuacji
informacja o tym jak szybko samochód kręci kołami przy braku obciążenia?
>
>> Jeżeli Cię interesuje taki rząd wielkości to o czym jest ta dyskusja?
>
> O tym, że nie jestem najmądrzejszy na świecie, więc pytam się, czy ktoś
> wie coś, co pozwoliłoby moje - jakże zgrubne - oszacowania uściślić.
>
Dostałeś, nie umiesz skorzystać - to już Twój problem.
--
Pozdrawiam
Michoo
Tak? Mi pokazuje wyniki.
JD
nie zauważyłem tego zastrzeżenia wcześniej w tym wątku,
B.
Jeżeli nie jest takie łatwe do policzenia - to znaczy że pytanie o to, jakie
to jest - nie jest pytaniem trywialnym. q.e.d.
slawek
Jeżeli nie potrafisz porządnie zapodać linku - to może lepiej tego nie rób,
dobrze?
Teraz już widzisz.
slawek
Jak puszczę na dużej maszynce - to różnice będą niewielkie ;)
--
Pozdrawiam
Michoo
Typowy wykręt, tj. "nie można porównywać bo [...]", "że no wicie rozumicie
nie można tak, bo to, sio i wio."
Utwórz zbiór wszystkich testów - i wyciągnij średnią. Można? Nie wolno? Kto
ci zabronił?
> Służy też zapewnieniu wystarczającego odprowadzania ciepła. Nawet ciekły
> azot nie pomoże jak się zagotuje interconnect albo sam krzem przegrzeje.
Jojojoj. Wiedza nt. chłodzenia kończy się u Michoo na ciekłym azocie. Jak
odkryje I zasadę termodynamiki będzie zdziwiony. Oj!
> Taa... Oidp 80287 potrzebowało ~50 cykli na jedno dodawanie. Nie ma jak
> turbo wydajność.
Jesteś pewien, sprostujesz, czy mam sięgnąć na półkę po tabelkę? Nie pomylił
ci się Intel 80286 z Intel 80287 przypadkiem?
> Dostałeś, nie umiesz skorzystać - to już Twój problem.
Twoim problemem jest to, że jesteś typowym półproduktem z polskiej uczelni -
nie potrafisz dać prostej odpowiedzi na proste pytanie - to starasz się
personalnie niszczyć pytającego. Zadałem proste pytanie. Ale to nie oznacza,
że jak nie potrafisz sensownie odpowiedzieć, to masz obszczekiwać temat.
Może nie potrafisz odpowiedzieć, bo pytanie jest głupie. (Jest jakiś
OBOWIĄZEK odpowiadania na głupie pytania?!) A może nie potrafisz
odpowiedzieć, bo nie rozumiesz pytania? A może nie potrafisz odpowiedzieć,
bo choć pytanie rozumiesz, to nie masz tzw. wiedzy? A może masz nawet
wiedzę, ale nie potrafisz sformułować odpowiedzi, ot, taka trudność z
wysławianiem się? Jakakolwiek byłaby przyczyna tego, że nie potrafisz
konkretnie odpowiedzieć na zadane pytanie - powinna cię powstrzymywać od
jakiejkolwiek wypowiedzi. Zamiast tego wolisz jednak dochrzaniać się nie na
temat, bo... poniekąd słusznie... uważasz, że jak nie odpowiesz na "tak
proste pytanie" to koledzy z podwórka cię wyśmieją.
Jeżeli ktoś kupuje samochód, i chce mieć tani wózek - to chce wiedzieć ile
pali na 100 km. Jeżeli chce mieć sportowe auto - to ile trzeba sekund, aby
rozpędzić się do 100 km/h, jaka jest maksymalna prędkość. A jeżeli
ciężarówkę - to jaka jest ładowność. Podobnie z komputerami. Jeżeli komuś
potrzebny komputer na I Komunię - to liczyć będą się bajery. Ale jeżeli ktoś
potrzebuje coś liczyć - to właśnie będzie potrzebował konkretnie wydajności
podanej choćby w MFLOPS. Twierdzenie że to niemożliwe, aby taką wydajność
zmierzyć, to tak samo, jak twierdzić, że nie da się określić ładowności
ciężarówki. Najśmieszniejsze jest, gdy takiej ładowności (tj. wydajności w
MFLOPS) nie zna kfiat kierofcuf (czyli "polscy programiści z PCP").
slawek
>
> Utwórz zbiór wszystkich testów - i wyciągnij średnią. Można? Nie wolno?
> Kto ci zabronił?
Jeden test liczy czas mnożenia w pipeline a drugi czas pierwiastkowania.
Średnia jak rozumiem wg Ciebie świetnie oddaje czas pracy aplikacji,
która głównie coś dodaje. Coraz ciekawsze teorie głosisz ;)
>
>> Służy też zapewnieniu wystarczającego odprowadzania ciepła. Nawet
>> ciekły azot nie pomoże jak się zagotuje interconnect albo sam krzem
>> przegrzeje.
>
> Jojojoj. Wiedza nt. chłodzenia kończy się u Michoo na ciekłym azocie.
Kto tu napisał o azocie pierwszy? Nie ja, tylko jakiś niedouczony łepek,
który się coraz bardziej miota.
> Jak odkryje I zasadę termodynamiki będzie zdziwiony. Oj!
Co? Znowu nie zrozumiałeś mojej wypowiedzi (co ty u licha w szkole
robiłeś?), więc 3 słowa wyjaśnienia:
opór cieplny - doczytać.
>
>> Taa... Oidp 80287 potrzebowało ~50 cykli na jedno dodawanie. Nie ma
>> jak turbo wydajność.
>
> Jesteś pewien, sprostujesz, czy mam sięgnąć na półkę po tabelkę? Nie
> pomylił ci się Intel 80286 z Intel 80287 przypadkiem?
Przepraszam za olbrzymią pomyłkę z mojej strony.
Jak twierdzi wikipedia:
minimum 70 maksimum 100 cykli na jedną instrukcję FADD.
>
>> Dostałeś, nie umiesz skorzystać - to już Twój problem.
>
> Twoim problemem jest to, że jesteś typowym półproduktem z polskiej
> uczelni - nie potrafisz dać prostej odpowiedzi na proste pytanie - to
> starasz się personalnie niszczyć pytającego.
Ty się pierwszy zacząłeś przypieprzać zupełnie od czapy do poziomu mojej
wiedzy samemu prezentując poziom...niski.
Zadałem proste pytanie. Ale
> to nie oznacza, że jak nie potrafisz sensownie odpowiedzieć, to masz
> obszczekiwać temat.
> Może nie potrafisz odpowiedzieć, bo pytanie jest
> głupie. (Jest jakiś OBOWIĄZEK odpowiadania na głupie pytania?!) A może
> nie potrafisz odpowiedzieć, bo nie rozumiesz pytania? A może nie
> potrafisz odpowiedzieć, bo choć pytanie rozumiesz, to nie masz tzw.
> wiedzy?
A może ty nie potrafisz zrozumieć odpowiedzi? RAW MFLOPS w oderwaniu od
testu są wartością nieporównywalną w sensowny sposób.
>
> Jeżeli ktoś kupuje samochód, i chce mieć tani wózek - to chce wiedzieć
> ile pali na 100 km.
I na pewno miarodajna jest informacja ile silnik spali na luzie, gdy
czas jego pracy będzie odpowiadał czasowi przejechania 100km.
> Jeżeli chce mieć sportowe auto - to ile trzeba
> sekund, aby rozpędzić się do 100 km/h, jaka jest maksymalna prędkość.
Na pewno dobrze odda to efekty jeżdżenia takim pojazdem off-road.
Najlepiej po sypkim piachu jakiejś pustyni.
> A
> jeżeli ciężarówkę - to jaka jest ładowność. Podobnie z komputerami.
> Jeżeli komuś potrzebny komputer na I Komunię - to liczyć będą się
> bajery. Ale jeżeli ktoś potrzebuje coś liczyć - to właśnie będzie
> potrzebował konkretnie wydajności podanej choćby w MFLOPS. Twierdzenie
> że to niemożliwe, aby taką wydajność zmierzyć, to tak samo, jak
> twierdzić, że nie da się określić ładowności ciężarówki.
To jak twierdzenie, że dopuszczalna ładowność ciężarówki wynosi 40 ton
(tyle wytrzymuje ona mechanicznie) więc można nią przewieść 40 ton ziemi
lub 40 ton styropianu.
> Najśmieszniejsze jest, gdy takiej ładowności (tj. wydajności w MFLOPS)
> nie zna kfiat kierofcuf (czyli "polscy programiści z PCP").
Wyciąłeś message-id z początku mojej odpowiedzi. Drugi A.L. się znalazł
- jak coś nie pasuje do teorii to udaje, że tego nie ma.
--
Pozdrawiam
Michoo
Ciupuś. Rozśmieszasz mnie. Serio. A przynajmniej wiesz, dlaczego w lodówce
ciepło płynie z lodówki na zewnątrz? I jak to wyjaśnisz "oporem cieplnym",
LOL
> Wyciąłeś message-id z początku mojej odpowiedzi. Drugi A.L. się znalazł -
> jak coś nie pasuje do teorii to udaje, że tego nie ma.
Do kfiatu programistuf zaliczam te osobniki, które na to zasługują. Zwróć
uwagę na pisownię. Może ci się coś przejaśni w głowie.
Przy okazji - Wikipedia podaje złe dane - 80287 potrafił dodawać w 143
cyklach, FYI.
slawek
W dniu 10.03.2011 01:15, slawek pisze:
>
> Użytkownik "Michoo" <micho...@vp.pl> napisał w wiadomości grup
> dyskusyjnych:il8u80$a27$1...@news.onet.pl...
>> opór cieplny - doczytać.
>
> Ciupuś. Rozśmieszasz mnie. Serio.
FYI - układ scalony to plaster krzemu z tranzystorami na którym znajduje
się kilka warstw połączeń a na najwyższej warstwie bonding, czyli
połączenia do obudowy, całość zalana żywicą.
Z oporu cieplnego wynika, że jak chłodzisz powierzchnię (zawsze masz z
jednej strony obudowę) to jest tam gradient temperatury. W skrajnym
przypadku obudowa ma np. -20 a struktura 120.
A to kwestia samego odprowadzania ciepła. Zostają jeszcze kwestie takie jak:
- doprowadzenie prądu (taki procesor pobiera kilkadziesiąt amperów) -
żeby uzyskać wysoką szybkość pracy trzeba zmniejszyć rozmiar struktury i
połączeń a to powoduje zwiększenie strat - tu w końcu musi się pojawić
jakaś równowaga
- wykonywanie połączeń - przy 6GHz fala ma długość 5cm
- dostarczania danych - pamięci ram całkiem dobrze działają z dostępem
sekwencyjnym, znacznie gorzej z losowym
- oraz pewnie wiele innych, o których nie mam pojęcia
> A przynajmniej wiesz, dlaczego w
> lodówce ciepło płynie z lodówki na zewnątrz?
Wiem. A ty wiesz? Bo ja tu analogii nie widzę.
> I jak to wyjaśnisz "oporem
> cieplnym",
Tak, że jakby go bardzo dużego nie było to lodówka nie miała by prawa
działać. Wnętrze musi być 'izolowane' od zewnętrza.
> LOL
Tak, LOL. Przykład kulą w płot.
> Przy okazji - Wikipedia podaje złe dane - 80287 potrafił dodawać w 143
> cyklach,
No to kto tu bzdury opowiadał o znajomości budowy i czasu pracy?
> FYI.
THX.
--
Pozdrawiam
Michoo
Po piewsze - oczywiście potrafię.
Po drugie - pisałem do grupy, nie do Pana osobiście, więc może sobie
Pan swoje światłe uwagi zwinąć w rulonik i wsadzić tam, gdzie nie
dociera światło dnia.
Po trzecie - może Pan spokojnie uznać, że linki, które wyślę w
przyszłości, jak i dowolne inne moje wypowiedzi, również nie będą
skierowane do Pana.
Cóż, jak zalejesz żywicą - to będziesz miał zalane żywicą. Jak nie
zalejesz - to będziesz miał bez żywicy.
Co cię zmusza do lania żywicy? Gajowy?
> Z oporu cieplnego wynika, że jak chłodzisz powierzchnię (zawsze masz z
> jednej strony obudowę) to jest tam gradient temperatury. W skrajnym
> przypadku obudowa ma np. -20 a struktura 120.
Poczytaj sobie najpierw co nieco o zjawiskach termoelektrycznych. (Nota
bene, skąd u ciebie przekonanie, że gradient jest tylko na powierzchni? "Na
powierzchni" to może właśnie tego gradientu "nie być", tj. może być
nieciągłość.)
> A to kwestia samego odprowadzania ciepła. Zostają jeszcze kwestie takie
> jak:
> - doprowadzenie prądu (taki procesor pobiera kilkadziesiąt amperów) -
Jaj. Ile ciepła wytwarza przepływ 1000 amperowego prądu przez nadprzewodnik?
LOL
> żeby uzyskać wysoką szybkość pracy trzeba zmniejszyć rozmiar struktury i
> połączeń a to powoduje zwiększenie strat - tu w końcu musi się pojawić
Bynajmniej. Zmniejszanie (węższe ścieżki) pozwalają zastosować niższe
napięcia, to prowadzi do mniejszych mocy, to do niższych temperatur (lub
pozwala na podniesienie taktowania przy tych samych temperaturach).
> - wykonywanie połączeń - przy 6GHz fala ma długość 5cm
Naprawdę? No nie mogę, 5 centymetrów wobec ścieżek 45 nanometrów... jakie
ma znaczenie? Ile to jest rzędów wielkości, bo nie chce mi się liczyć...
> Wiem. A ty wiesz? Bo ja tu analogii nie widzę.
Przepływ ciepła nie musi być wymuszony jedynie różnicą temperatur. Można,
bez większego trudu, dostarczając dodatkową energię z zewnątrz, uzyskiwać
wymuszony przepływ ciepła. Czyli teoretycznie zrobić "samochłodzący" się
chip. W praktyce przykleić na CPU blok komórek Peltiera. Jedyny problem - to
zbierający się szron.
> Tak, że jakby go bardzo dużego nie było to lodówka nie miała by prawa
> działać. Wnętrze musi być 'izolowane' od zewnętrza.
Jeżeli lodówka będzie miała doskonałą izolację - to wiesz łosiu co się
będzie działo? Wódka którą do niej wstawisz, będzie miała taką samą
temperaturę po tygodniu - jak w chwili w której ją wstawiałeś! Niczego nie
schłodzisz, niczego nie zamrozisz. Prawdziwa lodówka aktywnie wypompowuje
ciepło - to nie jest "naturalne" stygnięcie czy "jedynie" izolacja.
slawek
Radzę panu swój kufer trzymać tam, gdzie dociera "światło dnia".
jeżeli kolega przybył do nas z przyszłości, gdzie stosuje się
nadprzewodzące materiały do budowy procesorów, proszę podzielić się
wiedzą na temat tych materiałów. Przyda się nam bardzo.
B.
> Jaj. Ile ciepła wytwarza przepływ 1000 amperowego prądu przez
> nadprzewodnik? LOL
Połprzewodnik, nie nadprzewodnik.
Moc tracona na takich układach to prąd * napięcie zasilania.
U mnie 1.32V więc Twoje 1000A puszczone (przez kilkanaście
procesorów, nie przez jeden;) da 1.3kW. Pół czajnika.
A nawet jeśli byłyby to nadprzewodniki, to nie możesz zejść
dowolnie nisko z napięciem. Te bity trzeba ładować
i rozładowywać. Mamy więć układy LC (obecnie raczej RC),
w _wielkim_ uproszczeniu stan niski to 0, stan wysoki to
napiecie zasilania. Jeśli napięcie zasilania bedziesz
zmniejszać, zwiększać bedzie się czas potrzebny na
przejście ze stanu 0 do 1 i odwrotnie. Spadnie
maksymalna częstotliwość, przy której nie ma przekłamań!
[być może wprawne oko zauwazy tu związek z podkrecaniem
procesora i podnoszeniem mu napięcia zasilania:) ].
A tak po inzyniersku. Naprawde nie zauwazyłeś, ze wspolczesny
procesor 'x64' i podobny potrafi zezreć tyle, co nieunijna
zarówka (prawie 100W). Myślisz, ze to złośliwie dodali grzałkę
w procku i przez nienawiść do swiata kazali użytkownikom
smarować połączenie procek-radiator jakąś mazią?
Procki się grzeją i problem z odprowadzaniem ceipla
ze struktury jest problemem bardzo istotnym.
[dlatego też ludzie podniecają się azotkiem galu
czy grafenem. wieksza ruchliwosc nosnikow;)]
pzdr
bartekltg
>
>> Z oporu cieplnego wynika, że jak chłodzisz powierzchnię (zawsze masz z
>> jednej strony obudowę) to jest tam gradient temperatury. W skrajnym
>> przypadku obudowa ma np. -20 a struktura 120.
>
> Poczytaj sobie najpierw co nieco o zjawiskach termoelektrycznych.
Choćbyś miał 0 absolutne po jednej stronie to ciepło musi tam
przepłynąć. Przy pewnej gęstości energii układ się wcześniej ugotuje.
> (Nota
> bene, skąd u ciebie przekonanie, że gradient jest tylko na powierzchni?
> "Na powierzchni" to może właśnie tego gradientu "nie być", tj. może być
> nieciągłość.)
Gradient jest wgłąb - powierzchnia - struktura. To chyba oczywiste dla
każdego kto ma jakiekolwiek pojęcie o konstrukcji układów scalonych.
>
>> A to kwestia samego odprowadzania ciepła. Zostają jeszcze kwestie
>> takie jak:
>> - doprowadzenie prądu (taki procesor pobiera kilkadziesiąt amperów) -
>
> Jaj. Ile ciepła wytwarza przepływ 1000 amperowego prądu przez
> nadprzewodnik?
W jakich temperaturach pracują nadprzewodniki a jaka jest temperatura
zestalenia azotu? Zbudujesz dodatkowo komorę ciśnieniową?
> LOL
Tak. LOL.
>
>> żeby uzyskać wysoką szybkość pracy trzeba zmniejszyć rozmiar struktury
>> i połączeń a to powoduje zwiększenie strat - tu w końcu musi się pojawić
>
> Bynajmniej. Zmniejszanie (węższe ścieżki) pozwalają zastosować niższe
> napięcia, to prowadzi do mniejszych mocy, to do niższych temperatur (lub
> pozwala na podniesienie taktowania przy tych samych temperaturach).
Interesująca teoria. Masz coś na jej poparcie?
Zmniejszenie struktur zmniejsza pojemności pasożytnicze. (FYI - prawie
cała moc wydzielana przez procesor to właśnie ładowanie-rozładowywanie
tych pojemności.) Mniejsze pojemności to szybsze przełączanie. Samo
podniesienie napięcia w celu przyspieszenia przełączania nie działa, bo
prądy rosną na tyle mocno, że nie daje się odprowadzać ciepła.
>
>> - wykonywanie połączeń - przy 6GHz fala ma długość 5cm
>
> Naprawdę? No nie mogę, 5 centymetrów wobec ścieżek 45 nanometrów...
Szerokości, nie długości.
> jakie ma znaczenie? Ile to jest rzędów wielkości, bo nie chce mi się
> liczyć...
Procesor ma zdaje się w okolicy 1.5 cm^2 powierzchni i kilka-kilkanaście
warstw interconnectu. Sumaryczna długość połączeń idzie w metry.
>
>> Wiem. A ty wiesz? Bo ja tu analogii nie widzę.
>
> Przepływ ciepła nie musi być wymuszony jedynie różnicą temperatur.
> Można, bez większego trudu, dostarczając dodatkową energię z zewnątrz,
> uzyskiwać wymuszony przepływ ciepła. Czyli teoretycznie zrobić
> "samochłodzący" się chip. W praktyce przykleić na CPU blok komórek
> Peltiera. Jedyny problem - to zbierający się szron.
Jedyny problem, że to ogniwo transportuje energię już z wnętrza swojej
struktury. Do tej struktury energia dociera klasycznie. Nic to nie
zmienia w problemie. Poznaj zasadę działania takich ogniw, potem próbuj
znaleźć dla nich zastosowanie.
>
>> Tak, że jakby go bardzo dużego nie było to lodówka nie miała by prawa
>> działać. Wnętrze musi być 'izolowane' od zewnętrza.
>
> Jeżeli lodówka będzie miała doskonałą izolację - to wiesz łosiu co się
> będzie działo? Wódka którą do niej wstawisz, będzie miała taką samą
> temperaturę po tygodniu - jak w chwili w której ją wstawiałeś! Niczego
> nie schłodzisz, niczego nie zamrozisz. Prawdziwa lodówka aktywnie
> wypompowuje ciepło - to nie jest "naturalne" stygnięcie czy "jedynie"
> izolacja.
Właśnie - wypompowuje. Żeby to ciepło nie wróciło potrzebna jest
izolacja. Im lepsza tym lepiej. Najlepiej jak jedynym punktem gdzie może
przepływać były przewody chłodziwa.
--
Pozdrawiam
Michoo
http://pl.wikipedia.org/wiki/Tunelowanie_Josephsona
slawek
Oj, to napisz jeszcze ile wynosi entalpia swobodna dla tego procesu. LOL
> U mnie 1.32V więc Twoje 1000A puszczone (przez kilkanaście
> procesorów, nie przez jeden;) da 1.3kW. Pół czajnika.
Jeżeli nie znasz napięcia - nie policzysz. A napięcie nie było podane. Więc
nie fantazjuj.
> A nawet jeśli byłyby to nadprzewodniki, to nie możesz zejść
> dowolnie nisko z napięciem. Te bity trzeba ładować
Bo? Dla quasistatycznego kopiowania bitów energia nie jest potrzebna. DNA
potrzebuje 150 kT na bit. Jakoś żyjesz beż wiatraka w mózgu - a według
ciebie to niemożliwe.
> i rozładowywać. Mamy więć układy LC (obecnie raczej RC),
O, widzę że twoja wiedza kończy się na prądzie trójfazowym i układach RLC.
Milusie. Tyle że układy RLC są bierne, a bramki logiczne - czynne jak
cholera. Więc dalsze twoje wywody są co najmniej nie na temat.
> zarówka (prawie 100W). Myślisz, ze to złośliwie dodali grzałkę
> w procku i przez nienawiść do swiata kazali użytkownikom
> smarować połączenie procek-radiator jakąś mazią?
Nie złośliwie, ale po prostu dlatego, że panowie inżynierowie nie potrafili
zrobić lepszych procesorów, choć prawa Natury tego nie zabraniają.
Podobnie było z telewizorami lampowymi - też nikt złośliwie nie robił ich
tak, aby się grzały i psuły - ale się grzały i psuły, bo reprezentowały
technologię, którą uważamy obecnie za przestarzałą. Według ciebie postęp po
prostu nie jest możliwy. Po prostu nie rozumiesz, że czym innym aktualny
stan technologii (i ekonomiczne przesłanki) - a czym innym uznane przez
naukę granice możliwości.
> [dlatego też ludzie podniecają się azotkiem galu
> czy grafenem. wieksza ruchliwosc nosnikow;)]
Ruchliwość nośników niemal w każdym wzorku mnoży się przez koncentrację.
Więc sama większa ruchliwość nic nie daje.
slawek
I w tym się mylisz.
> Gradient jest wgłąb - powierzchnia - struktura. To chyba oczywiste dla
> każdego kto ma jakiekolwiek pojęcie o konstrukcji układów scalonych.
Każdy matematyk chwilę zastanowi się, jakim cudem chcesz mieć pochodną w
miejscu nieciągłości. No, ale nie takie rzeczy my ze szwagrem.
> Właśnie - wypompowuje. Żeby to ciepło nie wróciło potrzebna jest
Jak już nauczysz się rozróżniać pomiędzy energią, temperaturą a ciepłem - to
zrozumiesz parę rzeczy jeszcze, których teraz po prostu nie rozumiesz.
slawek
"typowego CPU" powinienem dodać.
B.
>
>> Gradient jest wgłąb - powierzchnia - struktura. To chyba oczywiste dla
>> każdego kto ma jakiekolwiek pojęcie o konstrukcji układów scalonych.
>
> Każdy matematyk chwilę zastanowi się, jakim cudem chcesz mieć pochodną w
> miejscu nieciągłości.
Jakiej nieciągłości? To się uogólnia na nieskończoną płaszczyznę.
>
>> Właśnie - wypompowuje. Żeby to ciepło nie wróciło potrzebna jest
>
> Jak już nauczysz się rozróżniać pomiędzy energią, temperaturą a ciepłem
> - to zrozumiesz parę rzeczy jeszcze, których teraz po prostu nie rozumiesz.
A ty umiesz rozróżniać? Temperatura jest miarą energii. Ciepło sposobem
przekazywania energii. Jaki widzisz problem?
P.S.
Wolę trole które bronią swojego zdania (a potem kapitulują) a ty
wszystkie obalone argumenty ignorujesz i wyciagasz z kapelusza kolejne,
coraz odleglejsze od początkowego tematu. W związku z tym chyba zakończę
tę pół-uczoną dysputę.
Dla przypomnienia zaczęło się od twojego, kłamliwego stwierdzenia, że
procesory wcale nie zyskały na tzw. "mocy obliczeniowej" przy
jednoczesnym obniżeniu częstotliwości taktowania.
--
Pozdrawiam
Michoo
Płaszczyzna XY daje nieciągłość w Z.
> A ty umiesz rozróżniać? Temperatura jest miarą energii. Ciepło sposobem
Temperatura jest pochodną energii po entropii. Sprawdź.
> Dla przypomnienia zaczęło się od twojego, kłamliwego stwierdzenia, że
> procesory wcale nie zyskały na tzw. "mocy obliczeniowej" przy jednoczesnym
> obniżeniu częstotliwości taktowania.
Tego nie twierdziłem. Twierdziłem tylko że: 0. można oszacować wydajność
procesora w takiej jednostce jak FLOPS; 1. ostatnio procesory mało zyskują
na wydajności mierzonej we FLOPS; 2. wzrost wydajności procesorów głównie
polegał na zwiększaniu częstotliwości zegara; 3. wartość FLOPS (MFLOPS,
GFLOPS) jest ukrywana, nie informuje się o tym (nie widziałem reklamy
"laptop z procesorem x GFLOPS); 4. wiele urządzeń przedstawianych jako
zamienniki "normalnego" PC (netbooki, tablety) mają żałośnie niską wydajność
w porównaniu z takim "blaszakiem"; 5. obniżenie częstotliwości taktowania
obniża wydajność.
Co do pkt. 2. - skok około 100x wydajności ze względu na konstrukcję FPU -
ale z drugiej strony skok 1000x ze wzgledu na prędkość zegara. Czyli głównie
prędkość zegara. Zwłaszcza że te 100x to dla patologicznych przypadków,
normalnie znacznie mniej.
Co do pkt. 0. - niewątpliwie (wszystkie zestawienia i benchmarki to
potwierdzają, gdyby nie można było - nie byłoby tychże benchmarków).
Co do pkt. 3. - podaj konkretną reklamę.
Co do pkt. 1. - "ostatnio" oznacza "od chwili rozmnażania rdzeni w
procesorze".
Co do pkt. 5. - jeżeli CPU A ma wydajność x przy częstotliwości 50% niższej
niż CPU B, wyższą o 20% procent niż CPU B, to przy taktowaniu takim samym
jak CPU B będzie miał wydajność jeszcze wyższą, tj. 140% wydajności CPU B.
Nie ma zaś jakiegokolwiek racjonalnego powodu, dla którego "nie da się"
taktować procesorów nowszych generacji przynajmniej tak samo szybko jak tych
starszej generacji. Czyli dla danego CPU nie ma sensu obniżać taktowania aby
ZWIĘKSZYĆ wydajność.
slawek
> Ja tam się nie znam ;), ale czy SSE jest FPU czy fixed?
SSE jest zmiennoprzecinkowe. jest to niezależny od x87 układ. teoretycznie
można tak napisać program by liczył na obu jednostkach jednocześnie w ramach
jednego wątku, dalej zwiększając wydajność.
> Nic się nie komplikuje - po prostu liczymy na 1 rdzeń - bo jak mamy 4
> rdzenie, to mamy "400% normy".
raz, że nigdy to nie jest równo razy 4 nawet jeśli obliczenia są całkowicie
niezależne, a dwa że jeszcze jest coś takiego jak hyper-threading, które
daje dużo mniej niż prawdziwe rdzenie.
> Teoretycznie można się zastanawiać - np. jak jeden rdzeń na maxa - to
> czy pozostałe też mogą tak iść bez usmażenia.
Mój Core 2 Quad chodzi czasami 4xMAX po kilka godzin i nic mu się nie
dzieje. kwestia sprawnego wiatraczka.
--
Azarien
> Jak na razie zakładam 1 cykl zegara = 1 operacja FPU. 10x w tę czy w tamtą
> stronę... bez większego znaczenia.
>
Na pewno nie jest tak szybko ze 1cykl = 1 flop !!! Popraw to. O ile wiem to add sub Itp zajmuja ok
0.5 - 4 cykle ale fsin fdiv rzedu 40. Do tego dostep do ramu poza cache o ile wiem nawet kilkaset.
Ja bym pomnozyl rdzenie przez zegar I podzielil przez jakis czynnik miedzy 5 a 50 np
4x4/5=3.2 gflops
Fir
Sent from my iPhone.
--
Wysłano z serwisu OnetNiusy: http://niusy.onet.pl
> Na pewno nie jest tak szybko ze 1cykl = 1 flop !!! Popraw to. O ile wiem to add sub Itp zajmuja
ok
> 0.5 - 4 cykle ale fsin fdiv rzedu 40. Do tego dostep do ramu poza cache o ile wiem nawet
kilkaset.
> Ja bym pomnozyl rdzenie przez zegar I podzielil przez jakis czynnik miedzy 5 a 50 np
> 4x4/5=3.2 gflops
> Fir
Zrobilem testy:
Mac book pro: (core2 2.2GHz x2 ale test na jednym watku)
for million " data[I]+=1.01 " 4 milisekundy
czyli 0.25 gflopa
Odejmowanie 5 mili mnozenie 10 mili dzielenie 17 sinus 52
Iphone
for million
Mac book pro: (core2 2.2GHz x2 ale test na jednym watku)
for million " data[I]+=1.01 " 4 milisekundy
czyli 0.25 gflopa
Odejmowanie 5 mili mnozenie 10 mili dzielenie 17 sinus 52
Iphone dodawanie 121 mili mnozenie 128 sinus 450
Ground zero - fir
for million
> Zrobilem testy:
> Mac book pro: (core2 2.2GHz x2 ale test na jednym watku)
> for million " data[I]+=1.01 " 4 milisekundy
> czyli 0.25 gflopa
W sumie to optymistyczne oszacowanie teoretyczne I test sie mw zgadza
Dla procka 4 GHZ I 4 rdzenie byloby 2 floppy
Moze simdy by podciagnely ze dwa trzy razy
Do okolo kilku gigaflopow w dodawaniu
Realnie na jednym rdzeniu mamy teraz jak sadze ledwie okolo 0.1 G
ground zero - fir