Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

jak wygląda proces archiwizacji dużej bazy?

55 views
Skip to first unread message

Alsor ZL

unread,
Feb 18, 2022, 11:28:25 AM2/18/22
to
W dużych firmach jest sporo danych,
które należy zabezpieczyć przed utratą.

Przykładowo mamy bazę 20 albo i 200GB,
i to codziennie rośnie... zmienia się,
więc trzeba to chyba archiwizować na bieżąco - codziennie.

Baza jest nieustannie modyfikowana: 24h / dobę
przez wielu zdalnych pracowników, rozsianych nawet po całej Polsce,
albo i dalej...

Zatem nie można tego zablokować np. na godzinę i sobie kopiować całość... do odtworzenia na wypadek awarii.

Jak to jest realizowane w praktyce?

Adam

unread,
Feb 19, 2022, 5:03:14 AM2/19/22
to
Przecież bazy SQL (bo w zasadzie już tylko takie są używane) archiwizuje
się podczas normalnej pracy, użytkownicy nawet tego nie widzą.
Bazy te mają dużo "powietrza", więc można je skutecznie kompresować. Nawet
MS-SQL umie zrobić BACKUP DATABASE TO DISK WITH COMPRESSION. W większych
środowiskach stosuje się serwery backupowe.

A ponadto są mechanizmy backupu różnicowego i przyrostowego, znane od
prehistorii. W windowsach jest shadow-copy, który też nie wymaga przerwania
pracy. W środowisku wirtualnym są migawki.


--
Pozdrawiam.

Adam

Alsor ZL

unread,
Feb 20, 2022, 5:40:17 PM2/20/22
to
sobota, 19 lutego 2022 o 11:03:14 UTC+1 Adam napisał(a):

> Przecież bazy SQL (bo w zasadzie już tylko takie są używane) archiwizuje
> się podczas normalnej pracy, użytkownicy nawet tego nie widzą.
> Bazy te mają dużo "powietrza", więc można je skutecznie kompresować. Nawet
> MS-SQL umie zrobić BACKUP DATABASE TO DISK WITH COMPRESSION. W większych
> środowiskach stosuje się serwery backupowe.
>
> A ponadto są mechanizmy backupu różnicowego i przyrostowego, znane od
> prehistorii. W windowsach jest shadow-copy, który też nie wymaga przerwania
> pracy. W środowisku wirtualnym są migawki.

Chyba mówisz o malutkich bazach...

Pytam o te wielkie, np. urzędowe, albo firm typu bank, albo poczta,
które mają tysiące punktów obsługi - w każdej mieścinie.

Adam

unread,
Feb 21, 2022, 10:23:23 AM2/21/22
to
Akurat banki i poczty mają stosunkowo małe bazy danych.
Cyba, że porównujemy z bazami danych jakiegoś sklepu, gdzie 20GB już jest
traktowane jako "duża" baza.


--
Pozdrawiam.

Adam

Alsor ZL

unread,
Feb 21, 2022, 1:18:40 PM2/21/22
to
poniedziałek, 21 lutego 2022 o 16:23:23 UTC+1 Adam napisał(a):

> > Pytam o te wielkie, np. urzędowe, albo firm typu bank, albo poczta,
> > które mają tysiące punktów obsługi - w każdej mieścinie.
> Akurat banki i poczty mają stosunkowo małe bazy danych.
> Cyba, że porównujemy z bazami danych jakiegoś sklepu, gdzie 20GB już jest
> traktowane jako "duża" baza.

dla mnie 100M czy 10000TB bez różnicy...

pytanie było: jak to jest zabezpieczane przed utratą.

Dla małych możesz sobie kopiować co 5 minut, bo to trwałoby kilka sekund.

A dla dużych, wielkich, i rozproszonych, no to ja tego w ogóle nie widzę.

Pewnie tego w ogóle się nie zabezpiecza - jazda na żywioł.

Pomijam jakieś tam lokalne kopie z automatu, co jest trzymane w tym samym miejscu -
i najpewniej na tym samym dysku... a przynajmniej: w jednym komputerze to siedzi;
bo po co nam kupować dwa?

Awaria, pożar, spięcie, ktoś ukradnie... no to pójdzie wsio w kosmos - wraz z tym zapasem.

Cezary Grądys

unread,
Feb 21, 2022, 3:31:10 PM2/21/22
to
W dniu 21.02.2022 o 16:23, Adam pisze:

>
> Akurat banki i poczty mają stosunkowo małe bazy danych.
> Cyba, że porównujemy z bazami danych jakiegoś sklepu, gdzie 20GB już jest
> traktowane jako "duża" baza.
>
>

Chyba coś ok 10 lat temu spotkałem się z opinią, że duza baza to taka co
milion wierszy dziennie przybywa ;)





--
Cezary Grądys
czar...@wa.onet.pl

Andrzej Stróżyński

unread,
Feb 21, 2022, 4:39:02 PM2/21/22
to
W dniu 2022-02-21 o 19:18, Alsor ZL pisze:
> poniedziałek, 21 lutego 2022 o 16:23:23 UTC+1 Adam napisał(a):
>
>>> Pytam o te wielkie, np. urzędowe, albo firm typu bank, albo poczta,
>>> które mają tysiące punktów obsługi - w każdej mieścinie.
>> Akurat banki i poczty mają stosunkowo małe bazy danych.
>> Cyba, że porównujemy z bazami danych jakiegoś sklepu, gdzie 20GB już jest
>> traktowane jako "duża" baza.
>
> dla mnie 100M czy 10000TB bez różnicy...
Dla mnie to spora różnica

> pytanie było: jak to jest zabezpieczane przed utratą.
To zależy. Ważne, żeby skutecznie.

> Dla małych możesz sobie kopiować co 5 minut, bo to trwałoby kilka sekund.
>
> A dla dużych, wielkich, i rozproszonych, no to ja tego w ogóle nie widzę.
>
> Pewnie tego w ogóle się nie zabezpiecza - jazda na żywioł.
No jasne.

> Pomijam jakieś tam lokalne kopie z automatu, co jest trzymane w tym samym miejscu -
> i najpewniej na tym samym dysku... a przynajmniej: w jednym komputerze to siedzi;
> bo po co nam kupować dwa?
>
> Awaria, pożar, spięcie, ktoś ukradnie... no to pójdzie wsio w kosmos - wraz z tym zapasem.
Pierdolisz.


--
pozdrawiam
AS

Adam

unread,
Feb 21, 2022, 5:01:33 PM2/21/22
to
Dnia Mon, 21 Feb 2022 21:30:28 +0100, Cezary Grądys napisał(a):

> W dniu 21.02.2022 o 16:23, Adam pisze:
>
>>
>> Akurat banki i poczty mają stosunkowo małe bazy danych.
>> Cyba, że porównujemy z bazami danych jakiegoś sklepu, gdzie 20GB już jest
>> traktowane jako "duża" baza.
>>
>
> Chyba coś ok 10 lat temu spotkałem się z opinią, że duza baza to taka co
> milion wierszy dziennie przybywa ;)

Ale teraz już jest nieco inaczej.
Mam firmę, w której dziennie może przybyć tylko kilkaset wierszy, ale za to
do bazy pompowane są binaria: fotki towarów, instrukcje, katalogi. Są to
dane konieczne do prowadzenia sprzedaży internetowej.
Taka baza może w kilka godzin przegonić bazę księgową z dziesięcioletnim
stażem.


--
Pozdrawiam.

Adam

Alsor ZL

unread,
Feb 22, 2022, 11:37:52 AM2/22/22
to
Dobrze wiemy jak to działa w praktyce:
po awarii systemu... nie ma zapasu danych (bo niby po co to robić... to kosztuje!),
który należało zabezpieczyć, więc co wtedy się dzieje?

Wiadomo co:
szefostwo tłumaczy się: mieliśmy zmasowany atak hakerów rosyjskich!

No i szydło wyszło z wora:
teraz już wiemy na czym polega ta... nowoczesna wojna cybernetyczna... :)







Andrzej Stróżyński

unread,
Feb 23, 2022, 12:30:49 AM2/23/22
to
W dniu 2022-02-22 o 17:37, Alsor ZL pisze:
> poniedziałek, 21 lutego 2022 o 22:39:02 UTC+1 Andrzej Stróżyński napisał(a):
>> W dniu 2022-02-21 o 19:18, Alsor ZL pisze:
>>> poniedziałek, 21 lutego 2022 o 16:23:23 UTC+1 Adam napisał(a):
>>>
>>>>> Pytam o te wielkie, np. urzędowe, albo firm typu bank, albo poczta,
>>>>> które mają tysiące punktów obsługi - w każdej mieścinie.
>>>> Akurat banki i poczty mają stosunkowo małe bazy danych.
>>>> Cyba, że porównujemy z bazami danych jakiegoś sklepu, gdzie 20GB już jest
>>>> traktowane jako "duża" baza.
>>>
>>> dla mnie 100M czy 10000TB bez różnicy...
>> Dla mnie to spora różnica
>>> pytanie było: jak to jest zabezpieczane przed utratą.
>> To zależy. Ważne, żeby skutecznie.
>>> Dla małych możesz sobie kopiować co 5 minut, bo to trwałoby kilka sekund.
>>>
>>> A dla dużych, wielkich, i rozproszonych, no to ja tego w ogóle nie widzę.
>>>
>>> Pewnie tego w ogóle się nie zabezpiecza - jazda na żywioł.
>> No jasne.
>>> Pomijam jakieś tam lokalne kopie z automatu, co jest trzymane w tym samym miejscu -
>>> i najpewniej na tym samym dysku... a przynajmniej: w jednym komputerze to siedzi;
>>> bo po co nam kupować dwa?
>>>
>>> Awaria, pożar, spięcie, ktoś ukradnie... no to pójdzie wsio w kosmos - wraz z tym zapasem.
>> Pierdolisz.
>
> Dobrze wiemy jak to działa w praktyce:
> po awarii systemu... nie ma zapasu danych (bo niby po co to robić... to kosztuje!),

Piszesz z autopsji? Jeśli tak, to co tam jeszcze robisz? (no chyba, że
to Twoja firma)

> który należało zabezpieczyć, więc co wtedy się dzieje?
>
> Wiadomo co:
> szefostwo tłumaczy się: mieliśmy zmasowany atak hakerów rosyjskich!

jw

> No i szydło wyszło z wora:
> teraz już wiemy na czym polega ta... nowoczesna wojna cybernetyczna... :)


--
pozdrawiam
AS

geos

unread,
Feb 23, 2022, 5:31:57 PM2/23/22
to
u nas w firmie w weekend idzie backup, do którego wyłączają dostęp do
bazy na niecałą godzinę.

normalnie podczas pracy operacje są zapisywane w redo logach. nie siedzę
w tym dokładnie ale w przypadku padu odtwarza się z ostatniego backupu a
później z redo logów do momentu padu.

pozdrawiam
geos

Adam

unread,
Feb 24, 2022, 10:39:07 AM2/24/22
to
Bardzo mnie ciekawi, dlaczego jest wyłączany dostęp do bazy na czas
backupu. W windowsach "od zawsze" nie potrzeba zatrzymywać bazy danych SQL
(a przynajmniej MS-SQL) do backupu. Chyba, że to jeszcze coś w rodzaju
Pervasive, albo bazy siedzą na Netware 5.0 ;)
W Windowsach daje się robić backup w locie od jakiejś wersji 2003, a w
linuksach też "od zawsze" jest rsync i inne narzędzia, nie wymagające
zatrzymania plików.


--
Pozdrawiam.

Adam

geos

unread,
Feb 24, 2022, 5:29:39 PM2/24/22
to
On 24.02.2022 16:39, Adam wrote:
> Bardzo mnie ciekawi, dlaczego jest wyłączany dostęp do bazy na czas
> backupu.

odpowiedź jest prosta: bo tak wolą robić backupy. robią tzw. zimny backup.

pozdrawiam
geos

Cezary Grądys

unread,
Feb 26, 2022, 6:50:59 AM2/26/22
to
W dniu 24.02.2022 o 23:29, geos pisze:

> odpowiedź jest prosta: bo tak wolą robić backupy. robią tzw. zimny backup.
>
> pozdrawiam
> geos


No i pewnie jest taka możliwość, że może ta baza być niedostępna.



--
Cezary Grądys
czar...@wa.onet.pl

Alsor ZL

unread,
Feb 27, 2022, 9:52:32 AM2/27/22
to
A jaki ma rozmiar ta baza?

dla kopiowania na bele jakim SSD: 100 MB/s minimum.

3600s x 100 MB/s = 360000 MB = 360 GB.

geos

unread,
Feb 27, 2022, 2:17:27 PM2/27/22
to
On 27.02.2022 15:52, Alsor ZL wrote:
> A jaki ma rozmiar ta baza?

ok. 21TB

pozdrawiam
geos

Alsor ZL

unread,
Feb 28, 2022, 9:38:03 PM2/28/22
to
chyba pomyliłeś literki: 21GB.

dla 21TB nie skopiowałbyś tego na żadnym sprzęcie w rozsądny, czasie.
zresztą nie macie takich dysków... aby to pomieścić.

szybkość waszych kopiarek:
21/360 x 100 = 6 MB/s
i tak nieźle... jak na pendrive z 1 generacji. :)

Luuuuuuuuuuudie. wy nie macie pojęcia w jakim świecie żyjecie:
G, T, a może masz Peta w mordzie, co?

Adam

unread,
Mar 1, 2022, 4:33:51 AM3/1/22
to
Mój pierwszy pendrive - 16 MB.
Jaki on wtedy był duży :)
Całe pudełko dyskietek w jednym "gwizdku".


--
Pozdrawiam.

Adam

geos

unread,
Mar 1, 2022, 4:38:16 AM3/1/22
to
nie pomyliłem jednostek.

daruj sobie takie dalsze teksty. to nie ta grupa. nie ruszają mnie, to
raz, a dwa to raczej ty nie masz pojęcia zielonego o tej bazie i w jakim
świecie żyję.

geos

Adam

unread,
Mar 1, 2022, 4:21:57 PM3/1/22
to
U mnie w firmie podobne wielkości mają niektóre z maszyn wirtualnych.
Jakoś się kopiują i miejsca na backupy w innej lokalizacji starcza.

Serwery to nie tylko jakaś jedna maszyna, teraz to może być szafa z kilkoma
jednostkami bezdyskowymi i z macierzami SAN.


--
Pozdrawiam.

Adam

Alsor ZL

unread,
Mar 1, 2022, 5:35:56 PM3/1/22
to
Jasne...
a po kompresji zipem jest tego raptem... z 600MB, czyli klasyczny krążek CD. hihi!

dużo powierza trzymacie.. chyba wam tam strasznie duszno jest - co? haha!

a te hurtowe loginy robocze zajmują... z 3TB ... z 1 dnia pracy - zgadłem?
ale tego nie archiwizujesz... chyba, co?





Alsor ZL

unread,
Mar 1, 2022, 5:39:08 PM3/1/22
to
z pewnością...
tylko skąd tyle tych danych weźmiesz?
aha... z biblioteki publiczne - z UJ?

1 książka = 1MB
zapisz sobie milion książek a otrzymasz... raptem 1TB,!

Luuuuuuuudzie, o czym wy gadacie!


Adam

unread,
Mar 2, 2022, 4:56:36 AM3/2/22
to
O czym Ty gadasz?
Jedno fotka to czasem kilka MB.
Fotek kilkadziesiąt na jednej stronie, stron kilkaset na jednej witrynie.
A na hostingu siedzi kilkadziesiąt takich witryn.
A są np. jeszcze witryny techniczne, gdzie jest sporo materiałów video, są
dość opasłe instrukcje w PDF. Owszem, te instrukcje są tworzone przez ludzi
nie mających wiedzy poligraficznej, umiejętności ani narzędzi, więc często
zajmują kolejne dziesiątki MB.
Do tego bazy firmowe, gdzie normą w tej chwili jest przerzucanie dokumentów
przez OCR, celem automatycznego przetwarzania np. do rejestrów zakupu albo
do FZ. A jeśli jest to biuro rachunkowe mające ok. 300 klientów, a dla
większości z tych klientów dziennie przetwarza się po kilkadziesiąt czy
kilkaset faktur, to dziennie mogą przybywać duże gigabajty.
Same serwery pocztowe zajmują wiele TB.
Są skrzynki obsługiwane przez IMAP, gdzie jedno konto potrafi zajmować ko
pilkaset GB, a mieć alokację jeszcze większą.

Minęły już czasy prostych relacyjnych baz danych w dBase, gdzie liczył się
każdy bajt w polu.
Serwery teraz to nie tylko prosty program w Clipperze.


--
Pozdrawiam.

Adam

Tomek

unread,
Mar 2, 2022, 6:55:03 AM3/2/22
to
W dniu 01.03.2022 o 23:35, Alsor ZL pisze:
> wtorek, 1 marca 2022 o 10:38:16 UTC+1 geos napisał(a):
> Jasne...
> a po kompresji zipem jest tego raptem... z 600MB, czyli klasyczny krążek CD. hihi!
>
> dużo powierza trzymacie.. chyba wam tam strasznie duszno jest - co? haha!
>

To skompresuj obrazek JPG i zobacz ile powietrza z niego ujdzie.

Ale trzymanie takich blobów (obrazki) w bazie, jak dla mnie, to słaby
pomysł - więcej wad niż zalet.

Alsor ZL

unread,
Mar 2, 2022, 9:49:14 AM3/2/22
to
wiem że robicie to na 'wariata' - obrazki zamiast to przetworzyć na tekst, kontury, itd.

Epoka Big Data polega właśnie na gromadzeniu śmieci...
a dlaczego?
bo sprzęt urósł, więc pozwala na takie... kretyńskie praktyki!

Potem ktoś twierdzi że ma potężne bazy - w TB, albo w Petach!
Bzdura! Wym siedzi zaledwie kilkaset MB zazwyczaj,
bo redundancja wynosi = 99.99999999%.

Filmy: 2 godziny x 24 fps x obrazek 1000 x 1000 x rgb = ?
gdyby to tak wprost zapisywać,
wtedy jeden film zajmowałby ... cały ten wasz serwerek by nie wyrobił!



Adam

unread,
Mar 2, 2022, 1:15:24 PM3/2/22
to
Jeżeli masz na myśli OCR faktur, to chyba nie wiesz, o czym rozmawiasz.
Owszem, nie ma potrzeby już od roku 2014 podpisywać faktur, nie ma
pieczątek. Ale są inne przepisy, nie tylko w ustawie o rachunkowości, ale
też i w kodeksie cywilnym.
Nie każda firma korzysta z ECOD/EDI, gdzie już od wielu lat niczego się nie
drukuje, a cała wymiana różnych dokumentów jest wyłącznie eketroniczna. Są
więc jeszcze w tym roku faktury papierowe, choćby na stacjach paliw.
Stertę tych faktur wrzuca się do podajnika skanera, skaner to wysyła do
systemu OCR i owszem, faktura jest czytana przez dość inteligentny system,
mający całą masę algorytmów, aby na różnych fakturach różnie drukowanych
znaleźć m.in. datę dostawy/wykonania usługi, datę sprzedaży (albo tylko
miesiąc dla usług ciągłych), odróżnić nabywcę od odbiorcy, wyłuskać, czy
faktura jest od netto czy brutto, odróżnić kod EAN od kodu produktu,
odróżnić VAT od rabatu, odróżnić nazwę towaru od jego cech zwłaszcza przy
pozycjach wielolinijkowych itd itp.
Ale też ze względu na inne przepisy niż rozporządzenie w sprawie faktur,
należy przechowywać albo fakturę papierową albo jej obraz, nie
zmodyfikowany i nie zmieniony.
Ponadto obraz ten jest przydatny do weryfikacji rej. vat w księgowości, gdy
algorytm OCR zgłosi nieprawidłowość, albo faktura jest "bardziej"
księgowana, np. przez krąg kosztów.


--
Pozdrawiam.

Adam

DarekPn

unread,
Mar 2, 2022, 2:14:52 PM3/2/22
to
W dniu 02.03.2022 o 12:55, Tomek pisze:
Szkoda czasu na karmienie trolla. Chyba go pamiętam...

--
Ta wiadomość została sprawdzona na obecność wirusów przez oprogramowanie antywirusowe Avast.
https://www.avast.com/antivirus

Alsor

unread,
Mar 2, 2022, 4:44:47 PM3/2/22
to
Bzdury opowiadasz.

pamiętam starego kumpla... sprzed 25 lat !

On mówił wtedy tak (ignorant z informatyki!):

- po co mi te faktury drukują!
- niech mi to prześlą prosto do mojej bazy - programu księgowego, itd.

śmiałem się wtedy z jego pomysłów, bo wiedziałem że to nie ta... epoka.

no ale miał rację, niestety...

a ta epoka już dawno nastała!

Teraz już możesz wysyłać... dokładnie jak on to mówił.

Ale wy tego nadal nie robicie...
dlaczego?
bo jesteście zacofani - żyjecie ciągle w czasach 1990r.

Powodzenia w przeszłości.

Adam

unread,
Mar 2, 2022, 5:07:57 PM3/2/22
to
Ale masz coś konstruktywnego do powiedzenia?

Pierwsze transmisje na modemach 2400 i 9600 ustawiałem w sklepach
samochodowych gdzieś na przełomie lat 80/90-tych. Było to połączenie do FSO
albo FSM. Już wtedy były transmitowane dokumenty, głównie zamówienia.

Standard EDI/ECOD ma już sporo ponad 20 lat, jest jednolity w wielu krajach
Europy.
W roku bieżącym fakultatywnie są e-faktury, od roku 2023 mają być
obligatoryjnie.

Natomiast niektóre banki czy sądy do tej pory nie uznają maili.
Ja pierwszego maila miałem gdzieś końcem lat 80-tych, bodajże w sieci fido.
Wtedy mało kto jeszcze słyszał o BBS-ach, internet zaczął wchodzić kilka
lat później.

Nie wiem, o co Ci chodzi, ale widzę, że dyskusja z Tobą to chyba marnowanie
czasu.


--
Pozdrawiam.

Adam

Alsor

unread,
Mar 3, 2022, 1:57:37 PM3/3/22
to
Generalnie pewnie masz rację.

jestem zbyt dobry, za stary, za bardzo obcykany...
aby pytać o cokolwiek z tej dziedziny - sam wiem z góry, lub zgadnę lepiej...

niemniej trzeba jakoś edukować młodzież... z branży IT,
bo to co uprawiacie to ... dziecinada. :)

A nawet prozaiczna... Rozrywka
polegająca na 'dyskusji' z amatorami - naiwnymi userami systemów komp.!, też ma swoją... wartość.
0 new messages