train.py 러닝중 에러

140 views
Skip to first unread message

bourbon kk

unread,
Aug 19, 2019, 3:00:46 AM8/19/19
to zeroth-help
안녕하세요.



이쪽에 문의를 드리는게 맞나 싶지만

달리 방도를 찾지못해 문의드립니다.



현재 train.py를 돌리고 있고

 ----------------------------------------
2019-08-19 02:27:36,358 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3516/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:28:00,459 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3517/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:28:24,700 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3518/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:28:48,681 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3519/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:29:12,577 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3520/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:29:37,714 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3521/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:30:02,407 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3522/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:30:26,510 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3523/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001021
2019-08-19 02:30:50,612 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3524/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001020
2019-08-19 02:31:14,824 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3525/18431   Jobs: 1   Epoch: 0.76/4.0 (19.1% complete)   lr: 0.001020
-----------------------------------------

이렇게 로그가 찍히고 있는 상황이었습니다.

하지만 이후 로그가 찍히지 않아 확인을 해보니

하드디스크에 filesystem read-only 가 되어있고

아무래도 리드온리가 되어있다보니 디스크에 write가 되지 않아서 종료가된 것으로 판단하고 있습니다.


/var/log/messages에도 이미지와 같이 에러가 나 있었습니다.

혹시 이런 경우가 있으셨는지 여쭤보고 싶습니다

혹시 있다면 어떻게 대처하셨는지도 어드바이스 부탁드립니다.


mount 를 다시 remount해서 재 시작을 했는데

서버 2대(각각 따로 러닝) 모두 동일하게 비슷한 시점에 러닝이 종료되었습니다.


image.png

bourbon kk

unread,
Aug 19, 2019, 3:02:10 AM8/19/19
to zeroth-help
root@11111111:/hdd/zeroth/s5# touch 1
touch: cannot touch '1': Read-only file system


2019년 8월 19일 월요일 오후 4시 0분 46초 UTC+9, bourbon kk 님의 말:

bourbon kk

unread,
Aug 19, 2019, 3:08:20 AM8/19/19
to zeroth-help
Aug 19 02:31:24 blackvoice kernel: [109676.034061] EXT4-fs (sda1): ext4_writepages: jbd2_start: 2048 pages, ino 115116303; err -30
Aug 19 02:31:24 blackvoice kernel: [109676.064407] EXT4-fs error (device sda1): ext4_journal_check_start:61: Detected aborted journal
Aug 19 02:31:24 blackvoice kernel: [109676.064489] EXT4-fs (sda1): Remounting filesystem read-only
Aug 19 02:31:24 blackvoice kernel: [109676.072755] EXT4-fs error (device sda1): ext4_journal_check_start:61: Detected aborted journal
Aug 19 02:31:25 blackvoice kernel: [109676.097743] EXT4-fs (sda1): ext4_writepages: jbd2_start: 12288 pages, ino 114558330; err -30

/var/log/syslog 에러 부분 추가

2019년 8월 19일 월요일 오후 4시 0분 46초 UTC+9, bourbon kk 님의 말:
안녕하세요.

Lucas Jo

unread,
Aug 19, 2019, 3:35:22 AM8/19/19
to zeroth-help
음... 저는 처음보는 에러입니다.

파일시스템에 뭔가 문제가 생길만한 상황이 있는지  확인해보시지요. 


2019년 8월 19일 월요일 오후 4시 8분 20초 UTC+9, bourbon kk 님의 말:

bourbon kk

unread,
Aug 19, 2019, 4:05:51 AM8/19/19
to zeroth-help

전력의 문제일 수 있다고 합니다. 혹시 저와같은 문제가 발생하신 분을 위해 남겨둡니다.

단독 전력이라고 하기엔 뭐하지만 1 콘센트 1 테스트 서버로 변경했습니다.

러닝이 완료되면 또 기록남기겠습니다.

혹시 테스트 서버의 파워가 몇 와트인지 공유해주실 수 있으신가요?

2019년 8월 19일 월요일 오후 4시 35분 22초 UTC+9, Lucas Jo 님의 말:

Lucas Jo

unread,
Aug 19, 2019, 4:25:16 AM8/19/19
to zeroth-help
파워문제로 파일시스템에 문제가 생기는건 ... 잘 모르겠습니다.

GPU 1080Ti 를 기준으로 저희는 3 GPU Xeon CPU 2개 256 GB 메모리 정도의 서버 머신에 대해 1600W 수퍼플라워 파워서플라이를 사용합니다.


2019년 8월 19일 월요일 오후 5시 5분 51초 UTC+9, bourbon kk 님의 말:
Message has been deleted

bourbon kk

unread,
Aug 20, 2019, 9:10:51 PM8/20/19
to zeroth-help
gpu 온도 문제인것같습니다 아침에 보니 gpu에 에러가 나와있었습니다.


케이스 모두 열고 선풍기를 쐐고있습니다


두대 러닝 중인데
스펙은

1300W 192G ram 2080TI 2개

750W 126G ram 2080TI 2개 입니다.


혹시 저랑 비슷한 상황이신분들이 계실까

기록 남깁니다.


2019년 8월 19일 월요일 오후 5시 25분 16초 UTC+9, Lucas Jo 님의 말:
Reply all
Reply to author
Forward
0 new messages