안녕하세요.
이쪽에 문의를 드리는게 맞나 싶지만
달리 방도를 찾지못해 문의드립니다.
현재 train.py를 돌리고 있고
----------------------------------------
2019-08-19 02:27:36,358 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3516/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:28:00,459 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3517/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:28:24,700 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3518/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:28:48,681 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3519/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:29:12,577 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3520/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:29:37,714 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3521/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:30:02,407 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3522/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:30:26,510 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3523/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001021
2019-08-19 02:30:50,612 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3524/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001020
2019-08-19 02:31:14,824 [steps/nnet3/chain/train.py:519 - train - INFO ] Iter: 3525/18431 Jobs: 1 Epoch: 0.76/4.0 (19.1% complete) lr: 0.001020
-----------------------------------------
이렇게 로그가 찍히고 있는 상황이었습니다.
하지만 이후 로그가 찍히지 않아 확인을 해보니
하드디스크에 filesystem read-only 가 되어있고
아무래도 리드온리가 되어있다보니 디스크에 write가 되지 않아서 종료가된 것으로 판단하고 있습니다.
/var/log/messages에도 이미지와 같이 에러가 나 있었습니다.
혹시 이런 경우가 있으셨는지 여쭤보고 싶습니다
혹시 있다면 어떻게 대처하셨는지도 어드바이스 부탁드립니다.
mount 를 다시 remount해서 재 시작을 했는데
서버 2대(각각 따로 러닝) 모두 동일하게 비슷한 시점에 러닝이 종료되었습니다.