大容量データセットの読み込みについて

391 views
Skip to first unread message

くり

unread,
Jun 29, 2021, 11:57:28 PM6/29/21
to Neural Network Console Users (JP)
皆様

大変お世話になっております。

始めて半年くらいの初心者ですみませんが、
windows版で 2万列 × 20万行(約20GB)のcsvファイルをデータセットを読み込もうとすると、「データセットを読み込んでいます」の画面になったまま10時間以上経過しても読み込み完了なりません。

行数を1/100(約200MB)すると10分くらいで読み込めるのですが、
20GBを読み込むには100倍の1000分かかるという考え方で合ってますでしょうか?

また、現在のPCのメモリは8GBですがこれを増やせば読み込み時間が短縮されるという認識で合っておりますでしょうか。

御多用のところ恐縮ですが,ご助言いただけますと幸いです。

Irja

unread,
Jul 3, 2021, 2:44:17 AM7/3/21
to Neural Network Console Users (JP)
10時間以上経過しても読み込み完了なりません >> PC は メモリ不足に落ちてます

私の経験から言いますと
------------------------------
1-トレーニングファイルを読み込む時にトレーニングファイルのウェイトの 5~8倍ほど メモリを消費します。(CSVファイルの列数によって異なります)

現在のPCのメモリは8GBであれば、トレーニングファイルのウェイトを500㎆以下にしたほうがいいかもしれません。
1個 20GB ではなく 40個 500MB トレーニングファイルを作成して一個ずつ追加学習にする。

* 作成CSVファイルの 最大行数 1,048,576  最大列数 16,384 以下にする。(エクセル 2019)

2021年6月30日水曜日 12:57:28 UTC+9 jpn211...@gmail.com:

くり

unread,
Jul 9, 2021, 10:24:30 PM7/9/21
to Neural Network Console Users (JP)
Irja 様

お返事が遅くなりまして申し訳ございません。

ご教示いただいた情報をもとに、試してみましたところ、
読み込み時にTraining_Fileの容量の2~3倍ほどのメモリを消費していることが分かりました。

試行錯誤してみましたところ、csvを1行づつ個別のファイルに分割し、
画像データセットのように個別csvのpassと目的変数の対応が分かるcsvを読み込ませる方法があることが分かりました。

まずは、こちらの方法でトライしてみることといたします。


2021年7月3日土曜日 15:44:17 UTC+9 Irja:
Reply all
Reply to author
Forward
0 new messages