大量炼丹进程的任务调度问题

49 views
Skip to first unread message

cdlum...@gmail.com

unread,
Aug 10, 2020, 10:09:32 AM8/10/20
to TUNA 主邮件列表
Hi,

我炼丹的时候经常会遇到需要运行大量实验(扫参数,或者
填一个大的数据表格),而实验数量又远超过手上资源能够
一口气并行运行完的程度,现在想与各位探讨一下关于这种
情况的解决方案大体思路和工具。

假设我们有N个待运行的实验,每个实验具有不确定的属性
(CPU,内存,GPU,显卡,IO等占用,优先级,开销)。
那么深入细节之后这个问题很快就听起来像一个超算任务队列
调度问题(pbs,htcondor)。但是讓炼丹师们在若干工作站
上使用超算的解决方案也未免太过分。

基于这种需求,我很久以前实现过一个简单的工具来组织
这些实验并记录屏幕输出[1]. 但是后来tmux上了瘾就不再用
了,而一直是在tmux下挂并行任务,无法一次性并行完实验的
情况就将实验临时组织成多个串行脚本,再并行地挂到tmux上。

我在想,炼丹师这么多,参数扫描应该也是高频需求,而目前
是否有比较成熟优雅的,框架无关的一个解决方案可以用来安排
大量实验,而又不至于上升到超算的复杂度?

感谢!

陈晟祺

unread,
Aug 10, 2020, 10:12:38 AM8/10/20
to TUNA 主邮件列表
其实我觉得 PBS 相当科学……

-- 
Shengqi Chen

Pengcheng Xu

unread,
Aug 10, 2020, 10:16:48 AM8/10/20
to tuna-g...@googlegroups.com
> 假设我们有N个待运行的实验,每个实验具有不确定的属性
> (CPU,内存,GPU,显卡,IO等占用,优先级,开销)。
> 那么深入细节之后这个问题很快就听起来像一个超算任务队列
> 调度问题(pbs,htcondor)。但是讓炼丹师们在若干工作站
> 上使用超算的解决方案也未免太过分。

何出此言?工具是為人服務的,如果某個工具適合某個用途,竊以為大可不必在意其設計用途,拿來用便是了。

至於閣下所提需求,Slurm 似乎十分合適,提做備考。

>
> 基于这种需求,我很久以前实现过一个简单的工具来组织
> 这些实验并记录屏幕输出[1]. 但是后来tmux上了瘾就不再用
> 了,而一直是在tmux下挂并行任务,无法一次性并行完实验的
> 情况就将实验临时组织成多个串行脚本,再并行地挂到tmux上。
>
> 我在想,炼丹师这么多,参数扫描应该也是高频需求,而目前
> 是否有比较成熟优雅的,框架无关的一个解决方案可以用来安排
> 大量实验,而又不至于上升到超算的复杂度?

極端來講,當下超算無非是有高速互聯的一群 PC 罷了 (see Beowulf cluster),當成集群來管理,既 future proof 又可應用成熟方案,何樂不為呢?

>
> 感谢!
>
>
> [1] https://github.com/cdluminate/tq
>


Regards,
--
Pengcheng Xu
https://jsteward.moe
openpgp-digital-signature.asc

Justin Wong

unread,
Aug 11, 2020, 12:06:16 AM8/11/20
to noreply-spamdigest via TUNA 主邮件列表
超参本身的管理可以使用 hpman [1]

计算任务的管理…… 除了并行 tmux 或者超算方案我想不到别的解。


--
Justin Wong

--
您收到此邮件是因为您订阅了Google网上论坛上的“TUNA 主邮件列表”群组。
要退订此群组并停止接收此群组的电子邮件,请发送电子邮件到tuna-general...@googlegroups.com

Zhiyuan Chen

unread,
Aug 11, 2020, 7:01:29 AM8/11/20
to tuna-general, i
自动搜参的工具很多,还有微软NNI,英伟达Milano等等。他们应该都能满足需求。

超算方案指的是什么?

---- 在 星期二, 11 八月 2020 12:05:48 +0800 Justin Wong <i...@bigeagle.me> 撰写 ----


zyc.ai acknowledges the Traditional Owners of Australia, their ancestors and Elders, past and present.
Please consider the environment before printing.

Justin Wong

unread,
Aug 12, 2020, 9:34:19 AM8/12/20
to noreply-spamdigest via TUNA 主邮件列表
“超算方案”非特指。我是说楼主这个

> 听起来像一个超算任务队列调度问题
> 使用超算的解决方案也未免太过分

挺矛盾的。

有一些相关工具可能对楼主有用,比如 Ray 的 tune [1]
或者更轻量级的,仅仅拿来管理一下实验记记 log 可以考虑 neptune [2] 或其他类似物。


--
Justin Wong

Reply all
Reply to author
Forward
0 new messages