我的解讀是試不同 alpha, 看 (# iter, J(theta)) 的圖形,
從中找出最適合的 alpha
這種情況下用等比感覺還滿符合直覺,
若將 alpha 看成是一個函數 f(alpha) -> cost after K iterations,
where K is some constant.
這有些像 binary search 一樣, 可以比較快找到某個區間,
不過 f(alpha) 並不是連續的, 所以只是「感覺上」會有效,
我想這裡只是提供基本概念, 如何有效率地選個還不壞的 alpha
另外 alpha 不見得必須是常數,
有些演算法會動態調整參數,
以前修 evolutionary computation 時有讀過 evolution strategy 裡的 1/5 rule,
套 gradient decent 的術語來說的話,
概念是觀察最近五回 J(theta) 的變化是變大或變小,
若成功率大過某個值 (表示可以放心「跨」更大步), 則放大 alpha;
反之, 則縮小 alpha (表示跨過頭了)