電通大今村先生のレビュー

26 views
Skip to first unread message

Ishii Masayuki

unread,
Oct 7, 2010, 7:27:45 PM10/7/10
to GPGPUfan
こんにちは。
今月配送された、応用数理に電通大の今村先生の固有値計算アルゴリズムと自動チューニングの
話があります。
今村先生は、若手ながら数々の多くの賞を獲得しているやり手の研究者であります。
以前、三浦さんが指摘されておりましたが固有値解法にてハウスホルダー三重対角化のアルゴリズムは
行列積という重たい計算が出てきており、GPGPUにおいてはコストがかなり削減できるようであります。
行列積というと、量子力学でのアルゴリズムを連想いたしますが。gpgpuと量子力学(とりわけ第一原理計算など)
は相性がよろしくないという噂ではありましたが、固有値計算では、アルゴリズムによっては計算コストの
削減ができるとなると、量子力学でも貢献の余地は十二分に考えられると思いますが、皆さんは
いかがお考えでしょうか?

Toshiyuki IMAMURA

unread,
Oct 11, 2010, 10:52:14 PM10/11/10
to gpgpuf...@googlegroups.com, ima...@im.uec.ac.jp, Ishii Masayuki
はじめまして

電通大今村です。

> 今月配送された、応用数理に電通大の今村先生の固有値計算アルゴリズムと自動チューニングの
> 話があります。
> 今村先生は、若手ながら数々の多くの賞を獲得しているやり手の研究者であります。

せっかく紹介されたので、固有値計算でGPUネタを少し。

先月の応用数理学会年会で初めてGPUを使って固有値計算を
した内容を話しました。

確かにDGEMMは速いなと実感できます。TeslaC2050では300GFLOPSで
一般的なquad coreよりも1桁上の性能です。

といっても固有値計算はDGEMMだけではないので、計算全体で
GTX285もしくはGTX460を使ってquad coreのCPUの2倍程度速い
(TeslaC2050でも3倍)という結果でした。

コアあたりのメモリ帯域が10倍ではないので、帯域が必要な
ループはPCと同様に性能を落とすことになります。

固有値計算のコストが突出しているのであれば、計算時間が
1/2になるのはかなりの効果といえるでしょうか。

Ishii Masayuki

unread,
Oct 13, 2010, 2:46:37 PM10/13/10
to GPGPUfan
今村先生。ありがとうございます。

> 確かにDGEMMは速いなと実感できます。TeslaC2050では300GFLOPSで
> 一般的なquad coreよりも1桁上の性能です。

それは、速いですね。300GFLOPSというのはなかなかです。

> といっても固有値計算はDGEMMだけではないので、計算全体で
> GTX285もしくはGTX460を使ってquad coreのCPUの2倍程度速い
> (TeslaC2050でも3倍)という結果でした。
>
> コアあたりのメモリ帯域が10倍ではないので、帯域が必要な
> ループはPCと同様に性能を落とすことになります。
>
> 固有値計算のコストが突出しているのであれば、計算時間が
> 1/2になるのはかなりの効果といえるでしょうか。

多くの人がおっしゃっているように、メモリーの帯域がネックになって
思ったより高速化されないということでしょうか。であれな、
メモリーの帯域がキーポイントですね。

固有値だけじゃなく、特異値分解でもおなじでしょうかね?

いしいまさゆき
Reply all
Reply to author
Forward
0 new messages