dcmodel ミーティング記録(2016/08/12)
参加者
- 北大
- 石渡, 荻原, 堀之内, 村橋
- 神戸大
- 林, 高橋, 河合, 松田
- 九大
- 中島
- 京大
- 石岡, 佐々木, 竹広
SVPACK を用いて層方向に並列化した spml モジュールとダイナモベンチマーク(竹広)
- ua_mpi_module_svpack
- 格子データ : 第 3 次元目(鉛直・動径方向)を分割
- スペクトルデータ : 球面調和関数東西波数に関して分割
- wa_mpi_module_supack(ua_mpi_module_supack)
- 格子データ : 第 2 次元目(緯度)を分割
- スペクトルデータ : 球面調和関数東西波数に関して分割
- ベンチマークの結果
- ベンチマークの規模 (2048x1024x192), 球面調和函数 + チェビシェフ変換
- Intel 系システム
- MPI 並列数が少ないうちは svpack/supack に大きな速度差はない
- svpack の OpenMP 並列の速度の伸びが低い. チェビシェフ変換の足かせか?
- 「京」
- MPI 並列数が少ないうちは svpack が速い. MPI 並列数が大きくなると supack が速い.
- O(1) TFLops 出すのに O(100) MPI 並列ぐらい必要. Intel だと O(10).
- 格子点数と波数と同程度にまで並列数大きくすると, CPU の負担が均等にならなくなり効率が落ちる. こだわるなら層方向と波数の双方分割を考える?
- プロファイルをとってみるといいのだが...
2 重周期境界モジュールの MPI 並列化について(竹広)
- ee_mpi_module
- 格子データ : Y 方向を分割
- スペクトルデータ : X 方向波数を分割
- MPI_Send, MPI_Recv をくり返し呼んでいるので多分効率悪い
- double FFT だと計算量が少ないので通信コストを抑えなければ効率が上がらないだろう.
- fvpack を使うモジュールを作るのがよかろう
その他
- post-K が動きはじめた. 9/19 にキックオフミーティング.
- 数値計算テキストのリンクをはる.
次回日程
- 2016/09/23(金) 13:30 〜