この本を読んで感じたことは
文中にGPUのグローバルメモリーのアクセスが遅いことが述べられているのに、高速なシェアードメモリを使ったサンプルがありません。
従来のリニアな処理との速度比較で差が出るのは当然なので、もう一歩踏み込んだテクニックを紹介して欲しいところです。
他からのアクセスを制限するアトミック関数の説明の所で2ページに亘って関数のプロトタイプが書かれていますが
atomicSUB()が引き算だとわかってもatomicCAS()が何なのか私にはまったく想像できません、簡単な説明が必要だと思います。
かなりのページをさいてNVIDIAのハードの性能表がありますがComputeCapability(機能バージョン)について書かれていません。
この値が1.3以上の倍精度演算に対応したハードは数少なく、CUDAをダウンロードしないと得られない情報なのでこの表に含めるべきだったと思います。
GPUのプログラミングはGPU向きのアルゴリズムに修正することもありますが、
サンプルのバイトニックソートアルゴリズムはGPU向きで、GPGPUにより発掘されたと言えるのではないでしょうか。
多目的用途の可能性を示す例となっているので、ソートアルゴリズムに関心のある人には参考になると思います。
プログラミング入門というよりはCUDA入門に近い内容なのでサンプルコード満載の本を期待していると肩透かしを食らいます。
CUDA化することが決まっているのであれば青木氏の本をお勧めします。