# CUDA_LEARN_SAMPLES **Repository Path**: BBuf/CUDA_LEARN_SAMPLES ## Basic Information - **Project Name**: CUDA_LEARN_SAMPLES - **Description**: Cuda Learn Samples - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2019-05-22 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Cuda学习例子 这是自己学习Cuda过程中的一些代码记录,推荐两个Cuda的超级好的博客,https://blog.csdn.net/sunmc1204953974/article/details/51078818 和https://blog.csdn.net/q583956932/article/category/7323933 ,十分感谢这两个博主的良心博文带我Cuda入门。 # 本机开发环境和相关依赖 Clion, Cuda7.5, Cudnn, GeForce GTX TITAN X, 安装Cuda时需要配置好环境变量 # 优化技巧和加速比(CPU运行时间/GPU运行时间) ### 测试环境为计算1024×1024大小的数组的立方和 | 优化技巧编号 | 优化技巧名称 | 加速比 | | ------ | ------ | ------ | | 1 | 无GPU优化 | 1.00 | | 2 | 加入GPU运算 | 0.12 | | 3 | 256多线程 | 2.32 | | 4 | 512/1024多线程 | 2.30 | | 5 | 256线程加连续内存优化 | 4.61 | | 6 | 512线程加连续内存优化 | 12.50 | | 7 | 1024线程加连续内存优化| 23. 67 | | 8 | 256线程加32个BLOCK优化| 82.80 | | 9 | 512线程加32个BLOCK优化| 77.59 | | 10 | 1024线程加32个BLOCK优化| 57.56 | | 11 | 256线程加64个BLOCK优化| 98.69 | | 12 | 256线程加128个BLOCK优化| 106.10 | | 13 | 256线程加128个BLOCK加共享内存加线程同步| 74.6 | | 14 | 256线程加128个BLOCK加共享内存加线程同步加树装加法| 106.50| | 15 | 矩阵乘法 1000 × 1000 | 25489 | | 16 | 矩阵乘法 10000 × 10000 | GPU 1.5s 加速比未知 | | 17 | 矩阵乘法 1000 × 1000 利用kahan求和算法优化精度| 25707 | # 备注 使用Kahan求和算法进行精度提升时,在我的GPU上没有明显提升,我仍需要研究一下是何种原因导致的。