�ո��Ӣΰ��CUDAӭ��ʷ��£�

��Сʱǰ��NVIDIA CUDA Toolkit 13.1 ��ʽ��Ӣΰ��ٷ��֣�� 20 ��һ�θ��

Ӣΰ��ý

�� 2006 �� CUDA ƽ̨��ģ��ȫ�ĸ��°��

NVIDIA CUDA Tile ��Ӣΰ�� tile �ı��ģ��ͳ��ר��Ӳ��

Runtime API exposure of green contexts��ָ��ν�� Green Context��ָ��ġ��ɲ��Ļ�ִ��Ρ�̻¶��ⲿŲ��ʹ��

NVIDIA cuBLAS �е�˫��Ⱥ͵��ȷ��

һ��ȫ��д�� CUDA ��ָ�� רΪ CUDA ��ֺ͸߼��Ա��

��Ǿ��ϸ��

CUDA Tile

CUDA Tile �� NVIDIA CUDA Toolkit 13.1 ���ĸ��һ�ֻ�� tile �ı��ģ��ܹ��Ը��ߵ��д�㷨��ͳ��ר��Ӳ��㣩��ϸ��

Ӣΰ��ý

�� CUDA Tile �Ľ��㿴��

Ӣΰ�ﲩ��ڹ��˵��CUDA Tile ��ڸ�� SIMT��ָ��̣߳��Ĳ㼶��д GPU �˺��

��ڵ� SIMT ��ͨ��ͨ��ݲ��˵ÿ��̵߳�ִ��·��ָ��˺��

�� CUDA Tile��߿��ͳ�㼶��ֱ��ָ��Ϊ��Tile��ݿ��ֻ��ָ��Ҫ��Щ Tile ��ִ�е��ѧ��ʱ��λ��Զ��齫��鸺�طַ��̵߳��ѷ��

�� Tile ģ��Ų�� Tensor Core ��ר��Ӳ��ĵײ�ϸ�� Tile ��뽫�ܹ��δ�� GPU �ܹ��

CUDA 13.1 �� Tile ��̵��

CUDA Tile IR��һ�� NVIDIA GPU ��̵�ȫ��ָ��ܹ��ISA��

cuTile Python��һ��µ��ض��ԣ�DSL�� Python �б�д�� Tile �ĺ˺��

�ײ�ϸ��

�� Tile ·��ջ�� SIMT ·��Ӧ��

��Ǹ��׸��汾��ע��

CUDA Tile ��֧�� NVIDIA Blackwell�� 10.x �� 12.x��ϵ�в�Ʒ��δ�� CUDA �汾��չ�Ը��ܹ��֧��

��ڵĿ��ص�۽�� AI �㷨�� Tile ��Ӣΰ��δ�� CUDA �汾�н�һ��Ч��

Ӣΰ��ڼ�� CUDA �汾�� C++ ʵ��

ΪʲôҪΪ GPU �� Tile ��

CUDA �򿪷��ṩ�˵�ָ��̣߳�SIMT��Ӳ��ͱ��ģ��ģʽҪ��ͬʱҲ��а�Ժ��Դ��ִ�з��ϸ��ȿ��Ȼ��д��ܴ��Ҫ֧��ش��Ҫ�� GPU �ܹ��

ֻ��⣨�� NVIDIA CUDA-X �� NVIDIA CUTLASS��ּ��ھ��CUDA Tile ��һ�ֱ� SIMT �㼶��ߵ�� GPU ��̷��

��鸺�ص��ݽ�� AI ��ѳ�Ϊһ�ֻ��NVIDIA ��ר��ڴ��óͷ��Ӳ�� NVIDIA Tensor Core��TC�� NVIDIA Tensor Memory Accelerator��TMA��ѳ�Ϊÿ�� GPU �ܹ��в��ɻ�ȱ��ɲ��

Ӳ��Խ�ش��Խ��Ҫ��Ԧ��Щ��CUDA Tile �� Tensor Core ��ģ�Ӿ��ͳ��ʹ��ʹ�� CUDA Tile ��д�Ĵ��ܹ��Ŀ��δ�� Tensor Core �ܹ��

�� Tile �ı�̷��ͨ��ָ��ݿ飨�� Tile��Ȼ��˵��Щ Tile ��ִ�е��д�㷨��Ԫ�صĲ��趨�㷨��ִ��ϸ�ڣ��ʱ��óͷ��Щ��

��ͼչʾ�� CUDA Tile �Ƴ�� Tile ģ�� CUDA SIMT ģ��֮��Ŀ��

Tile ģ�� CUDA SIMT ģ��֮��Ŀ��

Tile ģ�ӣ��󣩽��ݻ��Ϊ��ӳ�䵽�߳��ָ��̣߳�SIMT��ģ�ӣ��ң��ͬʱӳ�䵽��߳�

��ֱ�̷�ʽ�� Python ��кܳ��Щ�� NumPy ��Ŀ��ָ��Ȼ��ü��ӵĴ��ָ��ִ��

CUDA ��

��Ǳ�� CUDA �汾��а��Ҫ��ˢ�£�

��ʱ�� Green Context��ɫ��ģ��֧��

CUDA �е� Green Context ��һ��ʽ��Ϊ�Ű� CUDA ��ĵ��滻�ƻ��Ϊ��ṩ��ϸ��ȵ� GPU �ռ仮��Դ��

�� CUDA 12.4 �� API ��ṩ��ӱ��汾��Green Context Ҳ��ʽ��ʱ API �п��ʹ��

Green Context ʹ�û��ܹ��˵�� GPU ��Դ��Ҫ�� Streaming Multiprocessors��SM��Խ��ض��Ŀ�� SM ��ɸ�ĳ��ض�� Green Context ��Ȼ��ڸ� context ��ӵ�е��Դ��ģ�� CUDA kernel ��ֻ�ڴ� context ��е� stream��

һ��䷶��Ӧ�ó��ǣ��ĳ��в��ִ��ӳټ�Ϊ��Ҫ�� GPU ��ִ��ͨ��Ϊ��δ��뵥��һ�� Green Context �� SM ��Դ��ʣ�� SM ��ɸ��һ�� Green Context ��óͷ��ʹ��ȷ��ʼ��п��õ� SM ��ȼ��ʹ��

CUDA 13.1 ��Խ��ɶ��Ƶ� split () API��߿��ͨ��һ�ӿڹ��ǰ��Ҫ�� API Ų�òŻ��ɵ� SM ��ҿ��Ӷ��̭�� Green Context ֮��ύʹ��ʱ��α��false dependencies��

�й��Щ��Ч�� Green Context �ĸ��Ϣ��ݼ� CUDA Programming Guide��

CUDA ��ָ�ϵص㣺https://docs.nvidia.com/cuda/cuda-programming-guide/04-special-topics/green-contexts.html

CUDA ��Ч�ͣ�MPS��

CUDA 13.1 Ϊ��Ч�ʹ��˶��͹�Ч��й��Щ�¹�Ч��Ϣ�� MPS �ĵ��ǲ��ݣ�

�ڴ�ֲ��Ż��

�ڴ�ֲ��Ż��Memory locality optimization partition��MLOPart�� NVIDIA Blackwell ϵ�У�� 10.0 �� 10.3��Ϊ�ܹ��汾�ţ�� GPU ��ṩ��һ��

�ù�Ч��û��ר��Ż��ڴ�ֲ��Ե� CUDA װ��MLOPart װ��ͳһ�� GPU ��Ϊ��װ��ÿ��װ��ӵ�и��ٵ��Դ�͸�С�Ŀ��ڴ��

�� 10.0 �� 10.3 �� GPU ��ÿ�� GPU ��

�� GPU �� MLOPart ʱ��ÿ��Ϊһ�� CUDA װ��Ӧ��ڴ��Դ��

��MLOPart ��֧�� NVIDIA B200 �� NVIDIA B300 ϵ�в�Ʒ��δ�� CUDA ��汾�� NVIDIA GB200 �� NVIDIA GB300 ϵ�е�֧��

��̬��ʽ�ദ�óͷ��SM��

��Ϊ MPS ��еĶ�ִ̬��Դ��Ӧ��provisioning��һ��滻�ƻ��̬��ʽ�ദ�óͷ��SM�� NVIDIA Ampere �ܹ�� 8.0�� GPU ��һ��Ϊ MPS �ͻ��ṩ��һ�ֽ�� SM ��Ҫ��

��ģʽͨ��ʹ�� -S �� --static-partitioning �� MPS ��ػ��ҪĿ��ṩȷ��Ե��Դ�� MPS �ͻ��֮��ĸ��Ļ��λ��һ��Chunk��飩��ϸƾ֤ GPU �ܹ�� Hopper�� 9.0��µ�� GPU ��һ�� Chunk �� 8 �� SM��

cuBLAS �е�˫��Ⱥ͵��ģ��

��Ȼ�Ͽ��˵�ⲻ�� CUDA 13.1 �ĸ�� NVIDIA CUDA Toolkit 13.0 �е� cuBLAS ��µ� API ��ʵ��ּ��˫��ȣ�FP64��˷��matmul��

��ͨ�� NVIDIA GB200 NVL72 �� NVIDIA RTX PRO 6000 Blackwell Server Edition �� GPU �ܹ�� Tensor Core �Ͼ��и��㣨FP��ģ��ʵ�ֵ��

��߹��

��߹�� CUDA ƽ̨��Ҫ��ɲ��˴��˶��͹�Ч��ǿ��

CUDA Tile �˺��

��ժҪҳ��Result Type��Ч��ͣ�� Tile �˺�� SIMT �˺��

��ҳ��Tile Statistics��Tile ͳ�ƣ��ܽ� Tile ά�Ⱥ��Ҫ��ߣ�pipeline��ʹ��

Դ��ҳ֧�ֽ�ָ��ӳ�䵽�߲㼶�� cuTile �˺��Դ��

Դ��ҳ

Nsight Compute ��ص�չʾ��е� Tile Statistics ��

�˴�� Nsight Compute ��˶�װ��ͼ��device-launched graphs�� CUDA ͼ�ڵ��֧��ˢ��Դ��ҳ��Ϊ��û��ı�ǩ�ṩ�˿ɵ��

��ʱ�޲�

NVIDIA Compute Sanitizer 2025.4 ͨ�� -fdevice-sanitize=memcheck ��˶� NVIDIA CUDA ��NVCC��ʱ�޲��patching��֧��޲��ǿ��ڴ��ʧ�� Compute Sanitizer ��

��ʱ��׮��instrumentation��ɽ��ʧ��ֱ�Ӽ��ɵ� NVCC ��Ӷ�ʵ�ָ��ͨ��߼��Ļ�ַ - ��base-and-bounds analysis��ص��ڴ��⣨��ڷ��ɼ�Ĳ��ζ�ſ��߿��ڲ��ʵ��µ��ڴ��и��Բ��ù�Ч��֧�� memcheck ��

Ҫʹ�ô��¹�Ч��ʹ�� NVCC ��Ǳ��룺

nvcc -fdevice-sanitize=memcheck -o myapp myapp.cu

Ȼ��ʹ�� memcheck ��Ӧ�ã�

compute-sanitizer --tool memcheck myapp

NVIDIA Nsight Systems

NVIDIA Nsight Systems 2025.6.1 �� CUDA Toolkit 13.1 ͬ��˶��µ�׷�ٹ�Ч��

ϵͳ�� CUDA ׷�٣�--cuda-trace-scope �ɿ��ϵͳ��׷��

CUDA ��׷�٣��˶� CUDA Graph ��ڵ�� cudaLaunchHostFunc () ��׷��֧��Щ��ִ�в��ձ��stream��

CUDA Ӳ��׷�٣��֧�ֵ��Ӳ��׷��ڳ�ΪĬ��ģʽ��ʹ�� --trace=cuda-sw �ɻָ�Ϊ��ģʽ��

Green Context ʱ��ڻ��ڹ��ʾ SM ��û��ȷ GPU ��Դʹ��

��ѧ��

�� CUDA ��߰��ѧ��¹�Ч��

NVIDIA cuBLAS��һ��ȫ�µ�ʵ�� API��֧�� Blackwell GPU �ķ�� GEMM ��Ч�� FP8 �� BF16/FP16 ��֧�� CUDA ͼ�ķ�� GEMM �ṩ��һ��ͬ��ʵ�ַ��װ��״��ʵ�� 4 ��ļ�� MoE ��еĶ�� GEMM ʵ��

NVIDIA cuSPARSE��һ��µ�ϣ��˷� (SpMVOp) API�� CsrMV API �� API ֧�� CSR ��á�32 λ��˫��Լ��û��Խ�˵�ĺ�׺��

NVIDIA cuFFT��һ��Ϊ cuFFT װ�� API ��ȫ�� API��ṩ�� C++ ͷ�ļ��ʻ��װ��Ч��ݿ�Ԫ�� API רΪ cuFFTDx ��ͨ�� cuFFT �� cuFFTDx ��Щ�� cuFFTDx Ӧ�ó��Ӷ��

��µ� Blackwell �ܹ��Ƴ��ܸ��û��ѡժҪ�� API ��и��ܸ��

cuBLAS Blackwell ��

CUDA Toolkit 12.9 �� NVIDIA Blackwell ƽ̨��˿��ŵ� FP4 �� FP8 ��˷��CUDA 13.1 ��˶��Щ��ͺ� BF16 ��֧��ͼ 2 ��ʾ�� NVIDIA Blackwell �� Hopper ƽ̨�ϵļ��ٱ��

�� NVIDIA Blackwell �� Hopper ƽ̨�ϵļ��ٱ�

cuSOLVER Blackwell ��

CUDA 13.1 ��Ż��óͷ� SYEVD �� GEEV API��ǿ��

��óͷ� SYEV��cusolverDnXsyevBatched�� cuSOLVER �� SYEV ��̵�ͳһ��óͷ��汾��Գƣ�Hermitian ��ֵ��ʺ϶Դ��С��в��ĳ��

ͼ 3 չʾ��ϸΪ 5,000�� 24�C256��Ĳ��Ч�� NVIDIA L40S ��NVIDIA Blackwell RTX Pro 6000 Server Edition ʵ��Լ 2 ��ļ��Ԥ�ڵ��ڴ��Ǻ��

��ϸΪ 5000�� 24�C256��Ĳ��Ч��

��ڸ��Ⱥ�ʵ��N = 5ʱ��ٱ�ԼΪ1.5��N = 250 ʱ�ִ� 2.0��

ͼ 4 ��ʾ�� cusolverDnXgeev (GEEV) ��ܼ��ٱ��ú��һ��ƽ��ǶԳƣ�Ũ�ܾ��ֵ��GEEV ��һ�ֻ�� CPU/GPU �㷨�� CPU �߳�� QR �㷨��ִ�и�Ч��ڽ��״��óͷ�� GPU ��óͷ��ಿ��ͼ��ʾ�˾��ϸ�� 1,024 �� 32,768 ��ܼ��ٱ��

cusolverDnXgeev (GEEV) ��ܼ��ٱ�

��n = 5000ʱ��ٱ�ԼΪ1.0��ž��ģ��n = 30000 ʱ�ִ�Լ 1.7��

NVIDIA CUDA ��

NVIDIA CUDA Core �� (CCCL) Ϊ CUB ��˶��ǿ��Ч��

ȷ��Ը��

��ڸ��ӷ��߱��ϵ��cub::DeviceReduce ��ʷ��ֻ�ܰ��ͳһ GPU ��ÿ��л��λ��ȫ��ͬ��Ч��ⱻʵ��Ϊһ��㷨��

��Ϊ CUDA 13.1 ��һ�� NVIDIA CCCL 3.1 �ṩ��⸡��ȷ��ѡ��ƾ֤��Щѡ��ȷ��Ժ��֮��Ȩ��

��ܣ�ʹ��ԭ�Ӳ��е��ι�Լ��ⲻ�ɰ��ṩλ��ȫ��ͬ��Ч��

GPU �䣺�� Kate Clark �� NVIDIA GTC 2024 ��ݽ��пɸ��ֵĽ�άЧ��Ч��ʼ��λ��ͬ��

��ͨ��λ��ȷ��ѡ��Ĵ��ʾ��

��ʾ��

��ݱ��