xlite-dev
diff --git a/‎README.md‎
Lines changed: 2 additions & 4 deletions b/‎README.md‎
Lines changed: 2 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_kv.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_kv.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_kv_F32F16F16F32.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_kv_F32F16F16F32.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_qkv.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_qkv.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_qkv_F32F16F16F32.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_share_qkv_F32F16F16F32.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_split_kv.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_split_kv.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_split_q.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_split_q.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_tiling_qk.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_tiling_qk.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_tiling_qk_F32F16F16F32.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_tiling_qk_F32F16F16F32.cu‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/flash-attn/mma/basic/flash_attn_mma_tiling_qkv.cu‎
Lines changed: 4 additions & 4 deletions b/‎kernels/flash-attn/mma/basic/flash_attn_mma_tiling_qkv.cu‎
Lines changed: 4 additions & 4 deletions
@@ -7,10 +7,8 @@
   <div align='center'>
       <img src=https://cdn.rawgit.com/sindresorhus/awesome/d7305f38d29fed78fa85652e3a63e154dd8e8829/media/badge.svg >
       <img src=https://img.shields.io/badge/Language-CUDA-brightgreen.svg >
-      <img src=https://img.shields.io/github/watchers/xlite-dev/LeetCUDA?color=9cc >
-      <img src=https://img.shields.io/github/forks/xlite-dev/LeetCUDA.svg?style=social >
-      <img src=https://img.shields.io/github/stars/xlite-dev/LeetCUDA.svg?style=social >
-      <img src=https://img.shields.io/badge/Release-v3.0.12-brightgreen.svg >
+      <img src=https://img.shields.io/github/forks/xlite-dev/LeetCUDA.svg?style=dark >
+      <img src=https://img.shields.io/github/stars/xlite-dev/LeetCUDA.svg?style=dark >
       <img src=https://img.shields.io/badge/License-GPLv3.0-turquoise.svg >
   </div>
 </div>
 
@@ -173,16 +173,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d]. Allocate R_Q[(kHeadDim/kMmaAtomK)<=8][1][4],
   // e.g R_Q[4][1][4] 16 regs. By the way, we have to reduce R_Z to 0 regs and
   // reuse R_Q for collective store. Then we can load Q from smem only once and
 
@@ -174,16 +174,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d]. Allocate R_Q[(kHeadDim/kMmaAtomK)<=8][1][4],
   // e.g R_Q[4][1][4] 16 regs. By the way, we have to reduce R_Z to 0 regs and
   // reuse R_Q for collective store. Then we can load Q from smem only once and
 
@@ -166,16 +166,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d]. Allocate R_Q[(kHeadDim/kMmaAtomK)<=8][1][4],
   // e.g R_Q[4][1][4] 16 regs. By the way, we have to reduce R_Z to 0 regs and
   // reuse R_Q for collective store. Then we can load Q from smem only once and
 
@@ -167,16 +167,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d]. Allocate R_Q[(kHeadDim/kMmaAtomK)<=8][1][4],
   // e.g R_Q[4][1][4] 16 regs. By the way, we have to reduce R_Z to 0 regs and
   // reuse R_Q for collective store. Then we can load Q from smem only once and
 
@@ -133,8 +133,8 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
   uint32_t smem_S_base_ptr = __cvta_generic_to_shared(S_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2];
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2];
@@ -146,8 +146,8 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   __shared__ float block_row_max_new_smem[Br][kMmaTileSeqLenK + 1];
   __shared__ float block_row_sum_new_smem[Br][kMmaTileSeqLenK + 1];
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d].
   uint32_t R_Q[kWarpTileSeqLenQ][4];
   uint32_t R_K[kWarpTileSeqLenK][2];
 
@@ -154,16 +154,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d].
   uint32_t R_Q[kWarpTileSeqLenQ][4];  // [1][4]
   uint32_t R_K[kWarpTileSeqLenK][2];  // [8][2]
 
@@ -187,16 +187,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d].
   uint32_t R_Q[kWarpTileSeqLenQ][4];  // [1][4]
   uint32_t R_K[kWarpTileSeqLenK][2];  // [8][2]
 
@@ -188,16 +188,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d].
   uint32_t R_Q[kWarpTileSeqLenQ][4];  // [1][4]
   uint32_t R_K[kWarpTileSeqLenK][2];  // [8][2]
 
@@ -170,16 +170,16 @@ __global__ void __launch_bounds__(WARP_SIZE *kMmaTileSeqLenQ *kMmaTileSeqLenK)
   uint32_t smem_K_base_ptr = __cvta_generic_to_shared(K_tile_smem);
   uint32_t smem_V_base_ptr = __cvta_generic_to_shared(V_tile_smem);
 
-  // --------------------- Registers/SMEM for thread block
-  // ------------------------- block m_old, l_old, store in lane, use float to
+  // Registers/SMEM for thread block
+  // block m_old, l_old, store in lane, use float to
   // keep precision.
   float lane_block_row_max_old[kWarpTileSeqLenQ][2]; // [1][2]
   float lane_block_row_sum_old[kWarpTileSeqLenQ][2]; // [1][2]
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_max_old, -INFINITY);
   fill_2D_regs<float, kWarpTileSeqLenQ, 2>(lane_block_row_sum_old, 0.0f);
 
-  // ---------------------- Registers for S=Q@K^T/O=P@V
-  // ---------------------------- registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
+  // Registers for S=Q@K^T/O=P@V
+  // registers for QKV, S=Q[Br,d]@K[Bc,d]=[Br,Bc]
   // and O=P[Br,Bc]@V[Bc,d]=[Br,d].
   uint32_t R_Q[kWarpTileSeqLenQ][4]; // [1][4]
   uint32_t R_K[kWarpTileSeqLenK][2]; // [8][2]