Do groupN too.

liuliu · liuliu · commit cf4ccc0f31dc · 2026-03-22T02:09:02.000-04:00
diff --git a/lib/nnc/mfa/kernels/NAMatMulDescriptor.cpp b/lib/nnc/mfa/kernels/NAMatMulDescriptor.cpp
@@ -14,6 +14,10 @@ static uint32_t groupM(const uint32_t M) noexcept {
   return (M >= 4096) ? 4096 : 0;
 }
 
+static uint32_t groupN(const uint32_t N) noexcept {
+  return (N >= 4096) ? 4096 : 0;
+}
+
 bool NAMatMulDescriptor::operator==(const NAMatMulDescriptor& rhs) const {
   auto lhsMatrixDimensions = matrixDimensions;
   auto rhsMatrixDimensions = rhs.matrixDimensions;
@@ -201,7 +205,8 @@ std::pair<NAMatMulKernelDescriptor, PipelineValue<NAMatMulKernel> *> NAMatMulDes
 
   uint16_t splitK = this->splitK();
   const uint32_t groupMValue = groupM(this->matrixDimensions[0]);
-  auto kernelDesc = NAMatMulKernelDescriptor(simd::ushort3 { 128, 64, 64 }, this->memoryPrecisions, registerPrecisions, splitK, 4, this->transposeState, this->useBias, this->loadM, groupMValue);
+  const uint32_t groupNValue = this->transposeState[1] ? groupN(this->matrixDimensions[1]) : 0;
+  auto kernelDesc = NAMatMulKernelDescriptor(simd::ushort3 { 128, 64, 64 }, this->memoryPrecisions, registerPrecisions, splitK, 4, this->transposeState, this->useBias, this->loadM, groupMValue, groupNValue);
   NAMatMulKernel* kernel = createKernel(kernelDesc);
   auto pipelines = createPipeline(kernel->library.get(), splitK, (this->matrixDimensions[1] % 2) == 0);
 
diff --git a/lib/nnc/mfa/kernels/NAMatMulKernel.cpp b/lib/nnc/mfa/kernels/NAMatMulKernel.cpp
@@ -55,6 +55,7 @@ NAMatMulKernel::NAMatMulKernel(NAMatMulKernelDescriptor descriptor, MTL::Device
   useBias = descriptor.useBias;
   loadM = descriptor.loadM;
   groupM = descriptor.groupM;
+  groupN = descriptor.groupN;
 
   /// The number of threads per group.
   source = createSource();
@@ -146,6 +147,7 @@ inline uint2 morton_decode_rectangular_2d(uint code,
   source.SetValue("BLOCK_DIMENSIONS_K_2", std::to_string(blockDimensions[2] * 2));
   source.SetValue("SPLIT_K", std::to_string(splitK));
   source.SetValue("GROUP_M", std::to_string(groupM));
+  source.SetValue("GROUP_N", std::to_string(groupN));
 
   source += createConstants();
 
@@ -255,12 +257,12 @@ kernel void matmul(device {{MEMORY_NAME_A}} *A_buf [[buffer(0)]],
   }
   if (transposed('B')) {
     source.SetValue("B_SLICE", std::to_string(blockDimensions[2]) + ", " + std::to_string(blockDimensions[1]));
-    source.SetValue("B_MATRIX_SIZE", "K, N");
-    source.SetValue("B_TILE_0_SIZE", "0, tgid.x * " + std::to_string(blockDimensions[1]));
-    source.SetValue("B_TILE_K1_SIZE", "k, tgid.x * " + std::to_string(blockDimensions[1]));
-    source.SetValue("B_TILE_K2_SIZE", "k + " + std::to_string(blockDimensions[2]) + ", tgid.x * " + std::to_string(blockDimensions[1]));
-    source.SetValue("B_TILE_LAST_K2_SIZE", "K / " + std::to_string(blockDimensions[2] * 2) + " * " + std::to_string(blockDimensions[2] * 2) + ", tgid.x * " + std::to_string(blockDimensions[1]));
-    source.SetValue("B_TILE_LAST_K_SIZE", "K / " + std::to_string(blockDimensions[2]) + " * " + std::to_string(blockDimensions[2]) + ", tgid.x * " + std::to_string(blockDimensions[1]));
+    source.SetValue("B_MATRIX_SIZE", "K, N_group_size");
+    source.SetValue("B_TILE_0_SIZE", "0, N_group_offset");
+    source.SetValue("B_TILE_K1_SIZE", "k, N_group_offset");
+    source.SetValue("B_TILE_K2_SIZE", "k + " + std::to_string(blockDimensions[2]) + ", N_group_offset");
+    source.SetValue("B_TILE_LAST_K2_SIZE", "K / " + std::to_string(blockDimensions[2] * 2) + " * " + std::to_string(blockDimensions[2] * 2) + ", N_group_offset");
+    source.SetValue("B_TILE_LAST_K_SIZE", "K / " + std::to_string(blockDimensions[2]) + " * " + std::to_string(blockDimensions[2]) + ", N_group_offset");
     source.SetValue("B_RESIDUAL_SLICE", "dynamic_extent, " + std::to_string(blockDimensions[1]));
   } else {
     source.SetValue("B_SLICE", std::to_string(blockDimensions[1]) + ", " + std::to_string(blockDimensions[2]));
@@ -333,6 +335,29 @@ kernel void matmul(device {{MEMORY_NAME_A}} *A_buf [[buffer(0)]],
   const uint M_group_start = M_block_start;
   const uint M_group_offset = 0;
   const uint M_group_size = M - M_group_start;
+)";
+  }
+  if (transposed('B')) {
+    if (groupN > 0) {
+      source += R"(
+  // Rebase transposed B to shared N-column groups for the same reason as
+  // groupM: keep neighboring threadgroups on stable base pointers when N is
+  // large without changing the global C layout.
+  const uint N_block_start = tgid.x * {{BLOCK_DIMENSIONS_N}};
+  const uint N_group_start = N_block_start / {{GROUP_N}} * {{GROUP_N}};
+  const uint N_group_offset = N_block_start - N_group_start;
+  const uint N_group_size = N - N_group_start;
+)";
+    } else {
+      source += R"(
+  const uint N_block_start = tgid.x * {{BLOCK_DIMENSIONS_N}};
+  const uint N_group_start = N_block_start;
+  const uint N_group_offset = 0;
+  const uint N_group_size = N - N_group_start;
+)";
+    }
+    source += R"(
+  B_buf = B_buf + N_group_start * K;
 )";
   }
   if (!transposed('A')) {
@@ -358,8 +383,16 @@ kernel void matmul(device {{MEMORY_NAME_A}} *A_buf [[buffer(0)]],
   auto A = tensor<device {{MEMORY_NAME_A}},  dextents<int32_t, 2>, tensor_inline>(A_buf, dextents<int32_t, 2>({{A_MATRIX_SIZE}}));
 )";
   }
-  source += R"(
+  if (transposed('B')) {
+    source += R"(
+  auto B = tensor<device {{MEMORY_NAME_B}},  dextents<int32_t, 2>, tensor_inline>(B_buf, dextents<int32_t, 2>(K, N_group_size));
+)";
+  } else {
+    source += R"(
   auto B = tensor<device {{MEMORY_NAME_B}},  dextents<int32_t, 2>, tensor_inline>(B_buf, dextents<int32_t, 2>({{B_MATRIX_SIZE}}));
+)";
+  }
+  source += R"(
   auto C = tensor<device {{MEMORY_NAME_C}},  dextents<int32_t, 2>, tensor_inline>(C_buf, dextents<int32_t, 2>(N * {{SPLIT_K}}, M_group_size));
 )";
   if (useBias) {
diff --git a/lib/nnc/mfa/kernels/NAMatMulKernel.hpp b/lib/nnc/mfa/kernels/NAMatMulKernel.hpp
@@ -38,6 +38,8 @@ struct NAMatMulKernel {
 
   uint32_t groupM;
 
+  uint32_t groupN;
+
   /// The number of threads per group.
   uint16_t threadgroupSize(MTL::ComputePipelineState *const pipelineState, const NAMatMulDescriptor &descriptor) const noexcept;
 
diff --git a/lib/nnc/mfa/kernels/NAMatMulKernelDescriptor.cpp b/lib/nnc/mfa/kernels/NAMatMulKernelDescriptor.cpp
@@ -14,7 +14,8 @@ bool NAMatMulKernelDescriptor::operator==(const NAMatMulKernelDescriptor& rhs) c
   simd_all(transposeState == rhs.transposeState) &&
   (useBias == rhs.useBias) &&
   (loadM == rhs.loadM) &&
-  (groupM == rhs.groupM);
+  (groupM == rhs.groupM) &&
+  (groupN == rhs.groupN);
 }
 
 std::size_t std::hash<NAMatMulKernelDescriptor>::operator()(const NAMatMulKernelDescriptor& hash) const noexcept {
@@ -27,12 +28,13 @@ std::size_t std::hash<NAMatMulKernelDescriptor>::operator()(const NAMatMulKernel
   combine_32(seed, pack_32(simd::uchar4 { hash.transposeState[0], hash.transposeState[1], hash.transposeState[2], hash.useBias }));
   combine_32(seed, pack_32(simd::uchar4 { hash.loadM, 0, 0, 0 }));
   combine_32(seed, hash.groupM);
+  combine_32(seed, hash.groupN);
   return seed;
 }
 
 // MARK: - Initializer
 
-NAMatMulKernelDescriptor::NAMatMulKernelDescriptor(simd::ushort3 blockDimensions, GEMMOperandPrecisions memoryPrecisions, GEMMOperandPrecisions registerPrecisions, uint16_t splitK, uint16_t executionSIMDGroups, simd::uchar3 transposeState, bool useBias, bool loadM, uint32_t groupM) noexcept {
+NAMatMulKernelDescriptor::NAMatMulKernelDescriptor(simd::ushort3 blockDimensions, GEMMOperandPrecisions memoryPrecisions, GEMMOperandPrecisions registerPrecisions, uint16_t splitK, uint16_t executionSIMDGroups, simd::uchar3 transposeState, bool useBias, bool loadM, uint32_t groupM, uint32_t groupN) noexcept {
   this->blockDimensions = blockDimensions;
   this->memoryPrecisions = memoryPrecisions;
   this->registerPrecisions = registerPrecisions;
@@ -42,4 +44,5 @@ NAMatMulKernelDescriptor::NAMatMulKernelDescriptor(simd::ushort3 blockDimensions
   this->useBias = useBias;
   this->loadM = loadM;
   this->groupM = groupM;
+  this->groupN = groupN;
 }
diff --git a/lib/nnc/mfa/kernels/NAMatMulKernelDescriptor.hpp b/lib/nnc/mfa/kernels/NAMatMulKernelDescriptor.hpp
@@ -180,12 +180,15 @@ struct NAMatMulKernelDescriptor {
   /// Rebase A / C to shared M-row groups. 0 disables grouping.
   uint32_t groupM;
 
+  /// Rebase transposed B to shared N-column groups. 0 disables grouping.
+  uint32_t groupN;
+
   // MARK: - Functionality from GEMMDescriptor
   
   NAMatMulKernelDescriptor() = delete;
   
   /// Initialize the kernel descriptor.
-  NAMatMulKernelDescriptor(simd::ushort3 blockDimensions, GEMMOperandPrecisions memoryPrecisions, GEMMOperandPrecisions registerPrecisions, uint16_t splitK, uint16_t executionSIMDGroups, simd::uchar3 transposeState, bool useBias, bool loadM, uint32_t groupM) noexcept;
+  NAMatMulKernelDescriptor(simd::ushort3 blockDimensions, GEMMOperandPrecisions memoryPrecisions, GEMMOperandPrecisions registerPrecisions, uint16_t splitK, uint16_t executionSIMDGroups, simd::uchar3 transposeState, bool useBias, bool loadM, uint32_t groupM, uint32_t groupN) noexcept;
   
   bool operator==(const NAMatMulKernelDescriptor& rhs) const;
 };