save

dsmilkov · dsmilkov · commit 29ecc85ac401 · 2019-03-05T09:25:11.000-05:00
diff --git a/src/kernels/asm.ts b/src/kernels/asm.ts
@@ -1,4 +1,6 @@
 import {Tensor} from '../tensor';
+import {getTypedArrayFromDType} from '../util';
+
 import {worker} from './worker';
 
 function makeWorkers(n: number) {
@@ -26,36 +28,74 @@ function computeOffsets(n: number, numSplits: number) {
   return offsets;
 }
 
-// Safari doesn't have one.
+// Safari doesn't tell you, so we assume 4 cores.
 const nWorkers = navigator.hardwareConcurrency || 4;
 const workers = makeWorkers(nWorkers);
+workers.forEach(worker => {
+  worker.onmessage = msg => {
+    const [msgId, data] = msg.data;
+    workMap.get(msgId).resolve(data);
+  };
+});
+let nextWorker = 0;
+let nextMsgId = 0;
+const workMap = new Map<MsgId, Work>();
 
-export async function matmul(a: Tensor, b: Tensor): Promise<Float32Array> {
-  const aSize = a.shape[0];
-  const bSize = b.shape[1];
-  const k = a.shape[1];
+export type MsgId = number;
 
-  const offsets = computeOffsets(aSize, nWorkers);
-  const [aVals, bVals] = await Promise.all([a.data(), b.data()]);
+interface Work {
+  resolve: (data: {}) => void;
+}
 
-  // const res = zeros([aSize, bSize]);
-  const resVals = new Float32Array(aSize * bSize);
-  let count = 0;
-  return new Promise<Float32Array>(resolve => {
-    workers.forEach((worker, i) => {
-      worker.onmessage = e => {
-        const offset = offsets[i] * bSize;
-        resVals.set(e.data, offset);
-        count++;
-        if (count === nWorkers) {
-          resolve(resVals);
-        }
-      };
-      const offset = offsets[i] * k;
-      const nextOffset =
-          i + 1 < offsets.length ? offsets[i + 1] * k : undefined;
-      const aSubVals = aVals.subarray(offset, nextOffset);
-      worker.postMessage([aSubVals, bVals, k]);
-    });
+export function sendWork(data: {}): Promise<{}> {
+  const worker = workers[nextWorker];
+  nextWorker = (nextWorker + 1) % nWorkers;
+  return new Promise(resolve => {
+    const msgId = nextMsgId++;
+    workMap.set(msgId, {resolve});
+    worker.postMessage([msgId, data]);
   });
 }
+
+export async function matmul(
+    a: Tensor, b: Tensor, transposeA: boolean,
+    transposeB: boolean): Promise<Float32Array> {
+  const innerDim = transposeA ? a.shape[1] : a.shape[2];
+  const leftDim = transposeA ? a.shape[2] : a.shape[1];
+  const rightDim = transposeB ? b.shape[1] : b.shape[2];
+  const batchDim = a.shape[0];
+  const aSize = leftDim * innerDim;
+  const bSize = innerDim * rightDim;
+  const cSize = leftDim * rightDim;
+
+  const nSplits = Math.min(leftDim, nWorkers);
+  const offsets = computeOffsets(leftDim, nSplits);
+  const [aVals, bVals] = await Promise.all([a.data(), b.data()]);
+
+  const resVals = getTypedArrayFromDType(
+      a.dtype as 'float32', batchDim * leftDim * rightDim);
+
+  const jobs: Array<Promise<{}>> = [];
+  for (let b = 0; b < batchDim; b++) {
+    for (let i = 0; i < nSplits; i++) {
+      const aOffset = b * aSize + offsets[i] * innerDim;
+      const nextOffset = i + 1 < offsets.length ?
+          b * aSize + offsets[i + 1] * innerDim :
+          aOffset + aSize;
+      const aSubVals = aVals.subarray(aOffset, nextOffset);
+      const bOffset = b * bSize;
+      const bSubVals = bVals.subarray(bOffset, bOffset + bSize);
+      jobs.push(sendWork([aSubVals, bSubVals, innerDim]));
+    }
+  }
+  const results = await Promise.all(jobs);
+  for (let b = 0; b < batchDim; b++) {
+    for (let i = 0; i < nSplits; i++) {
+      const resIdx = b * nSplits + i;
+      const data = results[resIdx];
+      const resOffset = b * cSize + offsets[i] * rightDim;
+      resVals.set(data as Float32Array, resOffset);
+    }
+  }
+  return resVals;
+}
diff --git a/src/kernels/backend_cpu.ts b/src/kernels/backend_cpu.ts
@@ -34,9 +34,8 @@ import {computeFlatOffset, getStridedSlicedInfo, isSliceContinous} from '../ops/
 import {DataId, Scalar, Tensor, Tensor1D, Tensor2D, Tensor3D, Tensor4D, Tensor5D, TensorBuffer} from '../tensor';
 import {DataType, DataTypeMap, DataValues, NumericDataType, Rank, ShapeMap, TypedArray, upcastType} from '../types';
 import * as util from '../util';
-// import * as asm from './asm';
+import * as asm from './asm';
 import {getArrayFromDType, inferDtype, now, sizeFromShape} from '../util';
-
 import {BackendTimingInfo, DataMover, DataStorage, KernelBackend} from './backend';
 import * as backend_util from './backend_util';
 import * as complex_util from './complex_util';
@@ -460,63 +459,60 @@ export class MathBackendCPU implements KernelBackend {
       transposeB: boolean): Tensor3D {
     this.assertNotComplex([a, b], 'matMul');
 
-    const sharedDim = transposeA ? a.shape[1] : a.shape[2];
+    // const sharedDim = transposeA ? a.shape[1] : a.shape[2];
     const leftDim = transposeA ? a.shape[2] : a.shape[1];
     const rightDim = transposeB ? b.shape[1] : b.shape[2];
     const batchDim = a.shape[0];
-    // const nWorkers = navigator.hardwareConcurrency || 4;
     const outShape = [batchDim, leftDim, rightDim];
-    // if (batchDim === 1 && a.shape[0] >= nWorkers) {
-    //   console.warn('asking for asm');
-    //   const values = asm.matmul(a.squeeze([0]), b.squeeze([0]));
-    //   return Tensor.make(outShape, {values}, a.dtype);
-    // }
-
-    const compute = async () => {
-      const [aValues, bValues] = await Promise.all([a.data(), b.data()]);
-      const [aOuterStep, aInnerStep] =
-          transposeA ? [1, a.strides[1]] : [a.strides[1], 1];
-      const [bInnerStep, bOuterStep] =
-          transposeB ? [1, b.strides[1]] : [b.strides[1], 1];
-
-      const resVals = util.getTypedArrayFromDType(
-          a.dtype as 'float32', sizeFromShape(outShape));
-      const blockSize = this.blockSize;
-
-      for (let batch = 0; batch < batchDim; batch++) {
-        const aBatch = batch * a.strides[0];
-        const bBatch = batch * b.strides[0];
-        for (let i0 = 0; i0 < leftDim; i0 += blockSize) {
-          const iBlock = i0 + blockSize < leftDim ? i0 + blockSize : leftDim;
-          for (let j0 = 0; j0 < rightDim; j0 += blockSize) {
-            const jBlock =
-                j0 + blockSize < rightDim ? j0 + blockSize : rightDim;
-            for (let k0 = 0; k0 < sharedDim; k0 += blockSize) {
-              // for when blockSize doesn't evenly divide the input
-              const kBlock =
-                  k0 + blockSize < sharedDim ? k0 + blockSize : sharedDim;
-
-              for (let i = i0; i < iBlock; i++) {
-                const iDim = i * rightDim;
-                const iStep = aBatch + i * aOuterStep;
-                for (let j = j0; j < jBlock; j++) {
-                  const jStep = bBatch + j * bOuterStep;
-                  let sum = 0.0;
-
-                  for (let k = k0; k < kBlock; k++) {
-                    sum += aValues[k * aInnerStep + iStep] *
-                        bValues[k * bInnerStep + jStep];
-                  }
-                  resVals[iDim + j] += sum;
-                }
-              }
-            }
-          }
-        }
-      }
-      return resVals;
-    };
-    return Tensor.make(outShape, {values: compute()}, a.dtype) as Tensor3D;
+    const values = asm.matmul(a, b, transposeA, transposeB);
+    return Tensor.make(outShape, {values}, a.dtype);
+
+    // const compute = async () => {
+    //   const [aValues, bValues] = await Promise.all([a.data(), b.data()]);
+    //   const [aOuterStep, aInnerStep] =
+    //       transposeA ? [1, a.strides[1]] : [a.strides[1], 1];
+    //   const [bInnerStep, bOuterStep] =
+    //       transposeB ? [1, b.strides[1]] : [b.strides[1], 1];
+
+    //   const resVals = util.getTypedArrayFromDType(
+    //       a.dtype as 'float32', sizeFromShape(outShape));
+    //   const blockSize = this.blockSize;
+
+    //   for (let batch = 0; batch < batchDim; batch++) {
+    //     const aBatch = batch * a.strides[0];
+    //     const bBatch = batch * b.strides[0];
+    //     const resBatch = batch * leftDim * rightDim;
+    //     for (let i0 = 0; i0 < leftDim; i0 += blockSize) {
+    //       const iBlock = i0 + blockSize < leftDim ? i0 + blockSize : leftDim;
+    //       for (let j0 = 0; j0 < rightDim; j0 += blockSize) {
+    //         const jBlock =
+    //             j0 + blockSize < rightDim ? j0 + blockSize : rightDim;
+    //         for (let k0 = 0; k0 < sharedDim; k0 += blockSize) {
+    //           // for when blockSize doesn't evenly divide the input
+    //           const kBlock =
+    //               k0 + blockSize < sharedDim ? k0 + blockSize : sharedDim;
+
+    //           for (let i = i0; i < iBlock; i++) {
+    //             const iDim = resBatch + i * rightDim;
+    //             const iStep = aBatch + i * aOuterStep;
+    //             for (let j = j0; j < jBlock; j++) {
+    //               const jStep = bBatch + j * bOuterStep;
+    //               let sum = 0.0;
+
+    //               for (let k = k0; k < kBlock; k++) {
+    //                 sum += aValues[k * aInnerStep + iStep] *
+    //                     bValues[k * bInnerStep + jStep];
+    //               }
+    //               resVals[iDim + j] += sum;
+    //             }
+    //           }
+    //         }
+    //       }
+    //     }
+    //   }
+    //   return resVals;
+    // };
+    // return Tensor.make(outShape, {values: compute()}, a.dtype) as Tensor3D;
   }
 
   fusedBatchMatMul(
diff --git a/src/kernels/worker.ts b/src/kernels/worker.ts
@@ -17,44 +17,6 @@ export function worker() {
       bSize = bSize | 0;
       mid = mid | 0;
 
-      // Variable declaration.
-      var offset = 0;
-      var i = 0;
-      var j = 0;
-      var k = 0;
-      var bOffset = 0;
-      var cOffset = 0;
-      var a = fround(0);
-      var b = fround(0);
-      var dot = fround(0);
-
-      bOffset = imul(aSize, mid);
-      cOffset = (bOffset + imul(bSize, mid)) | 0;
-
-      for (i = 0; (i | 0) < (aSize | 0); i = (i + 1) | 0) {
-        for (j = 0; (j | 0) < (bSize | 0); j = (j + 1) | 0) {
-          dot = fround(0);
-          for (k = 0; (k | 0) < (mid | 0); k = (k + 1) | 0) {
-            offset = (imul(i, mid) + k) << 2;
-            a = fround(heap32[offset >> 2]);  // a[i * mid + k]
-
-            offset = (bOffset + imul(k, bSize) + j) << 2;
-            b = fround(heap32[offset >> 2]);  // b[k * bSize + j]
-
-            dot = fround(dot + fround(a * b));
-          }
-          offset = (cOffset + imul(i, bSize) + j) << 2;
-          heap32[offset >> 2] = fround(dot);
-        }
-      }
-    }
-
-    function matmulBlocked(aSize: number, bSize: number, mid: number) {
-      // Function arguments.
-      aSize = aSize | 0;
-      bSize = bSize | 0;
-      mid = mid | 0;
-
       // Variable declaration.
       var offset = 0;
       var blockSize = 48;
@@ -109,81 +71,24 @@ export function worker() {
         }
       }
     }
-    return {matmul: matmul, matmulBlocked: matmulBlocked};
+    return {matmul: matmul};
   }
 
   var heap = new ArrayBuffer(1024 * 1024 * 16);  // 128k heap
   var heapF32 = new Float32Array(heap);
   var asm = ASMModule(self as any, null, heap);
 
-  // @ts-ignore
-  function matmulSimple(aVals: Float32Array, bVals: Float32Array, mid: number) {
-    const aSize = aVals.length / mid;
-    const bSize = bVals.length / mid;
-    const res = new Float32Array(aSize * bSize);
-    for (let i = 0; i < aSize; ++i) {
-      const iMid = i * mid;
-      const iBSize = i * bSize;
-      for (let j = 0; j < bSize; ++j) {
-        let dot = 0;
-        for (let k = 0; k < mid; ++k) {
-          dot += aVals[iMid + k] * bVals[k * bSize + j];
-        }
-        res[iBSize + j] = dot;
-      }
-    }
-    return res;
-  }
-
-  // @ts-ignore
-  function matmulBlocked(
-      aVals: Float32Array, bVals: Float32Array, mid: number) {
-    const aSize = aVals.length / mid;
-    const bSize = bVals.length / mid;
-
-    const res = new Float32Array(aSize * bSize);
-    const blockSize = 48;
-
-    for (let i0 = 0; i0 < aSize; i0 += blockSize) {
-      for (let j0 = 0; j0 < bSize; j0 += blockSize) {
-        for (let k0 = 0; k0 < mid; k0 += blockSize) {
-          // for when blockSize doesn't evenly divide the input
-          const iBlock = Math.min(i0 + blockSize, aSize);
-          const jBlock = Math.min(j0 + blockSize, bSize);
-          const kBlock = Math.min(k0 + blockSize, mid);
-
-          for (let i = i0; i < iBlock; i++) {
-            for (let j = j0; j < jBlock; j++) {
-              let sum = 0.0;
-
-              for (let k = k0; k < kBlock; k++) {
-                sum += aVals[i * mid + k] * bVals[k * bSize + j];
-              }
-              res[i * bSize + j] += sum;
-            }
-          }
-        }
-      }
-    }
-    return res;
-  }
-
-  self.onmessage = function(e) {
-    const [aVals, bVals, mid] = e.data;
+  self.onmessage = function(msg) {
+    const [msgId, [aVals, bVals, mid]] = msg.data;
 
     const aSize = aVals.length / mid;
     const bSize = bVals.length / mid;
     heapF32.set(aVals, 0);
     heapF32.set(bVals, aVals.length);
     const offset = aVals.length + bVals.length;
     heapF32.fill(0, offset, offset + aSize * bSize);
-    asm.matmulBlocked(aSize, bSize, mid);
+    asm.matmul(aSize, bSize, mid);
     const res = heapF32.slice(offset, offset + aSize * bSize);
-
-    // const res = matmulSimple(aVals, bVals, mid);
-    // const res = matmulBlocked(aVals, bVals, mid);
-
-    // @ts-ignore
-    self.postMessage(res);
+    self.postMessage([msgId, res], null);
   }
 }
diff --git a/src/ops/matmul_test.ts b/src/ops/matmul_test.ts