mask_amd64.s: Remove AVX2 fully

nhooyr · nhooyr · commit cb7509ab70e9 · 2023-10-25T17:41:31.000-07:00
diff --git a/mask_amd64.s b/mask_amd64.s
@@ -26,11 +26,6 @@ TEXT ·maskAsm(SB), NOSPLIT, $0-28
 	TESTQ $31, AX
 	JNZ   unaligned
 
-aligned:
-	CMPB ·useAVX2(SB), $1
-	JE   avx2
-	JMP  sse
-
 unaligned_loop_1byte:
 	XORB  SI, (AX)
 	INCQ  AX
@@ -47,7 +42,7 @@ unaligned_loop_1byte:
 	ORQ  DX, DI
 
 	TESTQ $31, AX
-	JZ    aligned
+	JZ    sse
 
 unaligned:
 	TESTQ $7, AX               // AND $7 & len, if not zero jump to loop_1b.
@@ -60,27 +55,7 @@ unaligned_loop:
 	SUBQ  $8, CX
 	TESTQ $31, AX
 	JNZ   unaligned_loop
-	JMP   aligned
-
-avx2:
-	CMPQ         CX, $0x80
-	JL           sse
-	VMOVQ        DI, X0
-	VPBROADCASTQ X0, Y0
-
-avx2_loop:
-	VPXOR   (AX), Y0, Y1
-	VPXOR   32(AX), Y0, Y2
-	VPXOR   64(AX), Y0, Y3
-	VPXOR   96(AX), Y0, Y4
-	VMOVDQU Y1, (AX)
-	VMOVDQU Y2, 32(AX)
-	VMOVDQU Y3, 64(AX)
-	VMOVDQU Y4, 96(AX)
-	ADDQ    $0x80, AX
-	SUBQ    $0x80, CX
-	CMPQ    CX, $0x80
-	JAE     avx2_loop      // loop if CX >= 0x80
+	JMP   sse
 
 sse:
 	CMPQ       CX, $0x40
diff --git a/mask_arm64.s b/mask_arm64.s
@@ -15,7 +15,6 @@ TEXT ·maskAsm(SB), NOSPLIT, $0-28
 	CMP   $64, R1
 	BLT   less_than_64
 
-	// todo: optimize unaligned case
 loop_64:
 	VLD1   (R0), [V1.B16, V2.B16, V3.B16, V4.B16]
 	VEOR   V1.B16, V0.B16, V1.B16
diff --git a/mask_asm.go b/mask_asm.go
@@ -9,7 +9,5 @@ func mask(key uint32, b []byte) uint32 {
 	return key
 }
 
-var useAVX2 = false
-
 //go:noescape
 func maskAsm(b *byte, len int, key uint32) uint32

Original file line number	Diff line number	Diff line change
`@@ -9,7 +9,5 @@ func mask(key uint32, b []byte) uint32 {`
`9`	`9`	`return key`
`10`	`10`	`}`
`11`	`11`
`12`		`-var useAVX2 = false`
`13`		`-`
`14`	`12`	`//go:noescape`
`15`	`13`	`func maskAsm(b *byte, len int, key uint32) uint32`