x86-64: Optimize strcmp/wcscmp with AVX2

From: Leonardo Sandoval <leonardo.sandoval.gonzalez@linux.intel.com>

  From: Leonardo Sandoval <leonardo.sandoval.gonzalez@linux.intel.com>

Optimize x86-64 strcmp/wcscmp with AVX2.  It uses vector compare as much
as possible.  It is comparable with SSE2 strcmp for size <= 8 bytes and
up to 6X faster for size > 8 bytes on Skylake.  Select AVX2 strcmp/wcscmp
on AVX2 machines where vzeroupper is preferred and AVX unaligned load is
fast.

NB: It uses TZCNT instead of BSF since TZCNT produces the same result
as BSF for non-zero input.  TZCNT is faster than BSF and is executed
as BSF if machine doesn't support TZCNT.

	* sysdeps/x86_64/multiarch/Makefile (sysdep_routines): Add
	strcmp-avx2 and wcscmp-avx2.
	* sysdeps/x86_64/multiarch/ifunc-impl-list.c
	(__libc_ifunc_impl_list): Add tests for __strcmp_avx2,
	__wcscmp_avx2 and __wcscmp_sse2.
	* sysdeps/x86_64/multiarch/strcmp-avx2.S: New file.
	* sysdeps/x86_64/multiarch/wcscmp-avx2.S: Likewise.
	* sysdeps/x86_64/multiarch/wcscmp-sse2.S: Likewise.
	* sysdeps/x86_64/multiarch/wcscmp.c: Likewise.
	* sysdeps/x86_64/multiarch/strcmp.c (OPTIMIZE (avx2)): New.
	(IFUNC_SELECTOR): Return OPTIMIZE (avx2) on AVX 2 machines if
	AVX unaligned load is fast and vzeroupper is preferred.
	* sysdeps/x86_64/wcscmp.S (__wcscmp): Add alias only if __wcscmp
	is undefined.

Signed-off-by: Leonardo Sandoval <leonardo.sandoval.gonzalez@linux.intel.com>
Signed-off-by: H.J. Lu <hjl.tools@gmail.com>
---
 sysdeps/x86_64/multiarch/Makefile          |   3 +-
 sysdeps/x86_64/multiarch/ifunc-impl-list.c |  10 +
 sysdeps/x86_64/multiarch/strcmp-avx2.S     | 512 +++++++++++++++++++++
 sysdeps/x86_64/multiarch/strcmp.c          |   6 +
 sysdeps/x86_64/multiarch/wcscmp-avx2.S     |   4 +
 sysdeps/x86_64/multiarch/wcscmp-sse2.S     |  23 +
 sysdeps/x86_64/multiarch/wcscmp.c          |  37 ++
 sysdeps/x86_64/wcscmp.S                    |   2 +
 8 files changed, 596 insertions(+), 1 deletion(-)
 create mode 100644 sysdeps/x86_64/multiarch/strcmp-avx2.S
 create mode 100644 sysdeps/x86_64/multiarch/wcscmp-avx2.S
 create mode 100644 sysdeps/x86_64/multiarch/wcscmp-sse2.S
 create mode 100644 sysdeps/x86_64/multiarch/wcscmp.c

x86-64: Optimize strcmp/wcscmp with AVX2

Commit Message

Patch