[PATCHv2] powerpc: P9 vector load instruction change in memcpy and memmove

From: Rajalakshmi Srinivasaraghavan <raji@linux.vnet.ibm.com>

  From: Rajalakshmi Srinivasaraghavan <raji@linux.vnet.ibm.com>

Adhemerval Zanella <adhemerval.zanella@linaro.org> writes:

> According to "POWER8 Processor User’s Manual for the Single-Chip Module"
> (it is buried on a sign wall at [1]), both lxv2dx/lvx and stxvd2x/stvx
> uses the same pipeline, have the same latency and same throughput.  The
> only difference is lxv2dx/stxv2x have microcode handling for unaligned
> case and for 4k crossing or 32-byte cross L1 miss (which should not
> occur in the with aligned address).
>
> Why not change POWER7 implementation instead of dropping another one
> which is exactly the same for POWER9?

We're trying to limit the impact of this requirement on other processors so
that newer P7 or P8 optimizations can still benefit from lxv2dx and stxvd2x.

However, we could avoid source code duplication with the macros LVX and STVX
I propose here in version 2.
That way, we will postpone the copy to when/if a P7 optimization is
contributed.

Do you think it's better?

--- 8< ---

POWER9 DD2.1 and earlier has an issue where some cache inhibited
vector load traps to the kernel, causing a performance degradation.  To
handle this in memcpy and memmove, lvx/stvx is used for aligned
addresses instead of lxvd2x/stxvd2x.  The remaining part of the
optimization remains same as existing POWER7 code.

Reference: https://patchwork.ozlabs.org/patch/814059/
Tested on powerpc64le.

2017-10-19  Rajalakshmi Srinivasaraghavan  <raji@linux.vnet.ibm.com>
	    Tulio Magno Quites Machado Filho  <tuliom@linux.vnet.ibm.com>

	* sysdeps/powerpc/powerpc64/multiarch/Makefile
	(sysdep_routines): Add memcpy_power9 and memmove_power9.
	* sysdeps/powerpc/powerpc64/multiarch/ifunc-impl-list.c
	(memcpy): Add __memcpy_power9 to list of memcpy functions.
	(memmove): Add __memmove_power9 to list of memmove functions.
	(bcopy): Add __bcopy_power9 to list of bcopy functions.
	* sysdeps/powerpc/powerpc64/multiarch/memcpy.c
	(memcpy): Add __memcpy_power9 to ifunc list.
	* sysdeps/powerpc/powerpc64/power9/memcpy.S: New File.
	* sysdeps/powerpc/powerpc64/multiarch/memcpy-power9.S: Likewise.
 	* sysdeps/powerpc/powerpc64/multiarch/bcopy.c
	(bcopy): Add __bcopy_power9 to ifunc list.
	* sysdeps/powerpc/powerpc64/multiarch/memmove-power7.S
	Change bcopy as __bcopy.
	* sysdeps/powerpc/powerpc64/multiarch/memmove.c
	(memmove): Add __memmove_power9 to ifunc list.
	* sysdeps/powerpc/powerpc64/power7/memcpy.S (LVX, STVX): New
	macros to help reuse this code on POWER9.
	* sysdeps/powerpc/powerpc64/power7/memmove.S:
	Alias bcopy only if not defined before.
	(LVX, STVX): New macros to help reuse this code on POWER9.
	* sysdeps/powerpc/powerpc64/multiarch/memmove-power9.S:
	New file.
	* sysdeps/powerpc/powerpc64/power9/memmove.S: Likewise.
---
 sysdeps/powerpc/powerpc64/multiarch/Makefile       |   7 +-
 sysdeps/powerpc/powerpc64/multiarch/bcopy.c        |   6 +-
 .../powerpc/powerpc64/multiarch/ifunc-impl-list.c  |   6 +
 .../powerpc/powerpc64/multiarch/memcpy-power9.S    |  26 ++++
 sysdeps/powerpc/powerpc64/multiarch/memcpy.c       |   3 +
 .../powerpc/powerpc64/multiarch/memmove-power7.S   |   4 +-
 .../powerpc/powerpc64/multiarch/memmove-power9.S   |  29 +++++
 sysdeps/powerpc/powerpc64/multiarch/memmove.c      |   5 +-
 sysdeps/powerpc/powerpc64/power7/memcpy.S          |  68 ++++++-----
 sysdeps/powerpc/powerpc64/power7/memmove.S         | 134 +++++++++++----------
 sysdeps/powerpc/powerpc64/power9/memcpy.S          |  23 ++++
 sysdeps/powerpc/powerpc64/power9/memmove.S         |  22 ++++
 12 files changed, 230 insertions(+), 103 deletions(-)
 create mode 100644 sysdeps/powerpc/powerpc64/multiarch/memcpy-power9.S
 create mode 100644 sysdeps/powerpc/powerpc64/multiarch/memmove-power9.S
 create mode 100644 sysdeps/powerpc/powerpc64/power9/memcpy.S
 create mode 100644 sysdeps/powerpc/powerpc64/power9/memmove.S

[PATCHv2] powerpc: P9 vector load instruction change in memcpy and memmove

Commit Message

Comments

Patch