[AArch64] Optimized memcmp

From: Wilco Dijkstra

  ping

From: Wilco Dijkstra
Sent: 07 July 2017 16:11
To: libc-alpha@sourceware.org
Cc: nd; Szabolcs Nagy
Subject: [PATCH][AArch64] Optimized memcmp

This is an optimized memcmp for AArch64.  This is a complete rewrite
using a different algorithm.  The previous version split into cases
where both inputs were aligned, the inputs were mutually aligned and
unaligned using a byte loop.  The new version combines all these cases,
while small inputs of less than 8 bytes are handled separately.

This allows the main code to be sped up using unaligned loads since
there are now at least 8 bytes to be compared.  After the first 8 bytes,
align the first input.  This ensures each iteration does at most one
unaligned access and mutually aligned inputs behave as aligned.
After the main loop, process the last 8 bytes using unaligned accesses.

This improves performance of (mutually) aligned cases by 25% and 
unaligned by >500% (yes >6 times faster) on large inputs.

ChangeLog:
2017-07-07  Wilco Dijkstra  <wdijkstr@arm.com>

        * sysdeps/aarch64/memcmp.S (memcmp): 
        Rewrite of optimized memcmp.

GLIBC benchtests/bench-memcmp.c performance comparison for Cortex-A53:

Length    1, alignment  1/ 1:           153%
Length    1, alignment  1/ 1:           119%
Length    1, alignment  1/ 1:           154%
Length    2, alignment  2/ 2:           121%
Length    2, alignment  2/ 2:           140%
Length    2, alignment  2/ 2:           121%
Length    3, alignment  3/ 3:           105%
Length    3, alignment  3/ 3:           105%
Length    3, alignment  3/ 3:           105%
Length    4, alignment  4/ 4:           155%
Length    4, alignment  4/ 4:           154%
Length    4, alignment  4/ 4:           161%
Length    5, alignment  5/ 5:           173%
Length    5, alignment  5/ 5:           173%
Length    5, alignment  5/ 5:           173%
Length    6, alignment  6/ 6:           145%
Length    6, alignment  6/ 6:           145%
Length    6, alignment  6/ 6:           145%
Length    7, alignment  7/ 7:           125%
Length    7, alignment  7/ 7:           125%
Length    7, alignment  7/ 7:           125%
Length    8, alignment  8/ 8:           111%
Length    8, alignment  8/ 8:           130%
Length    8, alignment  8/ 8:           124%
Length    9, alignment  9/ 9:           160%
Length    9, alignment  9/ 9:           160%
Length    9, alignment  9/ 9:           150%
Length   10, alignment 10/10:           170%
Length   10, alignment 10/10:           137%
Length   10, alignment 10/10:           150%
Length   11, alignment 11/11:           160%
Length   11, alignment 11/11:           160%
Length   11, alignment 11/11:           160%
Length   12, alignment 12/12:           146%
Length   12, alignment 12/12:           168%
Length   12, alignment 12/12:           156%
Length   13, alignment 13/13:           167%
Length   13, alignment 13/13:           167%
Length   13, alignment 13/13:           173%
Length   14, alignment 14/14:           167%
Length   14, alignment 14/14:           168%
Length   14, alignment 14/14:           168%
Length   15, alignment 15/15:           168%
Length   15, alignment 15/15:           173%
Length   15, alignment 15/15:           173%
Length    1, alignment  0/ 0:           134%
Length    1, alignment  0/ 0:           127%
Length    1, alignment  0/ 0:           119%
Length    2, alignment  0/ 0:           94%
Length    2, alignment  0/ 0:           94%
Length    2, alignment  0/ 0:           106%
Length    3, alignment  0/ 0:           82%
Length    3, alignment  0/ 0:           87%
Length    3, alignment  0/ 0:           82%
Length    4, alignment  0/ 0:           115%
Length    4, alignment  0/ 0:           115%
Length    4, alignment  0/ 0:           122%
Length    5, alignment  0/ 0:           127%
Length    5, alignment  0/ 0:           119%
Length    5, alignment  0/ 0:           127%
Length    6, alignment  0/ 0:           103%
Length    6, alignment  0/ 0:           100%
Length    6, alignment  0/ 0:           100%
Length    7, alignment  0/ 0:           82%
Length    7, alignment  0/ 0:           91%
Length    7, alignment  0/ 0:           87%
Length    8, alignment  0/ 0:           111%
Length    8, alignment  0/ 0:           124%
Length    8, alignment  0/ 0:           124%
Length    9, alignment  0/ 0:           136%
Length    9, alignment  0/ 0:           136%
Length    9, alignment  0/ 0:           136%
Length   10, alignment  0/ 0:           136%
Length   10, alignment  0/ 0:           135%
Length   10, alignment  0/ 0:           136%
Length   11, alignment  0/ 0:           136%
Length   11, alignment  0/ 0:           136%
Length   11, alignment  0/ 0:           135%
Length   12, alignment  0/ 0:           136%
Length   12, alignment  0/ 0:           136%
Length   12, alignment  0/ 0:           136%
Length   13, alignment  0/ 0:           135%
Length   13, alignment  0/ 0:           136%
Length   13, alignment  0/ 0:           136%
Length   14, alignment  0/ 0:           136%
Length   14, alignment  0/ 0:           136%
Length   14, alignment  0/ 0:           136%
Length   15, alignment  0/ 0:           136%
Length   15, alignment  0/ 0:           136%
Length   15, alignment  0/ 0:           136%
Length    4, alignment  0/ 0:           115%
Length    4, alignment  0/ 0:           115%
Length    4, alignment  0/ 0:           115%
Length   32, alignment  0/ 0:           127%
Length   32, alignment  7/ 2:           395%
Length   32, alignment  0/ 0:           127%
Length   32, alignment  0/ 0:           127%
Length    8, alignment  0/ 0:           111%
Length    8, alignment  0/ 0:           124%
Length    8, alignment  0/ 0:           124%
Length   64, alignment  0/ 0:           128%
Length   64, alignment  6/ 4:           475%
Length   64, alignment  0/ 0:           131%
Length   64, alignment  0/ 0:           134%
Length   16, alignment  0/ 0:           128%
Length   16, alignment  0/ 0:           119%
Length   16, alignment  0/ 0:           128%
Length  128, alignment  0/ 0:           129%
Length  128, alignment  5/ 6:           475%
Length  128, alignment  0/ 0:           130%
Length  128, alignment  0/ 0:           129%
Length   32, alignment  0/ 0:           126%
Length   32, alignment  0/ 0:           126%
Length   32, alignment  0/ 0:           126%
Length  256, alignment  0/ 0:           127%
Length  256, alignment  4/ 8:           545%
Length  256, alignment  0/ 0:           126%
Length  256, alignment  0/ 0:           128%
Length   64, alignment  0/ 0:           171%
Length   64, alignment  0/ 0:           171%
Length   64, alignment  0/ 0:           174%
Length  512, alignment  0/ 0:           126%
Length  512, alignment  3/10:           585%
Length  512, alignment  0/ 0:           126%
Length  512, alignment  0/ 0:           127%
Length  128, alignment  0/ 0:           129%
Length  128, alignment  0/ 0:           128%
Length  128, alignment  0/ 0:           129%
Length 1024, alignment  0/ 0:           125%
Length 1024, alignment  2/12:           611%
Length 1024, alignment  0/ 0:           126%
Length 1024, alignment  0/ 0:           126%
Length  256, alignment  0/ 0:           128%
Length  256, alignment  0/ 0:           127%
Length  256, alignment  0/ 0:           128%
Length 2048, alignment  0/ 0:           125%
Length 2048, alignment  1/14:           625%
Length 2048, alignment  0/ 0:           125%
Length 2048, alignment  0/ 0:           125%
Length  512, alignment  0/ 0:           126%
Length  512, alignment  0/ 0:           127%
Length  512, alignment  0/ 0:           127%
Length 4096, alignment  0/ 0:           125%
Length 4096, alignment  0/16:           125%
Length 4096, alignment  0/ 0:           125%
Length 4096, alignment  0/ 0:           125%
Length 1024, alignment  0/ 0:           126%
Length 1024, alignment  0/ 0:           126%
Length 1024, alignment  0/ 0:           126%
Length 8192, alignment  0/ 0:           125%
Length 8192, alignment 63/18:           636%
Length 8192, alignment  0/ 0:           125%
Length 8192, alignment  0/ 0:           125%
Length   16, alignment  1/ 2:           317%
Length   16, alignment  1/ 2:           317%
Length   16, alignment  1/ 2:           317%
Length   32, alignment  2/ 4:           395%
Length   32, alignment  2/ 4:           395%
Length   32, alignment  2/ 4:           398%
Length   64, alignment  3/ 6:           475%
Length   64, alignment  3/ 6:           475%
Length   64, alignment  3/ 6:           477%
Length  128, alignment  4/ 8:           479%
Length  128, alignment  4/ 8:           479%
Length  128, alignment  4/ 8:           479%
Length  256, alignment  5/10:           543%
Length  256, alignment  5/10:           539%
Length  256, alignment  5/10:           543%
Length  512, alignment  6/12:           585%
Length  512, alignment  6/12:           585%
Length  512, alignment  6/12:           585%
Length 1024, alignment  7/14:           611%
Length 1024, alignment  7/14:           611%
Length 1024, alignment  7/14:           611%

---

[AArch64] Optimized memcmp

Commit Message

Comments

Patch