LLVM (bzw. Clang) und GCC gleichen sich dahingehend, dass man optimierten Code vergleichen sollte, da sich aus unoptimiertem bezüglich des untersuchten Themas keine Aussagen ableiten lassen. Sie unterscheiden sich allerdings im Ergebnis: Während bei GCC noch die "normale" Variante in Maschinencode transformiert wurde, der kürzer war als der der branchless Variante ist dieser Unterschied bei Clang nicht mehr gegeben: für beide Varianten wird exakt der gleiche Code erzeugt:

max:                                    # @max
        .cfi_startproc
# %bb.0:
        cmpl    %esi, %edi
        cmovgel %edi, %esi
        movl    %esi, %eax
        retq

max1: # @max1 .cfi_startproc # %bb.0: cmpl %esi, %edi cmovgel %edi, %esi movl %esi, %eax retq

Mit diesem Ergebnis war ich natürlich sehr gespannt auf das für das nicht-triviale Beispiel - hier zunächst die "normale Variante":

toUpper:                                # @toUpper
        .cfi_startproc
# %bb.0:
        movb    (%rdi), %al
        testb   %al, %al
        je      .LBB2_5
# %bb.1:
        addq    $1, %rdi
        .p2align        4, 0x90
.LBB2_2:                                # =>This Inner Loop Header: Depth=1
        movl    %eax, %ecx
        addb    $-97, %cl
        cmpb    $25, %cl
        ja      .LBB2_4
# %bb.3:                                #   in Loop: Header=BB2_2 Depth=1
        addb    $-32, %al
        movb    %al, -1(%rdi)
.LBB2_4:                                #   in Loop: Header=BB2_2 Depth=1
        movzbl  (%rdi), %eax
        addq    $1, %rdi
        testb   %al, %al
        jne     .LBB2_2
.LBB2_5:
        retq

Und zum Vergleich die branchless-Variante:

toUpper1:                               # @toUpper1
        .cfi_startproc
# %bb.0:
        movb    (%rdi), %al
        testb   %al, %al
        je      .LBB3_3
# %bb.1:
        addq    $1, %rdi
        .p2align        4, 0x90
.LBB3_2:                                # =>This Inner Loop Header: Depth=1
        movl    %eax, %ecx
        addb    $-97, %cl
        cmpb    $26, %cl
        setb    %cl
        shlb    $5, %cl
        subb    %cl, %al
        movb    %al, -1(%rdi)
        movzbl  (%rdi), %eax
        addq    $1, %rdi
        testb   %al, %al
        jne     .LBB3_2
.LBB3_3:
        retq

Hier erkennt man deutliche Unterschiede - wie bei GCC ist es so, dass der Code der branchless-Variante nicht nur weniger bedingte Sprünge enthält, sondern auch an sich kompakter ist, was auch hier auf deutliche Performance-Vorteile der branchless-Variante schließen lässt. Interessant ist der Fakt, dass der durch Clang erzeugte Code von der Anzahl der Maschinenbefehle her etwas länger als der von GCC erzeugte ist.

Alle Artikel rss Wochenübersicht Monatsübersicht Github Repositories Gitlab Repositories Mastodon Über mich home xmpp


Vor 5 Jahren hier im Blog

  • Aviator + Websockets

    15.06.2019

    Nachdem ich in den letzten Wochen und Monaten meine Zeit und Energie in die sQLshell gesteckt habe - was sowohl Bugfixing als auch neue Features betraf - habe ich nun endlich die Zeit gefunden, ein bereits lange überfälliges Feature an dWb+ und speziell am aviator zu implementieren.

    Weiterlesen...

Neueste Artikel

  • Neue Version plantumlinterfaceproxy napkin look

    Es gibt eine neue Version des Projektes plantumlinterfaceproxy - Codename napkin look.

    Weiterlesen...
  • Apache HTTPCore5 funktioniert nicht mit Docker

    Ich habe neulich drei Stunden meines Lebens verschwendet weil ich unbedingt die neueste Version der HTTPCore5 Library von Apache einsetzen wollte.

    Weiterlesen...
  • Entwurfsmodus für beliebige SVG Graphiken

    Nachdem ich in der Vergangenheit immer wieder Weiterentwicklungen der Idee vorgestellt habe, Graphiken mit dem Computer so zu ezeugen dass sie eine gewisse "handgemachte" Anmutung haben, habe ich nunmehr die durchschlagende Idee gehabt:

    Weiterlesen...

Manche nennen es Blog, manche Web-Seite - ich schreibe hier hin und wieder über meine Erlebnisse, Rückschläge und Erleuchtungen bei meinen Hobbies.

Wer daran teilhaben und eventuell sogar davon profitieren möchte, muß damit leben, daß ich hin und wieder kleine Ausflüge in Bereiche mache, die nichts mit IT, Administration oder Softwareentwicklung zu tun haben.

Ich wünsche allen Lesern viel Spaß und hin und wieder einen kleinen AHA!-Effekt...

PS: Meine öffentlichen GitHub-Repositories findet man hier - meine öffentlichen GitLab-Repositories finden sich dagegen hier.