x86-Prozessoren und C

vorhergehende Artikel in: Java Linux Video Numerik C und C++

Zunächst habe ich die Beispiele aus dem Video nachgestellt und meine erste Erkenntnis war, dass der Verfasser des Videos nicht alles gesagt oder dass ich einiges überhört habe - die im Video gezeigten Assembler-Fragmente entstehen nämlich beim Übersetzen mit GCC nicht, wenn man nicht die Optimierungen aktiviert.

Der Code des Beispiels

int max(int a, int b)
{
    if(a>b)
        return a;
    else
        return b;
}

Sieht bei einer Übersetzung mittels gcc -S te.c so aus:

max:
.LFB0:
        .cfi_startproc
        pushq   %rbp
        .cfi_def_cfa_offset 16
        .cfi_offset 6, -16
        movq    %rsp, %rbp
        .cfi_def_cfa_register 6
        movl    %edi, -4(%rbp)
        movl    %esi, -8(%rbp)
        movl    -4(%rbp), %eax
        cmpl    -8(%rbp), %eax
        jle     .L2
        movl    -4(%rbp), %eax
        jmp     .L3
.L2:
        movl    -8(%rbp), %eax
.L3:
        popq    %rbp
        .cfi_def_cfa 7, 8
        ret
        .cfi_endproc

Erst wenn man die Optimierungen aktiviert - wie zum Beipiel mittels gcc -S -O5 te.c erhält man die im Video angesprochene Version ohne Sprünge:

max:
.LFB23:
        .cfi_startproc
        cmpl    %esi, %edi
        movl    %esi, %eax
        cmovge  %edi, %eax
        ret
        .cfi_endproc

In diesem Fall zeigt sich auch die Bestätigung der im Video bereits gemachten Aussage: In trivialen Fällen bringt es nichts, selbst zu versuchen, Sprünge zu verhindern - etwa mit diesem (dem Video entnommenen) Code:

int max1(int a, int b)
{
    return a*(a>b)+b*(a<=b);
}

Der erzeugt nämlich optimiert etwas längeren und damit ineffizienteren Maschinencode:

max1:
.LFB24:
        .cfi_startproc
        xorl    %eax, %eax
        cmpl    %esi, %edi
        setg    %al
        imull   %edi, %eax
        movl    %eax, %edx
        xorl    %eax, %eax
        cmpl    %esi, %edi
        setle   %al
        imull   %eax, %esi
        leal    (%rdx,%rsi), %eax
        ret
        .cfi_endproc

Wie sieht es aber für komplexere Beispiele aus? Ich habe (ebenfalls dem Video nachempfunden) auch ein etwas komplexeres Beispiel untersucht. Der C-Quelltext für beide Varianten sieht wie folgt aus:

int toUpper(char *buf)
{
    char *pointer=buf;
    while(*pointer!=0)
    {
        char pointedAt=*pointer;
        if((pointedAt>='a')&&(pointedAt<='z'))
        {
            *pointer=pointedAt-32;
        }
        ++pointer;
    }
}
int toUpper1(char *buf)
{
    char *pointer=buf;
    while(*pointer!=0)
    {
        char pointedAt=*pointer;
        int a=((pointedAt>='a')&&(pointedAt<='z'));
        *pointer=pointedAt-(32*a);
        ++pointer;
    }
}

Der dazu korrespondierende Maschinencode - ebenfalls wider mit -O5 übersetzt ergibt sich zu:

toUpper:
.LFB25:
        .cfi_startproc
.L10:
        movzbl  (%rdi), %eax
        testb   %al, %al
        je      .L6
.L5:
        leal    -97(%rax), %edx
        cmpb    $25, %dl
        ja      .L7
        subl    $32, %eax
        addq    $1, %rdi
        movb    %al, -1(%rdi)
        movzbl  (%rdi), %eax
        testb   %al, %al
        jne     .L5
.L6:
        rep ret
        .p2align 4,,10
        .p2align 3
.L7:
        addq    $1, %rdi
        jmp     .L10
        .cfi_endproc

toUpper1:
.LFB26:
        .cfi_startproc
        jmp     .L18
        .p2align 4,,10
        .p2align 3
.L13:
        leal    -97(%rax), %edx
        cmpb    $25, %dl
        setbe   %dl
        addq    $1, %rdi
        sall    $5, %edx
        subl    %edx, %eax
        movb    %al, -1(%rdi)
.L18:
        movzbl  (%rdi), %eax
        testb   %al, %al
        jne     .L13
        rep ret
        .cfi_endproc

Hier kann man mehrere Dinge erkennen:

Die Branchless-Methode kommt nicht ganz ohne Sprünge aus - schließlich ist eine Schleife enthalten. Das könnte man nur durch Loop Unrolling verhindern - allerdings kann das die Nebenwirkung haben, damit den Cache explodieren zu lassen.
Die Branchless-Methode kommt mit deutlich weniger Sprüngen aus - innerhalb der Schleife sogar gänzlich ohne. Das lässt darauf hoffen, dass die Performance der Lösung etwas höher ist.
Die Branchless-Variante ist von der anzahl der Meschinenbefehle her sogar etwas kürzer, was nochmals auf eine Performance.Steigerung hoffen lässt.

Kommentar hinzufügen (via Github ) Kommentare ansehen (via Github )

Kommentar hinzufügen (via ) Kommentare ansehen (via )

Vor 5 Jahren hier im Blog

Fährnisse des Buildprozesses unter Windows

17.07.2019

Nachdem ich begonnen hatte, mich mit der Beschleunigung der Berechnung des Mandelbrot-Fraktals unter Zuhilfenahme der Shadereinheiten in Graphikkarten zu beschäftigen und erste Erfolge feiern konnte, wollte ich das mal auf einer richtigen Graphikkarte ausprobieren...
Weiterlesen...

Neueste Artikel

Datenvalidierung UTF8 mit BiDi-Steuerzeichen (TrojanSource 2.0)

Ich bin heute nochmal inspiriert worden, weiter über die Trojan Source Vulnerability nachzudenken. Meiner Meinung nach bestehen hier noch Probleme - speziell bei Nutzereingaben oder Daten, die über externe Schnittstellen ampfangen werden.
Weiterlesen...
OpenStreetMap Navi als Docker-Container

Ich habe die auf OpenStreetMap basierende OpenSource Navigationslösung Graphhopper in einen Docker-Container gepackt und als neuestes Mitglied in meinem Docker-Zoo willkommen geheißen.
Weiterlesen...
SQL-Aggregatfunktionen in SQLite als BeanShell-Scripts

Ich habe neulich über eine Möglichkeit berichtet, SQLite mittels der sQLshell und Beanshell-Skripten um SQL-Funktionen zu erweitern. In diesem Artikel versprach ich auch, über eine solche Möglichkeit für Aggregatfunktionen zu berichten.
Weiterlesen...

Manche nennen es Blog, manche Web-Seite - ich schreibe hier hin und wieder über meine Erlebnisse, Rückschläge und Erleuchtungen bei meinen Hobbies.

Wer daran teilhaben und eventuell sogar davon profitieren möchte, muß damit leben, daß ich hin und wieder kleine Ausflüge in Bereiche mache, die nichts mit IT, Administration oder Softwareentwicklung zu tun haben.

Ich wünsche allen Lesern viel Spaß und hin und wieder einen kleinen AHA!-Effekt...

PS: Meine öffentlichen GitHub-Repositories findet man hier - meine öffentlichen GitLab-Repositories finden sich dagegen hier.

x86-Prozessoren und C

Vor 5 Jahren hier im Blog

Tags

Neueste Artikel

Der Verfasser