Im Folgenden schauen wir uns Zusammenhänge verschiedener Spieldaten der Borussia aus der Bundesliga Hinrunde 2017/18 an. Die Grundlage der Analyse bilden die Daten von Kicker.de und understat.com. Eine grafische Übersicht der gesammelten Daten ist hier zusammengestellt.

Das Ziel des Artikels ist es ausgewählte Zusammenhänge (Korrelationen) der Spieldaten zu quantifizieren und wenn möglich zu bewerten. Das Auffinden oder Verwerfen von Spieldaten-Korrelationen werden wir über Korrelationsanalysen durchführen und sogenannte lineare Modelle betrachten. Wir werden dabei annehmen, dass die Voraussetzung zur Anwendbarkeit dieser Modelle erfüllt sind. Die Überprüfung dieses Sachverhaltes ist im Allgemeinen ein sehr schwieriges Problem, welches wir hier an dieser Stelle nicht führen können. Viele der Untersuchungen und der dargestellten Zusammenhänge sind mehr Fun Facts als statistisch stichhaltig begründet. Der Stichprobenumfang ist dafür zu klein. Im Laufe der Saison wird sich dies ein wenig verbessern ohne jedoch hinreichend groß zu werden.

Die gängigsten und bekanntesten Spieldaten sind: Ballbesitz, Zweikampf- und Passquote, Laufleistung, Ecken, Abseits und Fouls. Wer die über 100 Borussia-Ecken am Stück in der Schubert-Saison ohne Tor miterlebt hat, stimmt vermutlich zu, dass hier nicht viel statistisches abzulesen sein wird. Ähnlich uninteressant - wenn auch aus anderen Gründen - scheinen Abseits und Fouls pro Spiel zu sein. Deswegen lassen wir diese Spieldaten hier außen vor und konzentrieren uns auf Ballbesitz, Zweikampfquote, Passquote, Torschüsse und Laufleistung. Wir wollen der Frage nachgehen: Wie groß ist der Zusammenhang der Spieldaten zum Spielergebnis und welche Spieldaten hängen voneinander ab?

Bevor wir mit der eigentlichen Analyse beginnen, schauen wir uns zunächst konkrete Zusammenhänge an, die die Begriffe Korrelation, Anti-Korrelation und Nicht-Korrelation verdeutlichen und tun dies an Beispielen für die es eine vernünftige und nachvollziehbare Erklärung gibt. Diese Zusammenhänge sind nicht besonders tiefsinnig, interessant wird aber die Ausprägung der Korrelationen sein, die der Korrelationskoeffizient r quantifiziert. .


Korrelation, Anti-Korrelation und Nicht-Korrelation

Wir schauen uns zunächst der Reihe nach Beispiele an, die diese Begriffe verdeutlichen und versuchen soweit es mit diesen Daten möglich ist Erklärungen für die Zusammenhänge zu finden. Wir werden hier und auch später sehen, dass dies nicht immer einfach und oft unmöglich ist.

Korrelation von Ballbesitz und Passquote

Die Korrelation zwischen Ballbesitz und Passquote ist aus fußballerischer Sicht klar. Einerseits findet ein Großteil des Ballbesitzes in der eigenen Spielhälfte statt und wird oft von der verteidigenden Mannschaft der angreifenden Mannschaft zugestanden. Andererseits verlieren spielstarke und passichere Mannschaften seltener durch unpräzise Pässe den Ball und bleiben somit länger im Ballbesitz. Beide Effekte schrauben die Passquote hoch. Die Korrelation sollte deswegen positiv sein, desto höher der Ballbesitz desto höher die Passquote. Wäre die Korrelation maximal, dann würden die Punkte auf einer Geraden liegen. Dies tun sie in der Realität durch verschiedene statistisch bedingte Einflüsse nicht. Um so näher die Datenpunkte an der angenommenen Geraden liegen, um so größer ist der Korrelationskoeffizient r. Für den Fall der zuvor beschriebenen maximalen Korrelation bedeutet dies r=1, keine Korrelation bedeutet r=0.

Betrachten wir das Beispiel der Ballbesitz-Differenz zur Passquoten-Differenz in der rechts dargestellten Grafik. Alle Differenzen sind immer aus der Sicht der Borussia gesehen.

In die Grafik sind verlorenen Spiele rot, unentschieden schwarz und die gewonnen Spiele mit grüner Schrift gekennzeichnet. Zusätzlich ist die berechnete Korrelationsgerade und ein grau schattierter Schwankungsbereich, der so etwas wie einen statistischen Messfehler der Daten repräsentiert, dargestellt. Desto enger der Schattenbereich desto kleiner der Fehler der Korrelation. Der Korrelationskoeffizient beträgt r=0.96+/-0.00. Die Korrelation ist klar, aber die Größe jedoch mehr als erstaunlich.

Aus statistischer Sicht ist dies praktisch ein Idealbeispiel einer Korrelation und keine andere, der im weiteren Verlauf diskutierten Korrelationen, wird so hoch sein. Dabei ist es konsistent, dass nicht alle Datenpunkte im grauen Schwankungsbereich liegen. Ein kleiner Teil der Punkte (VFB, M05, EFR) muss mit einer bestimmten Wahrscheinlichkeit auch außerhalb des Bereichs liegen, das gilt für alle im Folgenden gezeigten Kurven.

Es kann auch ein umgekehrter Zusammenhang existieren, bei der eine Messgröße abnimmt und eine andere zunimmt, dann sprechen wir von einer Anti-Korrelation der Messgrößen. Ist diese Anti-Korrelation maximal, so gilt für den Korrelationskoeffizienten r=-1. Betrachten wir ein Beispiel einer Anti-Korrelation.


Anti-Korrelation von Ballbesitz und Laufleistung

Die Anti-Korrelation zwischen Ballbesitz und Laufleistung ist aus fußballerischer Sicht ebenso klar, wenn auch zu erwarten ist, dass sie nicht ganz so ausgeprägt sein wird. Ein wesentlicher Unterschied zur zuvor betrachteten Korrelation ist der, dass ein erhöhter Ballbesitz eine geringe Laufleistung zur Folge haben sollte, desto größer der Ballbesitz, desto geringer die Laufleistung. Ein ursächlicher Grund ist der, dass man den Gegner laufen lässt und dieser den Ball zu erobern versucht. Dadurch muss die ballführende Mannschaft weniger laufen und die erobernde mehr, das führt zu einer negativen Korrelation. Jedoch wird es auch andere Mechanismen geben, wie etwa die, dass sehr gute Mannschaften mit entsprechend starken Spielern nicht nur fußballerisch stärker sind, sondern auch laufstärker sind. Deswegen ist nicht zu erwarten, dass die Anti-Korrelation sehr hoch ist.

Dies ist in der rechts stehenden Grafik dargestellt. Zum einen ist die absolute Korrelation deutlich geringer, sie beträgt nur noch |r|=0.44, zum anderen ist die Schwankung deutlich größer. Dies ist durch den vergrößerten grau schattierten Bereich gekennzeichnet und numerisch durch den größeren Fehler (0.08) ablesbar.

Es gibt jedoch zwei Besonderheit, die zu beobachten sind. Die beiden Spiele gegen Leverkusen (B04) und Freiburg (SCF) sind deutliche Ausreißer. Erinnert man sich an beide Spiele so war die Borussia in der ersten Hz gegen B04 deutlich überlegen und ließ den Ball und Gegner laufen. In der zweiten Hz nach den ersten drei Gegentoren hörte die Borussia praktisch komplett auf zu laufen und erzielte die geringste Laufleistung der Hinrunde. Gegen SCF war es ein anderer Effekt, die Borussia fand praktisch nie ins Spiel und nahm den Kampf nicht an. Stattdessen schob man sich brotlos den Ball in der eigenen Hälfte hin und her, von Freiburg zugestanden da offensichtlich ohne jede Wirkung.

Zu diesen beiden nachvollziehbaren Korrelationen gibt es eine Vielzahl von Spieldaten-Beziehungen, die keine offenbare Korrelation besitzen, oder es gegenläufige Mechanismen gibt, so dass sich keine Gesamtkorrelation bildet. Ein Beispiel ist der folgende Zusammenhang zwischen dem Zweikampfverhalten und der Laufleistung.


Nicht-Korrelation von Zweikampfquote und Laufleistung

Aus rein fußballerischer Sicht ist es unklar, ob es einen Zusammenhang zwischen der Laufleistung und der Zweikampfquote gibt. Man könnte erwarten, dass eine höhere Laufleistung mit größerer Einsatzbereitschaft verbunden ist und somit eine positive Korrelation existiert. Es sind aber auch andere Mechanismen denkbar, etwa dass eine spielstarke Mannschaft mit hohem Ballbesitz also geringerer Laufleistung den Gegner laufen lässt und deswegen in den Zweikämpfen einen Tick frischer ist und diese häufiger gewinnt. Dies würde eine negative Korrelation zur Folge haben. Weitere Wirkungsmechanismen sind ebenso vorstellbar. Betrachtet man alle Spiele, so ist keine Korrelation zu beobachten. Dies drückt sich durch die flache Gerade (r=0.06+/-0.81) mit einer starken Schwankung und einem sehr großen Fehler aus.

Betrachtet man die Grafik jedoch genauer, so erkennt man eine Separation in den Datenpunkten. Die verlorenen Spiele liegen tendenziell links unten und die gewonnen Spielen liegen tendenziell rechts oben. Für diese getrennten Gruppen könnte es eine Korrelation geben. Die Anzahl der Daten ist jedoch sicherlich noch nicht ausreichend um dies zu quantifizieren, hier müssen wir den Verlauf der Saison abwarten. Ebenso ist eine mögliche Erklärung dieser Separation unklar.

Nach diesen einführenden und erklärenden Beispielen für (Anti/Nicht)-Korrelationen zwischen verschiedenen Spieldaten kommen wir nun zu der interessanteren Frage, ob es Spieldaten gibt die einen beobachtbaren Zusammenhang zum Spielergebnis besitzen. Hier konzentrieren wir uns auf die Spieldaten: Laufleistung, Zweikampf, Torschüsse, Passquote und Ballbesitz, alles Spieldaten bei denen man meinen könnte, sie wären relevant für das Spielergebnis.



Laufleistung, Ballbesitz, Passquote, Torschüsse und Zweikampfquote

Zunächst wollen wir einen Überblick geben über die Gesamtheit der reinen Spieldaten. Hierzu stellen wir alle Spieldaten jeweils als Differenz dar und untersuchen den Zusammenhang zum Spielergebnis, ausgedrückt durch die Tordifferenz. Da all diese Daten numerisch einen unterschiedlichen Bereich abdecken und damit in einem gemeinsamen Diagramm schlecht verglichen werden können, normieren wir die Spieldaten-Differenzen auf ihren betragsmäßig größten Wert. Diese Maximalwerte sind im Diagramm jeweils an den Stellen +/- 1.0 zu finden. Dabei bedeutet +1, dass die Borussia den Maximalwert erzielte und -1 der Gegner.

Aufgrund der Vielzahl der Spieldaten liegen einige Datenpunkte übereinander. Wir berücksichtigen dies indem wir das gesamte Feld in kleine Waben aufteilen und die Anzahl der Punkte einer Spieldatenkategorie, die in dieser Wabe liegen, zählen und die Häufigkeit durch den Grauwert der Wabe kennzeichnen. Desto dunkler die Wabe, desto mehr Punkte liegen innerhalb der Wabe. Zur besseren Auflösung sind die Waben zusätzlich leicht gegeneinander versetzt dargestellt.

Die Korrelationen zu Torschüssen, Ballbesitz und Passquote sind vergleichsweise sehr klein und somit in Anbetracht des angegebenen Fehlers sicherlich nicht signifikant, also nicht korreliert. Wie wir zuvor gesehen haben, sind Passquote und Ballbesitz extrem stark korreliert. Dies wirkt sich praktisch nicht auf die Tordifferenz aus und ist so oft im Spiel der Borussia zu beobachten. In dieser Hinrunde wusste die Borussia mit Ballbesitz nicht viel anzufangen. Was erstaunt ist jedoch die Tatsache, dass keinerlei Korrelation von Torschuss-Differenz und der Tordifferenz zu beobachten ist. Die naive Annahme würde sicherlich sein, desto größer die Torschuss-Differenz, desto höher die Tordifferenz.

Die größte Korrelation bei der Borussia liefert etwas überraschend die Laufleistung, noch vor der Zweikampfquote, die wie wir gesehen haben vordergründig nicht korreliert zueinander sind. Nur für die Laufleistung ist die Schwankung grau schattiert eingezeichnet.

Das erstaunlichste Ergebnis aus meiner Sicht ist die extrem schwache Korrelation von Torschuss-Differenz zur Tordifferenz. Dies wollen wir uns ein wenig weiter anschauen und betrachten einmal nur die Daten der Borussia und keine Differenzen.

Korrelation von Ballbesitz und Torschüsse

Erwartungsgemäß hat ein erhöhter Ballbesitz mehr Torschüsse zur Folge, wie in der linken Grafik zu sehen ist. Auch die Größe der Korrelation, sowie die Verteilung der Datenpunkte sind im Rahmen und so erwartbar. Bemerkenswert ist, dass die Borussia bei Spielen mit weniger Ballbesitz als der Gegner 1.83 Punkte pro Spiel holte und bei mehr Ballbesitz nur 1.55 Punkte pro Spiel. Dies ist eine Momentaufnahme, denn ein einziges Spiel mit umgekehrten Ausgang würde beide Zahlen etwa gleich werden lassen.

Die rechte Grafik stellt die Effektivität der Borussia bei Torschüssen dar, sie zeigt wieviel Tore sie aus den Torschüssen erzielt. Hier würde man ebenso naiv annehmen, dass diese eine positive Korrelation gibt und wenn die Borussia effektiv wäre, sogar eine große Korrelation. Das tatsächliche Ergebnis erstaunt dann aber doch ein wenig! Die Gründe hierfür und ob dies für andere Mannschaften ähnlich ist, wollen wir in einer separaten Analyse diskutieren.

Wie wir wissen ist Torschuss nicht gleich Torchance. Um tatsächliche Torchancen zu quantifizieren gibt der Kicker nach jedem Spieltag die Anzahl der Torchancen an, die eine Mannschaft hatte. Dies ist eine von den Redakteuren subjektiv bestimmte Größe. Seit einigen Jahren gibt es objektivere Torchancen-Maße, die sogenannten xGoals, die Wahrscheinlichkeiten beziffern aus einer bestimmten Distanz und Position unter Berücksichtigung der Verteidiger ein Tor zu erzielen. Diese beiden Größen wollen wir im Folgenden vergleichen und diskutieren.



Tore, Torchancen und xGoals

Die folgenden beiden Grafiken vergleichen die erzielten Tore der Borussia (schwarz) und des Gegners (rot) in Abhängigkeit der Kicker-Torchancen und den xGoals zu den erzielten Toren. Die dünnen blauen Linien verbinden die Spiele miteinander, eine jede Linie geht von einem schwarzen zu einem roten Punkt. Es kommt vor, dass Punkte übereinander liegen.

Eine ansteigende blaue Linie bedeutet, dass das Ergebnis tendenziell dem Chancen-Ergebnis entspricht. Eine abfallende blaue Linie zeigt an, dass das Ergebnis nicht der Chancen-Differenz entspricht und deswegen tendenziell ungerecht ist. Am markantesten sichtbar wird dies im xGoal-Diagramm. Zum einen beim Dortmund-Spiel, hier verläuft die blaue Linie praktisch ideal entlang der roten Korrelationsgeraden und zum anderen beim Leverkusen-Spiel welches eine extrem stark fallende blaue Linie besitzt.

Aus den Grafiken erkennt man unmittelbar die größere Korrelation der xGoals zum Spielergebnis im Verglichen zu den Kicker-Torchancen. Dies drückt sich zum einen durch numerisch deutlich größere Korrelationskoeffizienten und erheblich kleineren Fehler aus, und zum anderen grafisch durch die schmaleren Schwankungsbereiche aus.

Aus Sicht der Borussia liest man eine geringere Korrelation aus beiden Grafiken ab, mit anderen Worten die Borussia tut sich etwas schwerer beim Verwandeln ihrer Chancen. Ob dies signifikant ist oder den tatsächlichen Gegebenheiten entspricht, kann noch nicht sicher beurteilt werden.

Als geeigneteres Maß für Torchancen verwenden wir die xGoals und wollen noch einmal Borussias Ballbesitz-Problem betrachten.


Das Problem mit dem Ballbesitz

Zuvor haben wir das Ballbesitz-Problem der Borussia anhand der Torschüsse diskutiert. Noch deutlicher wird die Nichteffektivität von Ballbesitz bei den xGoals sichtbar. Die beiden folgenden Diagramme zeigen die xGoals und tatsächlich erzielten Tore als Funktion des Ballbesitzes.

Beide Diagramme zeigen eine kaum oder wenn dann eine leicht negative Korrelation ist. Die zuvor beobachtete Nicht-Korrelation von Toren und Ballbesitz/Torschüssen wird in dieser Form der Auftragung noch deutlicher. Vorsicht in der Interpretation ist jedoch wegen des recht großen Fehlers geboten. Ob diese Tendenz über die ganze Saison hin erhalten bleibt wird sich zeigen. Hier ist es zunächst eine kuriose Beobachtung.



Spielergebnisbewertung

Nun wagen wir uns auf noch dünnerem Eis und versuchen anhand der Spielergebnisse und Chancen im Spiel den Spielausgang zu bewerten. In den beiden nachfolgenden Grafiken ist jeweils die Tordifferenz gegen die xGoals und Kicker-Torchancen zusammen mit den Korrelationsgeraden aufgetragen. Die xGoals sind deutlich höher korreliert, deswegen werden wir im Folgenden bei der Bewertung nur hierauf eingehen, wenn nicht explizit anders erwähnt.

Grob vereinfacht gesagt, desto weiter die Punkte von der horizontalen Linie entfernt sind, desto verdienter bzw unverdienter war der jeweilige Spielausgang. Diese Bereiche sind jeweils in leicht grün und rot markiert. Am besten lässt sich diess an markanten Spielen im xGoal-Diagramm verdeutlichen.

  • Die Niederlage beim BVB war ohne jeden Zweifel sehr verdient. Vielleicht fiel die Niederlage zu hoch aus, da Borussia durchaus einige Möglichkeiten hatte.
  • Die erste Hz des Leverkusen-Spiels war vielleicht die beste Hz im Borussia-Park und auch in weiten Phasen der zweiten Hz war Borussia die bessere Mannschaft mit mehr Torchancen. Die Gegentore sind durch grobe Fehler gefallen, die durch die individuelle Klasse der Bayer-Spieler praktisch jedes Mal bestraft wurden.
  • Beim Unentschieden gegen RBL hat die Borussia den Sieg mehr verdient und gegen FCA war es der Gegner. In der Ausprägung entspricht auch beides in etwa dem Abstand zur horizontalen Nullachse.

Anhand dieser einleitenden Erklärungen waren alle Siege mehr oder minder verdient. Bei den Siegen gegen Werder und Hertha kann man unterschiedlicher Meinung sein, jedoch wurde in diesen Spielen mit zwei Toren Unterschied gewonnen und hönnten sie ebenso das Prädikat verdient gewonnen bekommen.

Bei den Unentschieden gibt es das absolut gerechte Unentschieden gegen Mainz und ein sehr glückliches gegen Augsburg. Dahingehend waren die Unentschieden gegen RBL und Schalke eher unglücklich, das hätten auch Siege sein können.

Bei den Niederlagen sieht es etwas anders aus. Ohne jeden Zweifel sind die Niederlagen gegen den BVB und Freiburg mehr als verdient. Die drei Niederlagen gegen Leverkusen, Wolfsburg und Frankfurt würde ich ebenso eher in den Bereich unglücklich und unnötig einordnen.

Bewertet man insgesamt alle Ergebnisse aus dieser Sicht und vergleicht dies auch mit den eigenen Eindrücke - nachdem sich Freude und Ärger jeweils gelegt haben - so sollte man zum Schluss kommen: Eine ganz normale und gerechte Hinrunde


Fazit

Zum Schluss ein paar einordnende Bemerkungen. Für eine abschließende Bewertung verschiedener Aussagen ist die Datenmenge von 17 Punkten eigentlich zu wenig und deswegen müssen viele der statistischen Ergebnisse mit großer Vorsicht betrachtet werden. Nichtsdestotrotz gibt es einige Tendenzen, die sich vielleicht bis zum Ende der Saison verstärken werden oder zumindest verfestigen.

Deswegen werden in der Rückrunde alle oben dargestellten Grafiken auf einer separaten Seite fortgeschrieben. Am Ende der Saison gibt es dann eine erneute und ausführlichere Schlussbetrachtung. Einige Aspekte im Spiel der Borussia werden dann mit anderen Mannschaften verglichen, insbesondere das Ballbesitz-Problem. Dies ist vermutlich kein spezifisches Problem der Borussia, sondern betrifft viele Mannschaften, die vermeintlich stärker sind als eine Vielzahl ihrer Gegner.

Es sei nicht unerwähnt, dass das gesamte Gebilde Borussia ein sich zeitlich entwickelndes Gebäude ist und damit alle Daten eigentlich auch irgendwie zeitabhängig sind. Dies zu berücksichtigen ist natürlich völlig unmöglich.

Zweifelsohne ist gezeigt, dass die Kicker-Torchancen kein besonders gutes Maß darstellen um Spielausgänge und tatsächlich gefallene Tore zu bewerten. Falls sich diese Aussage im Laufe der Saison bestätigt, werden zukünftig in der Auswertung anderer Aspekte diese nicht mehr diskutiert. Es wird dann ganz auf xGoals als einfach zugängliches Maß gesetzt.

Geben Sie Ihren Kommentar ein. Wiki-Syntax ist zugelassen:
S​ F᠎ C T X
 
  • Zuletzt geändert: 2018/02/07 12:52
  • von 132.195.108.51