Kategorien

Archive

Kalender

August 2020
M D M D F S S
 12
3456789
10111213141516
17181920212223
24252627282930
31  

Allerfeinster Zahlensalat

4. August 2020, 21:22 Uhr von Uwe

Die letzten Wochen und Monaten hab ich mich immer dann wenn ich eigentlich was vernünftiges hätte machen können durch endlos viele Seiten in diesem Ding geklickt, was landläufig als Internet bekannt ist. Sinn der Übung war das Erstellen der ultimativen Statistik, mit der ich alles beweisen kann – und auch das Gegenteil davon. Solchen Blödsinn macht man natürlich nur bei Themen, die einen schon seit Jahrzehnten faszinieren, das heißt es geht auch diesmal wieder nur um komische Typen, die schneller im Kreis fahren wollten als alle anderen. Wer an sowas kein Interesse hat kann diesen Artikel gleich skippen.

Die Frage aller Fragen

Ursprünglich stellte sich mir „nur“ die Frage, wer denn nun der GOAT (greatest of all time) ist. Dieses Thema wird grad bei den Fans von Motorradrennen leidenschaftlich kontrovers diskutiert, und die einen haben gute Argumente warum Marc Márquez diesen Titel haben müsste, und die anderen halten mit ebenso guten Argumenten dagegen, dass Valentino Rossi derjenige welcher ist. Eine kleine Minderheit wirft dann noch so Namen wie Giacomo Agostini in den Ring. Und wenn ich über solche Fragen nachdenke, dann muss ich dem Thema aber mal so richtig auf den Grund gehen. Ein cleverer Typ hat die Frage nach dem GOAT für Formel 1-Rennfahrer beantwortet, bzw. versucht zu beantworten. Er hat ne komplizierte Metrik entwickelt und auf der Basis einen Computer rechnen lassen, und der hat am Ende „42“ ausgespuckt – oder so. Die durchaus spannenden Ergebnisse gibts hier.

Für Motorradrennen gibts sowas nicht, bzw. hab ich das nicht gefunden. Und weil ich ja per Definition keiner Statistik traue, die ich nicht selbst gefälscht hab, musste ich also mein eigenes Datengrab schaufeln. Und wenn man schon mal am Schaufeln ist, kann man auch noch ein paar Statistiken für die Formel 1 zusammenbauen.

Zahlen, Zahlen, noch mehr Zahlen

So, wie tief war denn nun eigentlich das notwendige Datengrab? Die Formel 1-WM gibt es seit 1950, die Motorrad-WM schon seit 1949, und da wurden seither auch noch mehrere Klassen parallel ausgetragen. Mit Stichtag 1.1.2020 kommt man da also auf folgende Zahlen:

KategorieJahreRennen
Formel 11950-1021
50cc1962-1983173
80cc1984-198947
125cc1949-2011724
250cc1949-2009718
350cc1949-1982282
500cc1949-2001582
Moto32012-146
Moto22010-180
MotoGP2002-318

Das sind also mal eben schlappe 4191 Rennen, die da auszuwerten waren. Für jedes Rennen wurden die möglichst kompletten Ergebnisse erfasst (Platzierungen, Ausfälle usw., aber keine Zeitabstände oder ähnliches), und darüber hinaus wer die schnellste Runde gefahren ist und wer die Trainingsbestzeit erzielt hatte. Für die Formel 1 ist sowas noch relativ einfach bei Wikipedia zu finden, da gibts höchstens mal ein paar Fipptehler, die sich aber relativ leicht abgleichen lassen, wenn man mal abprüft dass es zum Beispiel keine doppelten Platzierungen gibt oder irgendwelche Lücken in den Platzierungen.

So richtig graue Haare kann man kriegen, wenn man die passenden Infos für Motorradrennen finden will. Je weiter man zurückgeht, umso schwerer wirds natürlich, aber schon für die 1980er Jahre wirds teilweise kompliziert – Übersichten über gesamte Saisonergebnisse in Form einer handlichen Tabelle gibts gar nicht, oder nur für die Königsklasse (500cc), die Ergebnisse aller anderen Klasse muss man sich mühsam aus den einzelnen Rennergebnissen zusammenpuzzeln. Und die gibts nun entweder gar nicht (Deutsche Wikipedia), unvollständig (Englische Wikipedia) oder ziemlich ausführlich inklusive cooler Anekdoten (Niederländische Wikipedia). Weiter verkompliziert wird das durch die Tatsache, dass bei Motorradrennen bis in die 1980er Jahre hauptsächlich Privatfahrer am Start waren, die zum Großteil auch nur ausgewählte Rennen fuhren und nicht die ganze Saison. Insbesondere bei den Rennen auf der britischen Insel hat man mit diesem Problem zu kämpfen.

Übrig bleiben die üblichen Probleme der Dateninkonsistenz: Heißt der Typ nun Bill oder William? Dick oder Richard? Sid oder Syd? Ist B. Smith nun der gleiche wie Bernard Smith aus dem entsprechenden Rennen der anderen Kategorie? Ist der Fahrer bei dem Rennen nun ausgeschieden oder doch 23. geworden? War das ein dnq (did not qualify) oder doch ein dns (did not start)? Teilweise war bei den Ergebnissen auch einfach nur ein großes Fragezeichen eingetragen, was alles heißen kann von „hat nicht teilgenommen“ über „hat sich nicht qualifiziert“ und „kam nicht ins Ziel“ bis zu „kam irgendwo weiter hinten ins Ziel“ – in einem Fall hatte ein solcher Fahrer ein Fragezeichen beim Ergebnis, aber die schnellste Rennrunde gefahren.

Dann gibts noch Japaner, Tschechen und sonstige Personen mit komischen Sonderzeichen im Namen, die nicht immer einheitlich vorhanden sind, oder schon die Frage, ob es nun Jean-Pierre oder Jean Pierre heißen muss. Wieder andere Fahrer traten nur unter Pseudoym an, da ist man dann auch nicht schlauer. Sehr speziell ist der Fall von Michael Duff, denn da fand 20 Jahre nach der Rennfahrerkarriere eine geschlechtsangleichende Operation statt, so dass sie seitdem als Michelle Duff lebt – und einige Ergebnislisten haben diesen Namenswechsel übernommen. Das einzige, worüber ich zumindest nicht wissentlich gestolpert bin sind doppelte Namen, also zwei unterschiedliche Rennfahrer mit dem gleichen Namen.

Feld-, Wald-, Wiesen- und Weltmeister

Auf der Basis dieser ganzen gesammelten Daten wurden nun auch noch Fahrerstatistiken erstellt. Neben den eigentlichen Rennergebnissen gibts ja am Jahresende dann auch immer noch sowas wie Weltmeistertitel. Üblicherweise gibts für gute Platzierungen Punkte, und wer am Jahresende die meisten Punkte hat darf sich einen WM-Titel ins Leistungsheft schreiben. Allerdings ist es ja nun so, dass die Punkteverteilung sich über die Jahre mehrfach und teils drastisch veränderte. Das heißt die erreichten Punktzahlen sind überhaupt nicht miteinander vergleichbar, deswegen werden sie auch einfach komplett ignoriert. Und so komische Zufälle, dass einer mal mit nur einem oder zwei Saisonsiegen Weltmeister wurde, weil die anderen zwar mehr gewannen, aber eben auch mehr ausfielen… das gehört eben zur Geschichte mit dazu.

Insgesamt ergeben sich damit folgende Zahlen (Anzahl der Fahrer je Kategorie, die die jeweiligen Ergebnisse mindestens einmal erreicht haben):

KategorieSiegerPolesetterschnellste RennrundePodium
Formel 1108100133209
50cc30132872
80cc1051018
125cc13391153265
250cc14098149254
350cc663073163
500cc9062102222
Moto337374755
Moto237424560
MotoGP24313446
Gesamt6755097741364

Insgesamt wurden Einträge für 7600 Fahrer aggregiert, wobei da natürlich eine gewisse Unschärfe aufgrund der oben genannten Dateninkonsistenz unvermeidlich ist. Zumindest für die tabellarisch aufgeführten Fahrerzahlen wurden aber noch die Lebensdaten und die Nationalität herausgesucht, damit man Statistiken zum Alter und zu Verteilungen über Länder erstellen kann. Da gibts auch nur zwei große Probleme, das erste ist dass man für die meisten Fahrer (grad für ältere Semester oder solche mit nur wenigen Renneinsätzen) nicht herauskriegt, wann sie das Licht der Welt erblickt haben. Und zweitens gibts nicht wenige Rennfahrer aus heute nicht mehr existenten Staaten wie Südrhodesien (damals britische Kolinie, heute Zimbabwe) oder der DDR (damals real existierender Sozialismus, heute blühende Landschaft 😉 ). Für Zwecke der Statistik habe ich die Fahrer entsprechend der damaligen Nationalität gezählt. Die Fahrer aus der DDR wurden alle zu Deutschland gezählt, weil sie teilweise auch vorm Krieg geboren waren und dann nach dem Krieg auf der einen oder anderen Seite der Mauer unterwegs waren, andere wurden noch zu Zeite der Teilung geboren und traten später im wiedervereinten Deutschland an, und dann gibts noch mindestens einen Fall, wo ein Fahrer aus der DDR ein Auslandsrennen zur Flucht nutzte und später für die Bundesrepublik antrat. Das alles auseinanderzudröseln ist ziemlich unmöglich, deswegen hab ichs lieber gleich gelassen.Überhaupt sind die ganzen politischen Wirrungen des kalten Krieges mit den Auswirkungen auf die Motorradrennen eine sehr spannende Sache – immerhin gab es jahrelang einen Großen Preis der DDR auf dem Sachsenring und die ostdeutschen MZ fuhren da vorne mit – da werd ich vermutlich mal einen eigenen Beitrag schreiben.

Dressing auf dem Zahlensalat

Um mit diesem ganzen Zahlenwust irgendwas sinnvolles anzufangen – sprich um daraus eine wie auch immer geartete Statistik zu zimmern, die dann das beweist was wir eh schon alle wussten – oder eben auch das glatte Gegenteil davon – braucht man entweder eine Horde dressierter Schimpansen (fällt aus wegen Artenschutz, außerdem haben die es nach wie vor nicht geschafft, zufällig Shakespeare zu tippen), eine Horde eifriger Chinesen (kann ich mir nicht leisten) oder man nutzt eben den spärlich vorhandenen Eigengrips. Irgendwann in grauer Vorzeit hab ich ja mal was mit Computern studiert, das war dann jetzt doch recht praktisch 😉 Der korrekte Weg wäre gewesen das alles in eine große Datenbank zu schieben und dann mit geeigneten Abfragen die richtigen Daten im gewünschten Format herauszuziehen. Da man aber viel mehr lernen kann wenn mans falsch macht, und ich beruflich grad ohnehin viel zu wenig selbst programmiere, wurde die Chance genutzt meine Kenntnisse über modernes C++ ein wenig aufzufrischen. Jaja, ich weiß, völlig falsche Sprache für diese Aufgabe, aber wer jetzt meckert soll sich selbst erstmal ein paar Monate hinsetzen und die ganzen Daten zusammensuchen, die er für seine schicke Datenbank braucht 😛 Ich hab die Ergebnisse, also hab ich per Definition erstmal recht, so.

So, und auf dieser ganzen Basis kann ich nun so ziemlich jede relevante oder irrelevante Trivialität auswerten: Welche Fahrer prägten ihre Ära wie stark? Welche arme Socke stand am meisten auf dem Podium ohne jemals zu gewinnen? Gab es einen Weltmeister, der niemals die schnellste Trainingszeit erzielte? Wie viele Fahrer, die in den 1950er Jahren auf dem Podium standen, sind heute noch am Leben? Welche Fahrer standen am meisten zusammen auf dem Podium? Welche Fahrerkombi hatte auf dem Podium den größten Altersunterschied? Welcher Fahrer hat die längste Karriere? Welcher Fahrer hat die längste Lücke in seiner Erfolgsbilanz? Fahrer aus welchem Land hatten die längste Siegesserie?

All sowas kann ich nun auswerten. Aber das werde ich nun nach und nach in den nächsten Wochen und Monaten machen. Wie eingangs erwähnt kann man aus den Statistiken alles rauslesen wenn man will – und deswegen will ich die Zahlen dann auch mit etwas Hintergrundinfo würzen. Und dann kommt man vielleicht auch bei der Frage nach dem GOAT zu einem Ergebnis – oder eben auch nicht, weil sich rausstellt dass man am Ende doch nur Äpfel und Birnen miteinander vergleichen würde.

Allerhöchstens durchschnittlich erfolgreich

Der erste grobe Blick auf den Zahlenwust dient einer groben Einordnung: Von ungefähr 7600 Fahrern, die zusammen auf über 110.000 Rennteilnahmen kommen (im Schnitt ungefähr 14.5 Teilnahmen pro Fahrer), haben weniger als 1000 nennenswerte Erfolge erzielt – wobei nennenswert jetzt heißt, dass der Fahrer mindestens einmal die Trainingsbestzeit erzielte, eine schnellste Rennrunde fuhr oder auf dem Podium stand (oder dies in beliebiger Kombination und Häufung mehrfach schaffte).

Laut den zusammengetragenen Daten errangen nur 483 Fahrer überhaupt Rennsiege (6.3% aller erfassten Fahrer). Für Pole Positions sind es 381 (entsprechend 5,0%), schnellste Rennrunden 556 (7,3%) und Podiumsplatzierungen 928 (12,2%). Dabei waren die allermeisten Fahrer nur in genau einer Kategorie jemals erfolgreich:

Anzahl KategorienSiegePole Positionsschnellste RennrundenPodiumsplätze
1343283401643
29772103164
334224293
494926
5--12

Die großen Namen in der Mehrkampfwertung sind dabei John Surtees und Mike Hailwood. Ersterer war in der zweiten Hälfte der 1950er Jahre der erfolgreichste Motorradrennfahrer in den größeren Hubraumklassen und errang in nur fünf Jahren sieben WM-Titel. Danach wechselte er auf vier Räder und gewann 1964 auch noch WM-Titel in der Formel 1 – er ist bis heute der einzige Fahrer, der auf dem Motorrad und in der Formel 1 Weltmeister wurde (und ich schätze das wird auch so bleiben). Mike „the bike“ Hailwood hingegen war Mitte der 1960er Jahre der bestimmende Mann im Motorradsport – neun WM-Titel in verschiedenen Klassen und 76 Siege sprechen eine deutliche Sprache. In der Formel 1 erzielte er immerhin zwei Podiumsplätze und eine schnellste Rennrunde.

Die restlichen Mehrfachergebnisse verteilen sich auf diverse Motorradrennfahrer, die im Lauf ihrer Karriere in verschiedenen Klassen angetreten sind. Das gilt insbesondere für die „moderne“ Ära seit den frühen 1990er Jahren, als man anfing, die kleinen Hubraumklassen als Nachwuchsserien zu konzipieren und die Fahrer sich dann nach und nach in höhere Klassen hocharbeiten konnten, um schließlich bei den 500ern bzw. in der MotoGP gegeneinander anzutreten. Hinzu kommen noch die Klassenveränderungen aufgrund der Umstellungen von Zweitakt- auf Viertaktmotoren und die einhergehende Umfirmierung von 125cc zu Moto3, 250cc zu Moto2 und 500cc zu MotoGP – allein dadurch haben einige Fahrer Erfolge in verschiedenen Kategorien erzielen können, weil sie eben grad davon betroffen waren. Man sieht – schon hier muss man sich genauer mit den Zahlen auseinandersetzen.

So viel für diesen Beitrag, beim nächsten Mal gibts dann was zum Ländermehrkampf und vielleicht auch ein paar bunte Diagramme, damit die Zahlenwüste nicht so staubtrocken daherkommt 🙂

2 Kommentare zu “Allerfeinster Zahlensalat”

  1. CWeasel

    Interessanter Prolog und toller Link (zu f1metrics).

    Gibt Deine Datensammlung auch her, welche Fahrer gleiches Material (oder zumindest gleiche Motoren) hatten? Dann wäre mal wissenswert, welcher Fahrer seine (Team-)Kollegen am weitesten abgehängt hat.

  2. Uwe

    Nope, das gibt die Zahlenbasis nicht her, und kann man auch schlecht nachtragen. Für die F1 gibts die Auswertungen ja schon bei f1metrics, bei Motorradrennen kann man sowas eigentlich erst ab ca 1980 machen, als sich die heutigen Teamstrukturen mit zwei Fahrern pro Team überhaupt erst herausbildeten. Die allermeisten Fahrer waren aber als Privatfahrer unterwegs, die die Maschinen ganz normal vom Werk kauften, und dann gabs direkte Werksmannschafte der jeweiligen Hersteller, die aber teilweise auch nur einen Fahrer je Klasse betreuten. Vergleiche zu Teamkollegen kann man daher echt nur sehr schwierig treffen. Das nächste Problem ist die Tatsache dass die Rennen in den frühen Jahren viel länger waren (bis über 300 Meilen), inklusive Nachtanken. Damit sind Zeitabstände zu modernen Renen nicht vergleichbar, abgesehen davon dass sie in einigen Fällen gar nicht in den Ergebnissen auftauchen und stattdessen das Durchschnittstempo angegeben ist. Und selbst wenn die Abstände existieren, in vielen Fällen gewann ein Giacomo Agostini mit über einer Runde Vorsprung, da gibts dann auch keine Zeiten – ist eine Runde nun mehr Abstand als die 8 Minuten Vorsprung eines Mike Hailwood auf dem 60km-Kurs der Isle Of Man?

Einen Kommentar schreiben