Inhaltsverzeichnis
Die Illusion der Langlebigkeit: Warum Server früher Probleme machen als erwartet
IT-Infrastruktur zu betreiben bedeutet ständig abzuwägen: Investitionen möglichst niedrig halten oder den Geschäftsbetrieb ohne Unterbrechung sichern. Abschreibungsregeln und Herstellerangaben suggerieren oft einen Lebenszyklus von sieben bis zehn Jahren.
Die Praxis sieht jedoch anders aus: „Papierersparnisse“ führen regelmäßig zu Ausfällen, Chaos und hohen Folgekosten. Ein Blick auf dokumentierte Vorfälle zeigt, wie teuer gealterte oder schlecht gewartete Systeme werden können:
-
Luftfahrt (Delta Airlines, 2016):
Ein defektes Schaltmodul legte sowohl das Haupt- als auch das redundante Datacenter lahm. Resultat: rund 2.300 gestrichene Flüge innerhalb von drei Tagen. Der Schaden lag bei 150 Mio. USD – weit mehr als die Modernisierung der gesamten Stromversorgung gekostet hätte. -
Bankensektor (DBS Bank, 2021):
Singapurs größte Bank erlebte zwei Tage Ausfallzeit aufgrund eines Fehlers in den Zugriffsmechanismen alternder Server. Die Reputation nahm Schaden, und die Aufsichtsbehörde verpflichtete das Institut, zusätzliche Kapitalpuffer bereitzuhalten. -
Technologiebranche (GitLab, 2017):
Eine versehentlich gelöschte Produktionsdatenbank führte ans Licht, dass keine der fünf Backup-Ebenen funktionierte. Ursache war kein Hardwaredefekt, sondern Versionskonflikte, Fehlkonfigurationen und fehlende Restore-Tests. Ergebnis: sechs Stunden Ausfallzeit für Hunderttausende Entwickler.
Dies wirft eine naheliegende Frage auf: Wenn Hersteller eine Lebensdauer von zehn Jahren versprechen – warum häufen sich dann die Probleme bereits nach der Hälfte der Zeit?
Die Antwort: Weil ein grundlegender Unterschied besteht zwischen „lässt sich anschalten“ und „arbeitet zuverlässig“. Ein Server kann zwar laufen und dennoch längst nicht mehr sicher, stabil oder effizient sein. Dieser Unterschied wird in Budgetplanungen oft ignoriert, bis die Kosten plötzlich explodieren.
Die MTBF-Falle: Was technische Datenblätter verschweigen
TCO-Modelle zeigen klar: Ab dem vierten oder fünften Jahr steigen Wartungsaufwand und Ausfallrisiko exponentiell. Alte Server weiterzubetreiben ist irgendwann kein technisches Risiko mehr, sondern ein finanzieller Fehler.
Viele IT-Teams verlassen sich jedoch blind auf Kennzahlen aus Datenblättern – und interpretieren sie falsch.
Der größte Irrtum: MTBF (Mean Time Between Failures) wird oft als garantierte Lebensdauer verstanden. Millionen Betriebsstunden sind aber ein statistischer Durchschnitt über große Stückzahlen und keine Aussage über die Haltbarkeit eines einzelnen Geräts.
Aktuelle Analysen (z. B. Backblaze) zeigen sogar einen paradoxen Trend: Moderne HDDs halten im Schnitt länger und zeigen eine Ausfallspitze erst um die zehn Jahre. Das wirkt beruhigend, führt aber in zwei Fallen:
-
Es entsteht ein „Unsicherheitsplateau“: ein Laufwerk kann jederzeit ausfallen – ohne Vorwarnung.
-
Bis ein Laufwerk physisch stirbt, ist es technologisch längst veraltet: langsamer, ineffizienter, stromhungriger.
Auch ohne Defekte altern Komponenten schlicht durch Physik und Chemie.
– Elektrolytkondensatoren trocknen durch Hitze aus.
– In Prozessoren wandern Metallatome (Elektromigration).
– SSDs erreichen abrupt ihr TBW-Limit und fallen in den Read-Only-Modus.
– BBU-Akkus altern chemisch, selbst ungenutzt.
Die gefährlichste Form der Alterung ist die stille Degradation.
Mikrorisse in Lötpunkten entstehen dabei über Jahre durch thermische Belastung – besonders unter CPU-Sockeln. Die Folge: sporadische, kaum erklärbare Fehler. Das System läuft zwar noch, ist aber nicht mehr vertrauenswürdig, wie eine Art „Zombie-Server“.
Übersicht: Lebensdauer und Risiken von Komponenten
|
Komponente |
Herstellerangabe |
Praxislebensdauer |
Hauptprobleme |
Folgen |
|
HDDs |
1,5–2,5 Mio. h MTBF |
3–5 Jahre |
Steigende AFR, Lagerabnutzung, Vibration |
Hohes Risiko von Datenverlust, langsame RAID-Rebuilds |
|
SSDs |
TBW/DWPD |
2–4 Jahre |
Hohe Schreiblast, Read-Only-Modus |
Kritische Ausfälle von Logs/DBs |
|
Netzteile |
7–10 Jahre |
4–5 Jahre |
Kondensatoralterung, Staub, Spannungsspitzen |
Hohe Gefahr plötzlicher Ausfälle |
|
Lüfter |
60.000–70.000 h |
3–5 Jahre |
Lagerdefekte, Vibration |
Überhitzung der CPU |
|
Mainboard |
hohe MTBF |
5–6 Jahre |
Mikrorisse, Elektromigration |
Schwer diagnostizierbare Fehler |
|
RAID-BBU |
3–5 Jahre |
2–3 Jahre |
Kapazitätsverlust |
RAID-Caches fallen zurück – Faktor 5–10 langsamer |
Umfeldfaktoren: Warum Rechenzentrumsarchitektur Hardware zerstört
Lebensdauer ist keine reine Produkteigenschaft eines einzelnen Geräts, sondern das Umfeld entscheidet.
Temperatur ist der offensichtlichste „Killer“: HDDs haben ein optimales Band von 20–40 °C.
Temperaturen von über 45 °C beschleunigen die Alterung dagegen massiv, und unter 20 °C wird das Spindelöl zäh – ein Risiko für mechanische Schäden.
Doch der unsichtbare Feind ist Vibration. In dichten Gehäusen erzeugen Lüfter und Nachbarlaufwerke Mikroschwingungen, die Lesezeiten verdoppeln können. Systeme wirken dann „träge“, obwohl das Monitoring keinerlei Warnungen zeigt.
Auch die Auswirkungen von Staub und Feuchtigkeit werden oft unterschätzt. Feiner Staub wird leitfähig, sobald er Feuchtigkeit bindet. Das führt zu Kriechströmen, Fehlmessungen und im schlimmsten Fall zu Kurzschlüssen.
Versteckte Kosten verlängerter Nutzungsdauer
Für CFOs wirkt ein abgeschriebener Server wie ein „kostenloses“ Asset:. In Wahrheit ist er teuer im Unterhalt – oft teurer als ein neues System.
Unter anderem, weil:
– redundante Laufwerke oft gleichzeitig ausfallen, da sie gleich alt sind
– Supportverträge nach der Garantie unverhältnismäßig teuer werden
– Reparaturen neue Defekte auslösen können („Hardware-Dominoeffekt“)
– alte Server viel Strom verbrauchen, aber wenig Leistung liefern
Ein alter Server ist ein Energieverschwender. Rechnet man Stromkosten und oft auch Lizenzkosten pro Kern ein, zahlt man überproportional viel für extrem wenig Output. Zwei alte Racks durch ein modernes zu ersetzen, amortisiert sich jedoch oft in bereits18–24 Monaten allein durch Energieeinsparungen.
Fazit
Sich allein auf eine Herstellerangabe von zehn Jahren zu verlassen, ist grob fahrlässig. Ein Server lebt nicht nach Kalender, sondern nach Belastung, Umgebung und wirtschaftlicher Realisierbarkeit.
Praktische Empfehlungen:
– Erneuerungszyklus: Kritische Systeme alle 4–5 Jahre ersetzen – auch wenn sie „noch laufen“.
– Datenstrategie: Langlebigkeit ≠ Zuverlässigkeit. Ausfälle können jederzeit kommen, lange vor dem „Hardwaretod“.
– Umgebungsmanagement: Temperatur strikt im optimalen Bereich halten, Vibration minimieren.
– Predictive Maintenance: Lüfter, BBUs etc. alle 3 Jahre tauschen.
– Ausfallkosten einpreisen: Ein Stunde Downtime kann teurer sein als ein kompletter Serverrefresh.
Server sind keine „Immobilien“. Heute zählen die Workloads und Daten – nicht das Blech drumherum. Ein weiteres Jahr aus überalterter Hardware herauszuquetschen ist daher keine Einsparung, sondern eine Wette mit schlechten Quoten: Man riskiert das gesamte Geschäft, um ein einzelnes Gerät nicht auszutauschen.