Wenn Plan B einen Plan C nötig macht

Vor ein paar Tagen starteten im Internet erste Meldungen über ein merkwürdiges Problem. Es betraf Cisco-Router und hatte eine schnell zu diagnostizierende Wirkung: Totalausfall. Die Geräte hörten einfach auf zu funktionieren. Kurz darauf gab Cisco eine Warnung heraus, dass bestimmte Produkte, auch wenn sie im Moment noch normal funktionierten, nach etwa 18 Monaten Betriebszeit ihren Dienst vorwarnungslos einstellen könnten. Mittlerweile ist auch eine Liste der betroffenen Geräte verfügbar. Damit nicht genug. Wie inzwischen klar ist, rührt der Fehler von Intel Atom Prozessoren der C-Serie her. Teile ihres Taktgebers altern schneller als üblich und führen zu den defekten Geräten. Die sind bei weitem nicht nur von Cisco. Weil der Atom Prozessor von vielen Herstellern genutzt wird, wurde er auch beispielsweise von Juniper und Synology eingesetzt. Deren Kunden sind im Moment nicht sicher, ob sie prophylaktisch Geräte austauschen, auf das Beste hoffen, oder den Hersteller verfluchen sollen.

Aufgrund der Natur der betroffenen Geräte kann es durch den Bug zu bizarren Situationen kommen. Angenommen ein Router, Switch oder VPN-Gateway mit dem betroffenen Chip ist kritisch für den Unternehmensbetrieb und wird per Hot- oder Cold-Standby redundant betrieben. Natürlich nutzt der Anwender ein zweites, identisches Produkt als Ausfallsicherung. Im Fall der Fälle muss er dann unter Umständen feststellen, dass sein Plan B nicht aufging, weil das Ersatzgerät ebenfalls defekt ist. Zeit für Plan C, den die meisten (bisher) nicht haben dürften.

Fehler passieren, das ist bei Intel nicht anders als bei anderen Firmen. Darum geht es nicht. Auch Software ist fehlerhaft, wie der (fast) regelmäßige Patch-Day von Microsoft immer wieder zeigt. Doch die Abhilfe bei einer Schwachstelle oder einem Bug ist Programmcode. Einmal hergestellt lässt er sich leicht überprüfen, verteilen und einspielen. Problem gelöst, zumindest dieses. Der Intel Atom-Bug führt zu einem funktionslosen Gerät. Im Embedded-Bereich werden Prozessoren nicht gesockelt, er kann nicht einfach getauscht werden. Das betroffene Gerät ist entweder reif für die Mülltonne oder muss in einer Fachwerkstatt zerlegt und der Prozessor mit einer Reflow-Station entlötet und ausgetauscht werden. Das bedeutet viel Aufwand für Anwender. Und für Intel und die betroffenen Händler könnten dadurch durchaus spürbare Kosten entstehen. Intels CFO sprach in einer Telefonkonferenz bezüglich der Ergebnisse für das vierte Quartal 2016 von erhöhten Ausfallraten bei einem Produkt und daraufhin gebildeten Rückstellungen.

Was kann man aus der Situation lernen? Ein solcher Fehler ist so selten, dass man keine spezifischen Ratschläge für ein Produkt oder eine Technik geben kann. Heute ist es der Router, morgen ein SSD-Controller. Ganz generell erinnert das Problem aber alle Anwender daran, dass Monokulturen Nebeneffekte haben können. In der heutigen Produktwelt sind die zwar oft unvermeidlich, aber gerade darum wäre ein Plan C wichtig. Vielleicht ist es an der Zeit, die unternehmenskritischen IT-Komponenten noch einmal auf ihre Widerstandfähigkeit abzuklopfen und Alternativen in Betracht zu ziehen.

Share on LinkedInShare on FacebookTweet about this on TwitterShare on Google+Pin on Pinterest

Kommentar absenden

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Captcha: *