Alta disponibilità Elevada disponibilidade Haute disponibilité Alta disponibilidad High-Availability

Einführung in die Funktionssicherheit

Welches auch der Dienst ist, der von einem Datenverarbeitungssystem geleistet wird, ist es wesentlich, dass die Benutzer Vertrauen in sein Funktionieren haben, um es unter guten Bedingungen benutzen zu können. Der Begriff« Funktionssicherheit  » charakterisiert das Vertrauensniveau eines Datenverarbeitungssystems.

Ein Ausfall entspricht einer Störung des Dienstes, das heißt ein anormaler Funktionszustand, oder genauer gesagt, der nicht konform ist zu den Spezifizierungen. Aus Sicht des Benutzers, besitzt ein Dienst zwei Zustände :

  • Ein angebrachter Dienst, das heißt der den Erwartungen entspricht ;
  • Ein unangebrachter Dienst, das heißt der die Erwartungen nicht erfüllt.

Ein Ausfall entsteht aus einem Fehler, das heißt aus einer lokalen Störung. Alle Fehler jedoch führen nicht unbedingt zu einem Ausfall des Dienstes.

Es gibt mehrere Mittel die Ausfälle eines Dienstes zu begrenzen :

  • Die Fehlervorsorge die darin besteht Fehler durch Vorbeuge zu vermeiden.
  • Die Fehlertoleranz dessen Zielsetzung es ist, trotz der Fehler einen den Spezifikationen konformen Dienst zu leisten, indem eine Redundanz eingeführt wird.
  • DieFehlervermeidung die darauf abzielt die Anzahl der Fehler durch behebende Aktionen zu reduzieren.
  • Die Fehler-Voraussicht wobei die Fehler und ihre Auswirkung auf den Dienst vorausgesehen werden.

Einführung in die Hochverfügbarkeit

Man bezeichnet als « Hochverfügbarkeit » (auf Englisch « high availability  ») alle Maßnahmen die darauf abzielen die Verfügbarkeit eines Dienstes zu garantieren, das heißt die korrekte Funktionsweise eines Dienstes rund um die Uhr sicherzustellen.

Der Begriff « Verfügbarkeit  » bezeichnet die Wahrscheinlichkeit mit der sich ein Dienst zu einem bestimmten Zeitpunkt in einem guten Funktionszustand befindet.

Der Begriff « Zuverlässigkeit  », ebenfalls manchmal verwendet, bezeichnet die Wahrscheinlichkeit mit der ein System über einen bestimmten Zeitraum normal funktioniert. Man spricht so von «  Dienstkontinuität ».

Die Verfügbarkeit wird meist in Form von einer Verfügbarkeitsrateausgedrückt, als Prozentsatz der Verfügbarkeitszeit im Vergleich zur Gesamtzeit. Folgende Tabelle stellt die Zeit der Nicht-Verfügbarkeit dar (auf Englisch downtime ), auf der Basis von einem Jahr (365 Tage) je nach Verfügbarkeitsrate :

Verfügbarkeitsrate Dauer der Nicht-Verfügbarkeit
97% 11 Tage
98% 7 Tage
99% 3 Tage und 15 Stunden
99,9% 8 Stunden und 48 Minuten
99,99% 53 Minuten
99,999% 5 Minuten
99,9999% 32 Sekunden

Risiko-Einschätzung

Die Panne eines Datenverarbeitungssystems kann in der Tat einen Verlust an Produktivität und Geld mit sich ziehen, wenn nicht sogar materielle und personale Verluste in manchen kritischen Fällen. Darum ist es wichtig, die Risiken einzuschätzen, die mit einem Störfall (Fehler) einer der Komponenten des Informationssystems einhergehen und die Mittel und Maßnahmen vorzusehen, mit denen Zwischenfälle vermieden werden können, oder in akzeptabler Frist eine Wiederherstellung erfolgen kann.

Wie jeder weiß sind die Pannen-Risiken eines vernetzten Datenverarbeitungssystems zahlreich. Der Ursprung der Fehler kann auf folgende Weise schematisiert werden :

  • Physischer Ursprung: Sie können natürlicher, oder krimineller Natur sein :
    • Naturkatastrophen (Überschwemmung, Erdbeben, Brand)
    • Umgebung (Unwetter, Luftfeuchtigkeit, Temperatur) ;
    • Materialpanne ;
    • Netzwerkpanne ;
    • Stromausfall.
  • Menschlicher Ursprung: Sie können gewollt oder ungewollt sein :
    • Konzipierungsfehler (Software-Bug, falsche Netzwerkdimensionierung) ;
  • Menschlicher Ursprung: Sie können gewollt oder ungewollt sein :
    • Konzipierungsfehler (Software-Bug, falsche Netzwerkdimensionierung) ;
  • Operationeller Ursprung: Sie können mit dem Zustand des Systems zu einem bestimmten Zeitpunkt zusammenhängen :
    • Software-Bug  ;
    • Störung der Software ;

Alle diese Risiken können verschiedene Gründe haben, wie zum Beispiel die folgenden :

  • Böswillige Absicht.

Pannentoleranz

Da es unmöglich ist Panne vollständig zu verhindern, besteht eine Lösung darin Redundanz-Mechanismen einzusetzen, in dem die kritischen Ressourcen kopiert werden.

Die Kapazität eines Systems trotz des Ausfalls einer seiner Komponenten zu funktionieren, wird Pannentoleranz (manchmal auch Fehlertoleranz », auf Englisch fault tolerance) genannt.

Wenn eine der Ressourcen ausfällt, so übernehmen die anderen Ressourcen deren Aufgabe, um so den Systemadministratoren Zeit zu lassen, den Schaden zu beheben. Im Englischen wird hierfür der Begriff« Fail-Over Service » ( FOSgeschrieben) benutzt.

Im Falle einer Materialpanne sollten die verantwortlichen Material-Teile idealer Weise« in Betrieb auswechselbar » (auf Englisch « hot swappablesein, das heißt ohne Unterbrechung des Dienstes herausnehmbar und auswechselbar sein.

Das Backup

Die Einführung einer Redundanten Architektur jedoch ermöglicht es nur die Verfügbarkeit der Daten eines Systems sicherzustellen, sie erlaubt allerdings nicht die Daten gegen Handhabungsfehler der Benutzer oder gegen Naturkatastrophen wie einen Brandfall, eine Überschwemmung oder ein Erdbeben zu schützen.

Es ist daher notwendig Back-up-Mechanismen, idealerweise auf entfernten Websites, vorzusehen, um so die Dauerhaftigkeit der Daten garantieren zu können.

Ein Back-up-Mechanismus ermöglicht es außerdem eine Archivfunktion sicherzustellen, das heißt die Daten in einem Zustand zu erhalten, der einem bestimmten Datum entspricht.

Letzte Änderung am Mittwoch 1 April 2009 à 14:16:20.Das Dokument mit dem titel « Verfügbarkeit » aus Kioskea (de.kioskea.net) zur verfügung gestellt wird unter den bedingungen der Creative Commons lizenz. Können Sie ändern, Kopien dieser Seite, unter den Bedingungen der Lizenz, als diese Bewertung deutlich.