PDA

View Full Version : Platten laufen am Limit



HerbertW
23-08-11, 10:20
Hallo zusammen!
Der Befehl WRKDSKSTS zeigt in der Spalte ganz rechts den %-Anteil an, in der die Platten in einem gewissen Zeitraum aktiv waren. Normalerweise liegt dieser Wert bei unseren 21 Platten vom Typ 4327 unter 10%. Es kann auch mal etwas höher gehen, wenn viel los ist.

In den letzten 3 Monaten ist es jedoch mehrmals vorgekommen, dass die Aktivität von 5-6 Platten schlagartig auf 100% ansteigt und die restlichen Platten bei 60-80% stehen. Ein entspanntes Arbeiten ist mit diesem Zustand unmöglich, weil die daraus resultierenden Antwortzeiten jenseits von Gut und Böse liegen. Ohne weiteres Zutun stabilisiert sich alles jedoch wieder nach 10-15 Minuten.

Ungewöhnliche Jobs sind nicht gelaufen, wenn die Platten am Anschlag rotieren. Normaler Dialogbetrieb mit 1 Batchprogramm, CPU 20%. Wir können die Maschine mit Batchjobs vollladen, dabei gehen die Platten nie über 20%.

Im OpsNav kann man eine Überwachung der Plattenauslastung laufen lassen. Dort gibt es den Messwert "geschriebene Blöcke". Es fällt auf, dass dieser Wert, der normal bei 5-6000 liegt, bei den 100%Platten auf über 200.000 steht.

Hat jemand von euch eine Idee woran es liegt?

andreaspr@aon.at
23-08-11, 10:54
Vielleicht ist die Cache-Batterie des Festplattenkontrollers leer.
Wenn eine Platte im RAID 5 ausfällt und keine HOTSWAP Platten vorhanden sind, müssen die Daten der kaputten Platte bei jedem Zugriff aus den Daten der anderen Platten im RAID generiert werden.

HerbertW
23-08-11, 12:17
Hallo Andreas,

eine Qsysopr-Nachricht wegen Batterie-Problem ist mir nicht aufgefallen.
Habe aber in den SSTs nachgeschaut. Dort ist die Rede von " Estimated time to warning (days) . : 560"
und
"Estimated time to error (days) . . : 651"


Ein Batterie-Problem scheint es also nicht zu sein.

Gruß
Herbert

holgerscherer
24-08-11, 23:08
Ein Batterie-Problem scheint es also nicht zu sein.



Es gibt seltene Fälle, wo der Controller spinnt, trotz ausreichender Zeit in dieser Anzeige. Prüfe mit WRKDSKSTS, F11 - dort sollte dann unter Protection status "ACTIVE" stehen, nicht "DEGRADED".

Ansonsten würde ich mit WRKSYSSTS die Fehlseitenrate der Pools anschauen, könnte auch ein Hauptspeichermangel in einem Pool sein.

-h