[NEWSboard IBMi Forum]
  1. #1
    Registriert seit
    Feb 2006
    Beiträge
    18

    Hardware-Probleme

    Wir haben seit diesem Jahr mit unserer AS400 (iSeries, ca. 8 Jahre alt, Modell-Nr. weiss ich grad nicht) vermehrt Hardware-Probleme.
    Vier Mal schon hatten wir einen Crash der zunächst einen Plattenfehler meldete, nach Austausch auch noch das CD-LAufwerk reklamierte und zuletzt musste dann noch jeweils der RAID-Controller ausgetauscht werden.
    Bei den letzten 3 Malen wurde auch jeweils eine Datei beschädigt (natürlich die grösste Archivdatei, die jede Aenderung eines Warenwirtschafts-Vorgangs protokolliert und deren Wiederherstellung viele Stunden dauert).
    Unser HW-Support-Partner ist auch ratlos.
    OS-Version ist 5.3.
    Nach dem letzten Crash haben wir aktuelle PTF's installiert, mit dem Gedanken, dass vielleicht auch irgendwelche Treiber schuld sein könnten, aber diese Woche dann wieder - päng!
    Die Maschine müsste noch 2 Jahre durchhalten, habt ihr schon ähnliches erlebt? Vor allem die Dateibeschädigung macht mir Sorgen - eigentlich dachte ich, mit RAID wäre ich davor geschützt.
    Die Situation ist jedes Mal die gleiche: die Datei kann benutzt, Datensätze angefügt werden, aber sie kann nicht gesichert werden.
    Die Wiederherstellung gestaltet sich dann so:
    ich lade die letzte intakte Sicherungsversion parallel in eine eigene Bibliothek, vergleiche dann die Anzahl Datensätze und hänge von der defekten Datei mit CPYF, Option *ADD die Datensätze ab der nächsthöheren Satznummer an die alte Datei an. Anschliessend die defekte löschen, die geflickte auf Band sichern, löschen und wieder in die richtige Bibliothek einlesen und mit RGZPFM die Indizes wieder erstellen lassen. Wegen der Grösse der Dateien muss ich zwischenzeitlich andere Bibliotheken vom System nehmen und zum Schluss wieder einlesen.
    Das Ganze dauert eine ganze Nacht lang. Da die defekte Datei während dem Tagesgeschäft zum Glück benutzt werden kann, konnte ich die Wiederherstellung bisher jeweils aufs Wochenende dirigieren.
    Aber wer garantiert mir, dass beim nächsten Mal die Datei nicht ganz unbrauchbar wird?
    Es scheint, als hätten wir nicht mehr das sichere System, auf das wir immer so vertraut haben und ich sehe keinen Ansatz, wieder zu diesem Zustand zurückzufinden.
    Gibt es Tipps?
    Schöne Grüsse, Claudia

  2. #2
    Registriert seit
    Mar 2002
    Beiträge
    5.287
    Hallo,

    hört sich für RAID5 für mich nicht ganz unplausibel an, umfallende Bits auf einer Platte führen zu Inkonsistenzen im RAID Set (inkonsistente Prüfsummen), die der Save (zum Glück) merkt und anmeckert. Die Platten scheinen auch recht gut zu sein und gehen alle ziemlich Zeitnah kaputt. Wenn man die Datei nicht partitionieren kann (Pakete nach Zeit, evt. mit einer View obendrüber) kann man entweder warten bis alle Platten aus dieser Baureihe und Alter nach Defekt ausgetauscht sind, oder vorher in neue Platten investieren, wenn man sich die Wochenende ersparen will.

    mfg

    Dieter Bender

    Zitat Zitat von Claudia Beitrag anzeigen
    Wir haben seit diesem Jahr mit unserer AS400 (iSeries, ca. 8 Jahre alt, Modell-Nr. weiss ich grad nicht) vermehrt Hardware-Probleme.
    Vier Mal schon hatten wir einen Crash der zunächst einen Plattenfehler meldete, nach Austausch auch noch das CD-LAufwerk reklamierte und zuletzt musste dann noch jeweils der RAID-Controller ausgetauscht werden.
    Bei den letzten 3 Malen wurde auch jeweils eine Datei beschädigt (natürlich die grösste Archivdatei, die jede Aenderung eines Warenwirtschafts-Vorgangs protokolliert und deren Wiederherstellung viele Stunden dauert).
    Unser HW-Support-Partner ist auch ratlos.
    OS-Version ist 5.3.
    Nach dem letzten Crash haben wir aktuelle PTF's installiert, mit dem Gedanken, dass vielleicht auch irgendwelche Treiber schuld sein könnten, aber diese Woche dann wieder - päng!
    Die Maschine müsste noch 2 Jahre durchhalten, habt ihr schon ähnliches erlebt? Vor allem die Dateibeschädigung macht mir Sorgen - eigentlich dachte ich, mit RAID wäre ich davor geschützt.
    Die Situation ist jedes Mal die gleiche: die Datei kann benutzt, Datensätze angefügt werden, aber sie kann nicht gesichert werden.
    Die Wiederherstellung gestaltet sich dann so:
    ich lade die letzte intakte Sicherungsversion parallel in eine eigene Bibliothek, vergleiche dann die Anzahl Datensätze und hänge von der defekten Datei mit CPYF, Option *ADD die Datensätze ab der nächsthöheren Satznummer an die alte Datei an. Anschliessend die defekte löschen, die geflickte auf Band sichern, löschen und wieder in die richtige Bibliothek einlesen und mit RGZPFM die Indizes wieder erstellen lassen. Wegen der Grösse der Dateien muss ich zwischenzeitlich andere Bibliotheken vom System nehmen und zum Schluss wieder einlesen.
    Das Ganze dauert eine ganze Nacht lang. Da die defekte Datei während dem Tagesgeschäft zum Glück benutzt werden kann, konnte ich die Wiederherstellung bisher jeweils aufs Wochenende dirigieren.
    Aber wer garantiert mir, dass beim nächsten Mal die Datei nicht ganz unbrauchbar wird?
    Es scheint, als hätten wir nicht mehr das sichere System, auf das wir immer so vertraut haben und ich sehe keinen Ansatz, wieder zu diesem Zustand zurückzufinden.
    Gibt es Tipps?
    Schöne Grüsse, Claudia
    AS400 Freeware
    http://www.bender-dv.de
    Mit embedded SQL in RPG auf Datenbanken von ADABAS bis XBASE zugreifen
    http://sourceforge.net/projects/appserver4rpg/

  3. #3
    Registriert seit
    Jul 2001
    Beiträge
    2.646
    Zitat Zitat von Claudia Beitrag anzeigen
    Wir haben seit diesem Jahr mit unserer AS400 (iSeries, ca. 8 Jahre alt, Modell-Nr. weiss ich grad nicht) vermehrt Hardware-Probleme.
    Ferndiagnose ist immer schwierig, ich tippe auf eine 170er mit defekter Backplane für die Platten. Auch das Kabel sollte beäugt werden. Ich muss Dieter mal wiedersprechen, die RAID5-Controller und das System merkt immer, wenn ein Bit auf schwachen Beinen steht (WRKPRB listet da jedes mal ein Ereignis auf, auch im PAL steht eine Menge dazu). Dass Objekte beschädigt werden, deutet darauf hin, dass die Kiste stehen bleibt, da hilft auch ein RAID5 mit gepuffertem Schreibache nicht viel, wenn eine Operation unterbrochen wird (ein prinzipielles Problem im OS, dass diverse Objektoperationen im MI nicht in einer Art Commit-Steuerung laufen). Ihr habt bestimmt öfter eine A6000266 gesehen?

    Wie gesagt - Ferndiagnose ist schwer, das sollte der Hardware-Supporter vor Ort geregelt kriegen.

    -h

  4. #4
    Registriert seit
    Mar 2002
    Beiträge
    5.287
    zur Hardware will ich mich nicht einmischen, da bin ich nicht mehr auf dem aktuellsten Stand.
    zu RAID 5 bin ich bei dir, dass das System die Inkonsistenz im RAID Set merkt, aber es gibt keine Information darüber welches der 2 bis 8 Bits im Raidset umgefallen ist und die Chance für das Recovery liegt dann bei 50 : 50.
    Die von dir beschriebene Schreibvariante scheint hier nicht vorzuliegen, da der Obejktdefekt ja gerade in den nicht veränderten Bereichen der Datei zu liegen scheint. Für dieses Szenario sollten die bei IBM vielleicht mal beim Reiser Filesystem Anleihe nehmen...

    D*B


    Zitat Zitat von holgerscherer Beitrag anzeigen
    Ferndiagnose ist immer schwierig, ich tippe auf eine 170er mit defekter Backplane für die Platten. Auch das Kabel sollte beäugt werden. Ich muss Dieter mal wiedersprechen, die RAID5-Controller und das System merkt immer, wenn ein Bit auf schwachen Beinen steht (WRKPRB listet da jedes mal ein Ereignis auf, auch im PAL steht eine Menge dazu). Dass Objekte beschädigt werden, deutet darauf hin, dass die Kiste stehen bleibt, da hilft auch ein RAID5 mit gepuffertem Schreibache nicht viel, wenn eine Operation unterbrochen wird (ein prinzipielles Problem im OS, dass diverse Objektoperationen im MI nicht in einer Art Commit-Steuerung laufen). Ihr habt bestimmt öfter eine A6000266 gesehen?

    Wie gesagt - Ferndiagnose ist schwer, das sollte der Hardware-Supporter vor Ort geregelt kriegen.

    -h
    AS400 Freeware
    http://www.bender-dv.de
    Mit embedded SQL in RPG auf Datenbanken von ADABAS bis XBASE zugreifen
    http://sourceforge.net/projects/appserver4rpg/

  5. #5
    Registriert seit
    Nov 2003
    Beiträge
    2.307
    Mit DSPSYSVAL QMODEL kannst du die Modellnummer eurer Maschine sehen.

  6. #6
    Registriert seit
    Mar 2003
    Beiträge
    133
    Hallo Claudia,

    zu den Hardware-Problemen kann ich eventuell eine Beurteilung liefern wenn ich folgende Informationen erhalte:

    -System-Modell
    -SRC Systemreference-Codes (WRKPRB) /STRSST (alle SRCs, die mit dem Fehler in zeitlichem Zusammenhang stehen)
    -Disk-Controller-Typ
    -Disk-Types

    Gelegentlich steckt auch Murphy im System.
    Vielleicht ist auch die Qualität der (alten) Ersatzteile nicht besonders gut.

    8 Jahre alte Autos haben auch so ihre Funktionsprobleme :-)

    Gruß

    Mida

  7. #7
    Registriert seit
    Feb 2006
    Beiträge
    18
    Zunächst ganz lieben Dank für die vielen Rückmeldungen. Mir ist klar, dass so eine "Ferndiagnose" eine eigentlich unmögliche Bitte ist und hatte nicht gehofft, auf so viel Anteilnahme zu stossen.
    Leider kann ich die Fragen, die dabei auftauchten kaum beantworten - ausser,: ja, es ist eine 170er, 9406.
    Ich war während des Hardware-Austauschs nicht persönlich vor Ort und weiss im Grunde nur, was der Service-Techniker festgestellt und unternommen hat.

    Die Fehlercodes unter WRKPRB sehen so aus:

    Angefangen hat es mit:
    SRC6321C100/CPPE461: SCSI-Fehler bei optischer Einheit OPT01

    dann:
    SRC6321C300/CPPE468: Optische Einheit OPT01 hat einen Datenträger- oder Hardwarefehler festgestellt

    dann:
    SRCB900FDC5/CPI93B0: Softwareproblemdaten für QSRRSPST protokolliert.

    Der CD-Fehler erscheint immer wieder im log, dazwischen dann die Meldung, die den Service-Techniker varanlasst hat, die Harddisk zu tauschen (erscheint nicht unter WRKPRB, nur im SYSLOG):
    CPI1161: Einheit 2 mit Einheitenparitätsschutz nicht voll betriebsbereit.
    In der Folge bekam die Disk dann offenbar den Status "FAILED", was für den Techniker hiess: als erstes die Disk austauschen.

    Disk-Typ ist 6714, 074

    Sieht für mich so aus, als sei der ursprüngliche Übeltäter das CD-Laufwerk. Denkt ihr, man hätte die Folgeprobleme vermeiden können, wenn man direkt etwas wegen des Laufwerks unternommen hätte (was?)?
    Soweit ich weiss, hängt das optische Laufwerk am gleichen Controller wie die Disks. Muss das sein? kann man das auch anders organisieren (ich habe kaum Ahnung von HW und mich bisher immer auf die Techniker verlassen, aber vielleicht entgeht denen ja auch etwas?).

    "mit defekter Backplane" - was muss ich mir darunter vorstellen? "Backplane" ist das der Kabelbaum? Oder der Rahmen, in dem die Disks montiert sind?

    Schöne Grüsse, Claudia

  8. #8
    Registriert seit
    Mar 2003
    Beiträge
    133
    Hallo Claudia,

    zu dem Fehler-Informationenn kann man erstmal nur auf Verdacht mögliche Verursacher benennen:

    - CD-ROM-SCSI-Laufwerk oder Kabel
    - Backplane (Board auf dem die Disk-Units aufgesteckt sind)
    - Disk-Adapter-Card (DC01-Controller in Slot C07)
    - eine der Disk-Units die den SCSI-Bus ärgert.


    Gruß

    Mida

  9. #9
    Registriert seit
    Apr 2001
    Beiträge
    49
    Hallo Claudia,

    wir hatten ähnliche Probleme mit defekten Dateien und diversen Plattenfehlern. Nach Austausch des CD-Laufwerks waren die Probleme verschwunden.
    Gruß
    Ottmar

  10. #10
    Registriert seit
    Jan 2008
    Beiträge
    4

    Claudia

    Hello Claudia,

    I think that the disks and cdrom are ok.
    Possible you have a power problem or the disk gage are defect.
    First to do is replace power supply in your model 170
    Kind regards, Alex Tak See T@K ITS homepage

Similar Threads

  1. KAUFE GERAUCHTE IBM-AS/400 Hardware an !!
    By Rauch in forum NEWSboard Server & Hardware Markt
    Antworten: 12
    Letzter Beitrag: 11-03-13, 18:10
  2. Hardware abzugeben
    By kai in forum NEWSboard Server & Hardware Markt
    Antworten: 4
    Letzter Beitrag: 25-05-09, 07:51
  3. Probleme mit V5R3M5
    By heini in forum IBM i Hauptforum
    Antworten: 7
    Letzter Beitrag: 12-12-06, 11:42
  4. Probleme mit BS Installation
    By v4i in forum IBM i Hauptforum
    Antworten: 2
    Letzter Beitrag: 08-11-06, 10:03
  5. IFS als Netzlaufwerk - Probleme bekannt?
    By kuempi von stein in forum IBM i Hauptforum
    Antworten: 4
    Letzter Beitrag: 19-07-06, 13:14

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • You may not post attachments
  • You may not edit your posts
  •