Murphy è vivo e lotta con noi
(Avvertenza: se non sei un sysadmin, lascia perdere…)
Server DC e Exchange, RAID 5. Un disco RAID rotto dopo la mia ultima visita, nessuno se ne è accorto. Temporale scorsa settimana. Errori vari su eventlog, server funzionante ma partizione invisibile da gestione disco (????). Exchange (16 giga di posta) fermo. Mentre succede io sono a Milano, il server è a Genova e deve intervenire una persona reperibile. Errori sullo store, non recuperabili. Ripristino backup (cassetta Mercoledì, tenetelo a mente) non funziona: dati salvati buoni ma che non vengono ripristinati correttamente causa errori di disco suddetti (e sono 16 giga, 2 ore solo per tentare). Passano due giorni (posta ferma) in attesa che IBM sostituisca il disco rotto. Arrivo quindi dal cliente. Provo a ripristinare il backup (sempre nastro Mercoledì, che funziona), continua a non scrivere su disco correttamente. Perdo ore a tentare di riparare i db. Nulla da fare, un database da 16 giga non montato perché, oltre agli errori sulla partizione, manca un file log da 5 mega (sigh). Passo la notte insonne a googolare possibili soluzioni. Si decide di tentare un disaster recovery, ma non esiste full backup, va fatto adesso, prima di formattare il server. E’ l’unico DC, quindi decido di affiancarne un’altro, almeno per mettere al sicuro AD. Riesumo un vecchio Dell Poweredge, ci metto un HD nuovo e installo 2000 server. Dcpromo, repliche, ecc ecc ecc. Torno al server in panne, compro un disco esterno da 160 e faccio il full backup, compreso il system state. Non backuppo il db di posta perché tanto ho i nastri (ah ah ah ah!!!). Il backup a 4 giga si ferma. Mi sono dimenticato di convertire la partizione del disco USB a NTFS (su FAT32 no file > 4 giga). Converto e ricomincio da capo. Al termine devo rifare il backup di alcuni files saltati perché bloccati dall’SMTP ancora funzionante.
Mi basta un’installazione minimale di 2000 server, è sufficiente che giri ntbackup. Purtroppo i drivers del controller RAID richiedono che il s.o. sia installato tramite la IBM ServerGuide, processo lento anche se rigoroso. Al momento di creare la partizione, mi sembra che qualcosa non quadri, ma ho fretta, sono “cotto”, e il cliente preme, quindi procedo. Errore di creazione della partizione.
Mi accorgo che un deficiente (io, certo) ha lasciato collegato il disco esterno alla porta USB. Il ServerGuide ha cancellato dal disco la partizione con il full backup.
Cancellata.
Vuota.
Naturalmente il ServerGuide ha voluto per forza aggiornare il firmware del controller RAID, e mi ha costretto a ricreare il volume, cancellando tutto ciò che c’era, quindi non posso ritornare indietro e rifare il backup. Semplicemente i dati, tutti, non esistono più. Naturalmente l’interfaccia non ti avverte di quale disco sta cancellando la partizione.
Vorrei morire.
Dopo una serie di peripezie (FTP non funzionanti, firewall bloccati, ecc ecc), recupero da un collega(*) “Easy Recovery Professional” che mi fa recuperare i 7 giga del full backup, per fortuna (????). Il file finisce sul mio portatile (mezz’ora), da cui lo trasferisco via rete al server (mezz’ora). Ripristino il sistema (mezz’ora), e mi stupisco moltissimo che la cosa funzioni. Il server è andato su bene, AD funziona e replica. Manca solo l’ultimo passo, recuperare il db da nastro. Inserisco il nastro Mercoledì (quello che ha sempre funzionato), il catalogo deve essere ricostruito. Ntbackup si legge tutto il nastro (40 minuti) e poi se ne esce con: “Errore di periferica di backup”. Aggiorno il driver del DAT, riavvio e riprovo (altri 40 minuti). “Errore di periferica di backup”. Provo (40 minuti) con il nastro Martedì, che invece funziona. Solo che l’ultimo Martedì è ferragosto, il 14 e il 15 nessuno ha cambiato il nastro. Morale: db dell’8 Agosto. Finalmente monto gli store, che vanno su senza problemi. Non funziona il servizio di trasferimento messaggi, devo recuperare il secondo backup che avevo fatto per i file bloccati. Così finalmente riparte tutto. Aggiorno i drivers del modem e riparte anche il fax server ed il suo connettore Exchange. Ora funziona tutto solo c’è un buco dal 9 al 19 agosto. Una delle peggiori esperienze mai avute sul lavoro. Murphy non ha tutte le responsabilità: oltre alla sfiga c’è un mix di colpe mie e incuria del cliente.
Nota: (*) Il mio collega è un santo, oltre ad essere un sistemista formidabile. E’ grazie a lui che ne sono uscito.
Nota: Il full backup non c’era per motivi lunghi a spiegarsi, in ogni caso siete autorizzati a sputarmi in un occhio. Ora comunque c’è. Tutte le settimane. Oltre a un doppio backup quotidiano su disco e nastro.