In seguito al mezzo disastro descritto qui, si è resa necessaria le reinstallazione di un Domain Controller Windows Server 2003. Per fortuna, grazie al salvataggio del System State, il dominio non è andato perduto; come al solito mi appunto le cose qui, che magari potrebbero servire anche ad altri.

Ecco la procedura che ho seguito, pianificata con l’aiuto di un collega.

  • Individuazione del disco fisico da sostituire, non ancora rotto ma segnalato in “preguasto” da S.M.A.R.T. tramite la solita utility HP di gestione del controller RAID.
SLOT SUMMARY:
Slot Num  Slot Type  Array Controllers and Host Adapters  Detected
--------  ---------   --------------------------------------------
SLOT 0    PCI        Smart Array P400i Controller
SLOT 0 Smart Array P400i Controller ERROR REPORT:
Logical drive 1 status = Ready for recovery
Port 1I, Box 1, Bay 3 ... S.M.A.R.T. predictive failure  errors have been
detected in the factory Monitor and Performance data.   SOLUTION:  Please
replace this drive when conditions permit.
  • Spostamento dei 5 ruoli FSMO dal Domain Controller all’altro server DC e mailserver Exchange; la procedura è spiegata in questo documento Microsoft.
  • Impostazione del flag Global Catalog sull’altro server.
  • Backup del solo System State tramite NT Backup nel caso qualcosa vada storto e relativo controllo del log.
  • Annotazione dell’esatta versione del sistema operativo e -importante- versione di Service Pack installata.
  • Eliminazione del flag Global Catalog sul server da reinstallare. Per entrambi i casi la procedura è banale ed è qui.
  • Arresto e disabilitazione di eventuali servizi aggiuntivi. In questo caso è stato fermato SQL Server. Ricordarsi di controllare se la macchina è un DHCP server e agire di conseguenza.
  • Lanciare “dcpromo” per demotare il server da Domain Controller e renderlo un semplice server membro. In questa fase viene richiesto di impostare la password dell’amministratore locale, poiché il database SAM viene ricreato (sui DC non c’è). Non dimenticate la password.
  • Dopo il riavvio, lanciare un backup completo tramite NT Backup di tutti i dischi più il System State. In questa occasione, a causa di 5 file danneggiati, l’operazione ha richiesto più di 10 ore. Vi consiglio di fare il backup su una share di rete e non su un nastro.
  • Andarsene a casa e tornare la mattina successiva.
  • Controllo log per assicurarsi che il backup precedente sia andato a buon fine, e annotarsi i file danneggiati.
  • Accertarsi di avere a disposizione i media e il codice di licenza necessari alla reinstallazione del server. Nella fattispecie: CD di HP SmartStart 7.70 e 2 CD Windows Server 2003 R2 32 bit  ITA con relativo Product Key.
  • Momento della verità: spegnere e sostituire il disco individuato in precedenza. Il RAID in questione era 1+0, che permette di perdere fino a un massimo di due dischi senza compromettere di dati; trattandosi di un set in striping di drive “mirrorati” i dati sono salvi solo se si rompono due dischi “giusti”. Non ho sperato neppure per un momento di essere tanto fortunato, e avevo ragione: cambiato il disco, il controller mi ha fatto una pernacchia, ma almeno non è stato necessario riconfigurarlo.
  • Forti del nuovo disco logico bello vuoto, reinstallare Windows Server 2003 senza fare alcun aggiornamento e lasciando il server in workgroup.
  • Installare anche il secondo CD di Windows Server 2003 R2 quando richiesto e applicare il Service Pack precedentemente annotato. Questi passi sono importanti: il ripristino un System State di un server con SP2 su un server SP1 non funziona: la macchina non si riavvia più, e va rifatta da capo. L’errore riportato al boot è “Impossibile avviare Windows. Errore del software. Riportare questo problema come: caricamento delle DLL di HAL necessarie. Errore HAL Rivolgersi al Servizio Supporto Tecnico per riferire questo problema.” Naturalmente mi è successo.
  • Ripristinare il backup selezionando tutto tranne i file annotati in precedenza ed elencati come danneggiati dal log. Prima di lanciare il processo, assicurarsi di aver impostato l’opzione di NT Backup “se il file esiste già, sostituisci sempre“.
  • Al termine, controllare il log in cerca di eventuali errori e riavviare il server. Probabilmente saranno necessari un paio di riavvii.
  • Se tutto è andato a buon fine, avremo un server membro del dominio, con tutti i servizi installati, le patch applicate in precedenza e la configurazione originale.
  • Lanciare un “dcpromo” per promuovere la macchina a Domain Controller e controllare i log di sistema. Nel mio caso il log di security era danneggiato e ho dovuto ricrearlo. Controllare l’eventuale DHCP server.
  • Ripristinare i 5 ruoli FSMO e il flag Global Catalog seguendo la stessa procedura riportata in precedenza.
  • Riabilitazione e riavvio dei servizi aggiuntivi. In questo caso SQL Server. Controllare che funzionino tutti e guardare i log di sistema.
  • Fare qualche test funzionale dai client per assicurarsi che tutto sia a posto.
  • Bullarsi con amici e colleghi ed andarsene a casa.

Tempo impiegato: circa un giorno e mezzo di lavoro, facendo le cose con attenzione, calma e scrupolo.

Tags: , , , , ,

Related posts