Andrea Beggi

I'm brave but I'm chicken shit.

Ripristino di un Domain Controller

A T T E N Z I O N E ! Questo post ha piu' di sei mesi. Le informazioni contenute potrebbero non essere aggiornate.

In seguito al mezzo disastro descritto qui, si è resa necessaria le reinstallazione di un Domain Controller Windows Server 2003. Per fortuna, grazie al salvataggio del System State, il dominio non è andato perduto; come al solito mi appunto le cose qui, che magari potrebbero servire anche ad altri.

Ecco la procedura che ho seguito, pianificata con l’aiuto di un collega.

  • Individuazione del disco fisico da sostituire, non ancora rotto ma segnalato in “preguasto” da S.M.A.R.T. tramite la solita utility HP di gestione del controller RAID.
SLOT SUMMARY:
Slot Num  Slot Type  Array Controllers and Host Adapters  Detected
--------  ---------   --------------------------------------------
SLOT 0    PCI        Smart Array P400i Controller
SLOT 0 Smart Array P400i Controller ERROR REPORT:
Logical drive 1 status = Ready for recovery
Port 1I, Box 1, Bay 3 ... S.M.A.R.T. predictive failure  errors have been
detected in the factory Monitor and Performance data.   SOLUTION:  Please
replace this drive when conditions permit.
  • Spostamento dei 5 ruoli FSMO dal Domain Controller all’altro server DC e mailserver Exchange; la procedura è spiegata in questo documento Microsoft.
  • Impostazione del flag Global Catalog sull’altro server.
  • Backup del solo System State tramite NT Backup nel caso qualcosa vada storto e relativo controllo del log.
  • Annotazione dell’esatta versione del sistema operativo e -importante- versione di Service Pack installata.
  • Eliminazione del flag Global Catalog sul server da reinstallare. Per entrambi i casi la procedura è banale ed è qui.
  • Arresto e disabilitazione di eventuali servizi aggiuntivi. In questo caso è stato fermato SQL Server. Ricordarsi di controllare se la macchina è un DHCP server e agire di conseguenza.
  • Lanciare “dcpromo” per demotare il server da Domain Controller e renderlo un semplice server membro. In questa fase viene richiesto di impostare la password dell’amministratore locale, poiché il database SAM viene ricreato (sui DC non c’è). Non dimenticate la password.
  • Dopo il riavvio, lanciare un backup completo tramite NT Backup di tutti i dischi più il System State. In questa occasione, a causa di 5 file danneggiati, l’operazione ha richiesto più di 10 ore. Vi consiglio di fare il backup su una share di rete e non su un nastro.
  • Andarsene a casa e tornare la mattina successiva.
  • Controllo log per assicurarsi che il backup precedente sia andato a buon fine, e annotarsi i file danneggiati.
  • Accertarsi di avere a disposizione i media e il codice di licenza necessari alla reinstallazione del server. Nella fattispecie: CD di HP SmartStart 7.70 e 2 CD Windows Server 2003 R2 32 bit  ITA con relativo Product Key.
  • Momento della verità: spegnere e sostituire il disco individuato in precedenza. Il RAID in questione era 1+0, che permette di perdere fino a un massimo di due dischi senza compromettere di dati; trattandosi di un set in striping di drive “mirrorati” i dati sono salvi solo se si rompono due dischi “giusti”. Non ho sperato neppure per un momento di essere tanto fortunato, e avevo ragione: cambiato il disco, il controller mi ha fatto una pernacchia, ma almeno non è stato necessario riconfigurarlo.
  • Forti del nuovo disco logico bello vuoto, reinstallare Windows Server 2003 senza fare alcun aggiornamento e lasciando il server in workgroup.
  • Installare anche il secondo CD di Windows Server 2003 R2 quando richiesto e applicare il Service Pack precedentemente annotato. Questi passi sono importanti: il ripristino un System State di un server con SP2 su un server SP1 non funziona: la macchina non si riavvia più, e va rifatta da capo. L’errore riportato al boot è “Impossibile avviare Windows. Errore del software. Riportare questo problema come: caricamento delle DLL di HAL necessarie. Errore HAL Rivolgersi al Servizio Supporto Tecnico per riferire questo problema.” Naturalmente mi è successo.
  • Ripristinare il backup selezionando tutto tranne i file annotati in precedenza ed elencati come danneggiati dal log. Prima di lanciare il processo, assicurarsi di aver impostato l’opzione di NT Backup “se il file esiste già, sostituisci sempre“.
  • Al termine, controllare il log in cerca di eventuali errori e riavviare il server. Probabilmente saranno necessari un paio di riavvii.
  • Se tutto è andato a buon fine, avremo un server membro del dominio, con tutti i servizi installati, le patch applicate in precedenza e la configurazione originale.
  • Lanciare un “dcpromo” per promuovere la macchina a Domain Controller e controllare i log di sistema. Nel mio caso il log di security era danneggiato e ho dovuto ricrearlo. Controllare l’eventuale DHCP server.
  • Ripristinare i 5 ruoli FSMO e il flag Global Catalog seguendo la stessa procedura riportata in precedenza.
  • Riabilitazione e riavvio dei servizi aggiuntivi. In questo caso SQL Server. Controllare che funzionino tutti e guardare i log di sistema.
  • Fare qualche test funzionale dai client per assicurarsi che tutto sia a posto.
  • Bullarsi con amici e colleghi ed andarsene a casa.

Tempo impiegato: circa un giorno e mezzo di lavoro, facendo le cose con attenzione, calma e scrupolo.

15 Commenti

ulisse31 | #

Sei il mio idolo! 😀

… peccato che ti concentri su windows… 😉

Max | #

Aggiungerei che (se non ricordo male) il ripristino del system state con strumenti diversi da NTBackup non e’ supportato e 9 su 10 non funziona.

Ma spero di sbagliarmi…

Max.

::: FABOZ ::: | #

e tutto questo ambaradan solo per non aver comprato sei ups.

ho un cliente che farà la stessa fine…voltaggio ambientale massimo sui 180V, sbalzi di tensione continui e interruzioni ambientali ormai giornaliere…con tutto ciò si ostina a non prendere i gruppi.

Cristian | #

Nella classica speranza del sistemista che si augura di non dover mai mettere mano ad una situazione così disgraziata mi stampo il post e me lo metto tra la documentazione cartacea di emergenza.
Dovrei fare anch’io dei post della serie “come uscire da una situazione di merda e riuscire a tornare a casa per cena”..

ciao Andrea 🙂
Cristian

johnstock | #

Sembra quasi una delle mie giornate lavorative che iniziano male, ma poi finiscono abbastanza bene.
Complimenti Andrea
…e al cliente è andata veramente di lusso…

Ric | #

Scusa, ma non potevi promuovere a DC un altra macchina (anche virtuale … provvisoria) brasare completamente la macchina in oggetto e poi promuoverla nuovamente a DC ? Utilizzando un paio di client (duplice copia) presenti per l’archivio dei file mantenedoli aggiornati con dei banalissimi robocopy ?

my two cents

Ciao

Andrea | #

No, non potevo: avrei perso tempo a installare una macchina in più (virtuale) e l’ambiente virtuale che non avevo. Inoltre così facendo mi sono risparmiato la reinstallazione e riconfiguazione di db e applicativi gestionali.

Lorenzo | #

Ottimo, questo post me lo segno, sperando, come ha scritto Christian, che non mi debba mai servire. 🙂

Luca | #

Ma per 5 o 6 client non era meglio buttare tutto e farli lavorare in gruppo anziché in dominio?

Michele | #

io non mi sono mai fidato di ntbackup, dopo questo post mi devo ricredere.

stefano | #

Ciao,
innanzitutto complimenti per la pazienza e il lavoro svolto. io avrei da chiederti un consiglio. in laboratorio ho un server IBM formattato, in quanto dopo un tentativo di ripristino dei dati e del system state, il server non caricava più windows e si riavviava in loop continuo. Devo premettere che il ripristino è stato eseguito da un backup di NTBackup di una macchina virtuale (che non è altro che il server in questione allo stato precedente!), ma dopo il ripristino ho riscontrato alcuni file che davano errori. adesso mi chiedo, nei prossimi giorni che riconsegno il server e dovrò ripristinare il backup, il server formattato devo comunque portarlo già al SP2?
secondo…il system state di una macchina virtuale (essendo comunque la virtualizzazione del server fisico) è diverso da quello del server fisico?
grazie anticipatamente

Andrea | #

Se non ricordo male il ripristino del s.s. va accompagnato al ripristino totale dei dischi, dei quali serve il backup completo. Il s.s. della macchina virtuale è certamente diverso da quella della fisica.