Andrea Beggi

Prima o poi i sistemisti erediteranno la terra. Io avrò cambiato mestiere il giorno prima.

Lo sventurato rispose

A T T E N Z I O N E ! Questo post ha piu' di sei mesi. Le informazioni contenute potrebbero non essere aggiornate.

Post chilometrico, abbiate pazienza. Se siete sistemisti apprezzerete meglio le sfumature, per gli altri: accozzaglia di sfighe varie ed eventuali.

Sabato mattina, ore 10. Dormo della grossa, la sera prima ho fatto le 2:30. Squilla il mio cellulare e rispondo senza prestare troppa attenzione: “Ahhh server! Server! Il server non si accende, non funziona nulla! Martedì dobbiamo consegnare le dichiarazioni, ieri abbiamo lavorato fino all’una! Ahhh vieni subito!” Trattasi di mio cliente storico (ecco perché ha il mio cellulare), studio di commercialisti”. Balbetto qualcosa tipo “Vi richiamo.” e tento di svegliarmi.

Sono solo con Bibi, Nives lavora. La nostra reperibilità è solo per interventi remoti sui server nostri e dei clienti in housing o hosting presso la nostra sala macchine; di interventi non ne facciamo, e comunque il cliente non ha neppure un contratto che lo preveda, quindi è inutile che io chiami il mio collega di turno questo fine settimana.

Diviso tra il diavoletto (“Spegni il cellulare! Fregatene! Non sei tenuto a andare oggi! Hai sonno e inoltre vuoi stare con Bibi.”) e l’angioletto (“Li conosci da tanto tempo. Sono veramente nei casini. Rischiano di rimetterci una barca di soldi. Pensa se fossi tu al loro posto. E poi lo sai che i sensi di colpa ti annienterebbero.”), decido di accumulare altro Karma positivo, e scelgo di andare. Che poi se scopro che ‘sta cosa del Karma è una stronzata… qualcuno ne dovrà rendere conto. Non so bene chi, ma qualcuno da prendere a calci nel sedere lo trovo.

Mi lavo, convinco Bibi a lavarsi, mi vesto, vesto Bibi, convinco Ginger che no, anche se è sabato non può uscire con noi, prendo la macchina e vado verso il centro sperando che sia una roba tipo un floppy dimenticato nel drive o comunque una stronzata: prima avevo troppo sonno per suggerire soluzioni. Nel frattempo avverto il mio capo: va bene il Karma, ma almeno l’azienda sappia che vado a lavorare.

Dopo un caffè per schiarirmi le idee, salgo dal cliente. Affido Bibi a due volenterose impiegate, e capisco subito che sarà una lunga giornata. Tanto per darmi il benvenuto, il controller IBM ServeRaid 5i mi dice: “Logical Unit: 0”; per forza non parte: ‘sto server manco lo sa, di avere dei dischi. Maledetto. Faccio melina, tanto per scambiare due battute con il titolare, e intanto riavvio un paio di volte dopo aver staccato tutto lo staccabile. Nisba.

A questo punto faccio la Prima Mossa Del Sistemista Ninja™: dal BIOS del controller utilizzo la pratica opzione “Copia configurazione RAID dai dischi al controller”. Soddisfatto della mia sagacia, riavvio baldanzoso e la sorte sembra arridermi: uno dei tre dischi (è un server piccolo, ho dimenticato di dirvelo) è in stato DEAD, morto, kaputt, ma gli altri due fungono. “Logical Unit:1”, sia mai che…. e infatti! Il menu di avvio dell’MBR di Windows 2000 Server mi sorride dallo schermo. Premo invio per far effettivamente partire il sistema, ma…. “NTOSKRNL.EXE is missing or corrupt”. Per i non addetti, uno degli errori più temibili nonché rognosi che si possano incontrare. L’ultima cfg “sicuramente funzionante” non va, la console di ripristino neppure. Pessimismo e fastidio.

Mi armo di pazienza, rovisto dentro un po’ di scatole e trovo il CD del sistema operativo, lo caccio nel drive, e. E. Il CD non funziona. Ora che mi ricordo, lo staccai anni fa perché mandava in palla il server. Mai rimpiazzato, le poche volte che è servito ne ho condiviso uno di un client. Smonto un PC decrepito trovato in archivio, bestemmiando perché 10 anni fa HP fissava le meccaniche con 10 viti di 3 tipi diversi, e monto un vecchio CD sul server. Faccio il boot, ma so già che non servirà a nulla: il S.O. non ha i driver per il controller RAID e quindi non vede una beata fava.

Rovisto nuovamente nelle scatole, trovo il CD con i driver, trovo un floppy e ci copio i file. Torno dal mio amico, e secondo voi il floppy funge? Esatto. Torno alla carcassa nell’archivio, e altre 10 viti dopo, ritorno con una vecchia baracca di meccanica floppy che sembra più o meno funzionare. Rifaccio il boot, gli passo i driver, e finalmente vede l’unità logica. Windows 2000 Server non ha grandi tool per riparare una installazione corrotta, l’unica cosa che c’è, il recovery, non mi degna neppure di una flebile speranza: mi fa una pernacchia e mi dice di arrangiarmi nel suo simpatico technichese.

OK. E’ giunto il momento di pronunciare la parola che finora ho fatto finta di ignorare. “Ehm, come stiamo a backup?”. E qui faccio partire il flashback, che a me JJ.Abrams mi fa una pippa.

<flashback>Il giorno precedente, un collega è intervenuto in seguito ad una chiamata: “I Backup non funzionano”.  Questa azienda usa un netdisk per i backup, un disco esterno ethernet Acer Easystore da 1TB in RAID5, con un po’ di script Robocopy che fanno un backup al giorno, uno alla settimana, ed uno al mese; gli ho fatto adottare questa soluzione dopo il secondo tape rotto, e tanto non cambiavano mai le cassette. Almeno così gli arriva la mail e si accorgono se il backup ha funzionato. Improvvisamente gli script hanno smesso di funzionare; il collega venerdì mi chiama e mi dice che tutti i client raggiungono il disco, ma il server no. Pare abbia risolto riavviando il server. Per fortuna ha avuto la presenza di spirito di lanciare a mano un backup dopo che l’accesso si è ripristinato. Comunque, un po’ di salvataggi ci sono, e se siamo fortunati l’ultimo è di ieri; perderanno qualche ora di lavoro, ma pazienza: “piuttosto che nulla, meglio piuttosto”, diciamo a Genova.</flashback>

LA configurazione del NAS Acer si fa via browser, quindi come prima cosa devo rattoppare un minimo la rete, visto che il caro estinto ci elargiva i suoi servigi di DHCP e DNS. Tiro il firewall per la giacchetta e configuro lì sopra un DHCP di fortuna che distribuisca IP e passi i server di Telecom come DNS, oltre che sé stesso in qualità di gateway. Riavvio un po’ di client qua e là e tutto (tutto? cioè, partono) sembra funzionare. Scarico uno scanner di rete perché non so l’indirizzo del NAS, visto che tutta la documentazione era sul desktop del coso in coma di là, lo trovo e ci punto il browser. Voi ve la ricordate la password? Io no. Per fortuna ho la vivida impressione di aver lasciato le credenziali di default; rovisto nuovamente nelle scatole e trovo il manuale in cui cui sono indicati user e password di fabbrica. Li provo e mi faccio mentalmente i complimenti per non essere troppo paranoico quando non serve.

Comunque, guardo un po’ la configurazione e comincio a capire che la giornata non è ancora finita: questa bella scatoletta sembrava incredibilmente comoda un anno fa, quando l’avevo installata: “Hei! Che figata! Importa gli utenti da Active Directory, non devo neppure crearli!”

Che. Enorme. Fregatura.

In mancanza di Domain Controller, morto di fianco a lui, questo pezzo di scatola non ti fa accedere ai dati salvati, perché non autentica l’utente. Le credenziali di amministrazione non consentono comunque di accedere ai dati sui volumi condivisi. I dati ci sono, ma sono blindati perché io ho la chiave, pecccato che manchi la serratura. Non mi perdo d’animo, e consulto Google e le pieghe del menu di configurazione: c’è una voce che recita orgogliosa: “Change Authentication Method”, cioè passare alla gestione con utenti locali. Peccato che un avviso terroristico subito sopra avverta che utilizzando questa opzione si perderanno tutti gli “shared folder assignments”, e passi, ma anche gli “user data”. Opporcammerda!

“User data” si riferirà ai dati relativi agli account utente o ai dati che gli utenti hanno salvato sul NAS? Mistero. Personalmente propenderei per la prima potesi, ma non voglio rischiare. Facciamo il punto: tutti i dati sono su un server che non parte e i cui dischi hanno gravi problemi, i backup non sono accessibili senza fare una scommessa rischiosa. Che vita schifosa. Cinque anni di lavoro, una intera azienda, tutti i dati, tutto. Tutto a rischio di essere annientato; c’è qualche backup sparso in giro su alcuni client, ma roba vecchia e largamente incompleta, e un po’ di nastri fermi all’anno scorso. Urgono un coniglio e un cappello.

A questo punto faccio la Seconda Mossa Del Sistemista Ninja™: estraggo dallo zaino un CD di Acronis True Image Enterprise che ho casualmente trovato a terra poco prima (mica è mia, avevo giusto in previsione di portare questo CD all’ufficio oggetti smarriti. Non è mia. Io non ho la licenza di quel robo lì). Questo sopraffino pezzo di software permette di fare immagini di dischi e partizioni anche via rete o su dischi esterni, permettendo anche di scegliere i dati da includere. La versione Enterprise è sufficientemente furba da riconoscere i controller RAID più comuni di HP, IBM e altri vendor. Sbatto il CD nel drive, riaccendo il cadavere e con mia grande gioia vedo controller, dischi, partizioni, dati. Sembra ci sia tutto, peccato che alcune cartelle non siano selezionabili, pena un crash irrimediabile che porta al riavvio immediato del server. Con pazienza certosina seleziono tutto quello che posso e, assegnato un IP alla scheda di rete, tento di raggiungere un client. 🙁 Niente, nisba, non vede nessun host, non sfoglia la rete, non permette di inserire a mano l’IP dell’host di destinazione del backup. Una decina di riavvii dopo, estraggo dallo zaino un disco esterno USB da 80 GB, più che sufficienti per il salvataggio, che pesa 36 miseri giga. Lo attacco, ATIE lo vede e finalmente (dopo solo un paio di crash, ecchevvuoichessia?) il programma inizia a creare l’immagine.

So che sarà lunga, nel frattempo torno a cercare di capire cosa succederà al NAS; mentre passo in corridoio mi rendo conto che Bibi, della quale nel frattempo avevo perso le tracce, ha exploitato l’ufficio. Su quasi ogni scrivania ci sono pennarelli suoi, alcuni suoi disegni campeggiano su un monitor, e lei sta giocando a un-due-tre-stella con un paio di impegate amministrative. “Sai, papà, prima abbiamo giocato a nascondino”. Le tipe sono visibilmente provate, ma mai quanto me, quindi le lascio alla loro sorte senza il minimo rimorso.

Improvvisamente mi rendo conto che è ora di pranzo, e saltare non è un’opzione praticabile: Bibi mangia come una squadra di rugby. Devo comunque attendere l’esito dell’immagine su disco, quindi torno a liberare le due malcapitate, che mi guardano tra lo sconvolto e il riconoscente, e porto la prole affamata al più vicino self-service.

Qualche cotoletta, un po’ di patate al forno e un ghiacciolo alla menta dopo, torniamo all’ufficio da cui nel frattempo le due impiegate martiri sono sparite. Convinco Bibi a fare qualche disegno mentre aspetta Nives che sta venendo a prenderla. Acronis mi attende con buone notizie: diversi errori irreversibili di lettura, che, non visto, decido di ignorare bellamente, un errore di scrittura, che porcavacca non mi dirai che il mio HD sta andando, e per far buon peso ci tiene a farmi sapere che ne avrà per almeno altre 4 ore. Simpatico come una cacca nella federa del cuscino.

OK, è ora di reagire. Prendo il titolare, gli spiego cosa sta succedendo il più dettagliatamente possibile, gli faccio presente che non abbiamo altre opzioni poiché la partizione del server è sicuramente troppo danneggiata, e gli spiego la cosa dell’autenticazione sul NAS. Mi accerto che abbia capito il dubbio sulla cancellazione degli “user data”, e gli chiedo l’autorizzazione a procedere.

Lancio il browser, lo punto al NAS e senza indugi clicco su “Change Authentication Method”. Il coso se la prende comoda, mi dice che ci può mettere anche 10 minuti. Il titolare suda, io penso che è sabato, sono stanco, non ne ho più voglia. Qualunque cosa, pur di uscire di qui.

Finalmente il responso: i dati ci sono ancora. Più tardi scopriremo che risalgono a venerdì alle 20; poteva andare molto peggio.

Da qui in poi è solo noia e ordinaria amministrazione: rimappo i client per usare il NAS per i documenti e copio i db su un client Vista Home, frutto di una sciagurata incursione al centro commerciale. E’ l’unico che ha abbastanza spazio su disco e può stare sempre acceso, bello eh? Faccio fare due test e cerco di rappezzare le stampanti, che ormai voglio solo andare via.

Nel frattempo Nives e Bibi hanno fatto un giretto al Porto Antico, io faccio firmare un rapportino da 7 ore festive e mi fiondo a prenderle. Spero che l’intervento venga fatturato con tariffe da idraulico notturno d’urgenza.

Il cliente adesso può lavorare e presumibilmente onorerà le sue scadenze.

<flashforward>E’ martedì. Ho chiamato lo studio, lavorano, son contenti. Per festeggiare gli ho appena consigliato di comprare un altro server per fare il grosso del lavoro, e affiancarvi il vecchio dopo aver buttato un po’ di frattaglie; da RAID5 passerà al mirroring (RAID1), che tanto i ricambi costan troppo, in proporzione.</flashforward>

72 Commenti

Fabio | #

Belin Andrea… che incubo!
almeno ti fosse capitato in settimana; che palle , ragazzi.
Sei una gran brava persona, oltre che un sistemista con le palle , e questo lo sapevamo già.
Io ho una marea di clienti commercialisti, lunedì scadeva l’invio delle DR, non credo che le sanzioni per un invio ritardato siano così alte; i commercialisti (in generale, poi ci sono le eccezioni) sono una brutta razza, hanno mesi di tempo per adempiere alle loro scadenze e si ritrovano sempre a fare tt l’ultimo giorno, non li capisco.
ti confermo che metro e unieuro sono posti molto frequentati dalla categoria a causa di braccia molto molto corte (e ignoranza) quando c’è da investire in server/pc/howrdware/backup, ma non quando c’è da comprare il macchinone da 80.000 euro. (mercedes, audi, bmw)
Conosco più di uno studio (non seguito da me per fortuna a livello sistemistico) che ha perso ANNI di lavoro, e i dipendenti hanno perso mesi a ricaricare tutto (lavorando anche di notte), con l’aiuto delle stampe cartacee.
qche riflessione:
* non sono a conoscenza della prima mossa ninja (copia config da dischi a controller) ; a cosa serve esattamente..?
* il raid è “tanto bello”, ma poi non c’è quasi mai un cazzo di straccio di sistema a prova di cliente scemo che riesca ad avvisare quando un disco o l’array ha un problema e poi ci si ritrova in queste situazioni
* ti 6 preso un rischio non da poco , a cambiare quella impostazione sull’unità di backup esterna.
premesso che eri stanco, stressato, non ne avevi più voglia e il clima di ansia e frustrazione dello studio ti ha sicuramente fatto molta pressione, non c’era un sistema a rischio 0 per accedere al disco esterno ?
i client dovrebbero accedere al dominio anche senza DC (per le credenziali cachate), da li nisba ?
se il nas ha i permessi sui file settati con il SID dell’utente si dovrebbe accedere.
se invece non è così e in NAS ad ogni accesso fa una query al server, forse tirandolo su ex novo (con stesso nome dominio e stesso user account) al volo sarebbe bastato ?
come ha detto qcuno al limite ripristinare il DC anche con un vecchissimo backup , tanto per accedere al backup.

marco | #

tu la vocazione dell’eroe l’hai sempre avuta, non c’è niente da fare.

Andrea | #

Grande Andrea,
è una sicurezza averti come collega.
😉

croccobiscotto | #

Questo racconto mi ha fatto ricordare perchè ho smesso di fare il sistemista e perchè mi sono iscritto all’uni.. queste situazioni sono assurde.. un’azienda rischa di perdere il lavoro di anni ed è tutto sulle spalle di una persona sola che è costretta a fare i salti mortali perchè manca un sistema di backup efficente… assurdo..

Lorenzo | #

@ Fabio: su alcuni server IBM (non so se è così per tutti i server IBM e se è così anche per altri server), la configurazione del controller RAID viene salvata sui dischi rigidi, in modo tale da poter ripristinare la configurazione prendendola direttamente dai dischi in caso di problemi. In determinate situazioni, può risultare decisamente utile.

Salvio Di Maio | #

Devo fare il backup delle mie cose, devo fare il backup delle mie cose, devo fare il backup delle mie cose….

spippolazione | #

Correva l’anno 199…5 (?) non mi ricrodo di preciso, anno piu’ anno meno, ricordo di certo era il mese di settembre, mi telefona il cliente (commercialista) “il server di rete non parte, dice…”

Errore noto, os/2 lan manager 2.1 ogni tanto, all’incirca una volta all’anno mandava il boot sector a donnine allegre, avviare dal floppy di installazione di os/2 e ripristinare il boot sector e via. 10 minuti di lavoro, un’ora di strada, un caffe e un a chiacchiera con la segretaria dalle forme procaci che ho scoperto dopo anni essere un’amica di infanzia di colei che sarebbe diventata mia moglie (piccolo il mondo, sic)

Arrivo, boot da floppy e il disco fisso non c’e’ piu.

Fdisk non lo vede, il nios non lo vede, niente, elettronica fulminata.

Brivido.

Mi giro e chiedo “quando li avete fatti gli ultimi salvataggi”

rapido controllo dei floppy…

“aprile”

rido tra me, lui ASSAI meno.

Due settimane fa’ ho saputo che e’ uno degli indagati per lo scandalo dei semafori con autovelox truccati.

La giustizia divina esiste, tardiva ma esite. Ora ho le prove.

🙂

Andrea | #

abbiamo tutti un commercialista con il server di rete che non parte. Complimenti Andrea continua sul blog.

chicco | #

Grande prova… Da valoroso guerriero, 7 ore di polvere e sudore nella battaglia resa più aspra dal presentarsi improvvisa nel giorno del riposo, riportando a casa la pelle… Onore ai vincitori!
…Però, riflettendo:
L’originare “sventurata” che “rispose” era sventurata ancor prima di rispondere (qualcuno avrebbe detto “aPPrescidere”!), qui invece lo sventurato è voluto diventarlo rispondendo.
E così torniamo ad un vecchio discorso: se uno ha il doppio cellulare, quando arrivano le diciotto del venerdì, DEVE fare attenzione a quale DEVE spegnere e quale PUO’ tenere acceso.
😉 Un salutone e tanta solidarietà!

NeCoSi | #

Ciao andrea. è il primo post tuo che leggo. mi è piaciuto molto, anche se mi ha lasciato un po’ dubbioso su alcuni punti, rifletto e ti faccio sapere, ora sono le 3:22 😀

ciao

Ulisse31 | #

@pecus: ti quoto!
@Andrea: hai la vocazione dello scrittore! E` bello leggerti, ma io non mi ci vorrei trovare in queste situazioni ESTREME (ma qualche volta e` capitato e quando sei li non e` mai bello)

lucabzuca | #

leggo solo oggi essendo veramente sotto fuoco nemico.
In oltre ero giù di corda ma devo dire che leggerti è sempre un piacere e mi hai svoltato il resto del pomeriggio…

Grazie.

Gioxx | #

Leggo, in ritardo certo, ma leggo. Pacca sulle spalle, un sorriso stile “cazzo per fortuna è finita”, quasi sicuramente sarei andato in panne prima buttando tutto dalla finestra (e qui giocano pazienza e anni di esperienza).

La cosa brutta è pensare che -così come te- alcuni responsabili presso clienti (pochi, pochissimi!) hanno il mio numero di cellulare privato. Ecco, lo sconforto avanza e Murphy prima o poi busserà.

eof.

mfp | #

commento1 (solidarieta’): “che sabato del cazzo”
commento2 (opinione tecnica): “una macchina che non ha un account amministrativo totale non e’ una macchina a cui affidare i backup”
commento3 (sfotto’ sociale): “per quanto la mia certificazione MCP 2000 Server sia totalmente farlocca perche’ ottenuta con i braindumps, un esame non monitorato dalla sylvan prometrics, e al solo fine di ottenere una commessa – ie: avro’ lavorato su MS si e no 4-5 volte in vita mia – io ho smesso di fare il sistemista”

Lubian | #

Che dire? Leggere questo post, mi ha consolato dandomi la certezza che non sono solo nell’universo(dei sistemisti),ma c’è qualcuno… che soffre come me! Mentre leggevo mi immedesimavo nelle varie situazioni. Legge di Murphy a parte, ecco 3 regole di vita vissuta che dopo 15 anni di attività mi posso permettere (consentitemelo):

a) Esistono forze oscure che tramano contro di te e che ti chiedono un contributo di tempo e sangue (più varie incazzature) che è indipendente e sempre più lungo e tortuoso rispetto all’ipotetica soluzione del problema (causa cd ke nn funziona, floppy ke nn si trova, backup ke nn si ripristina, ecc. ecc.);

b)Tuttavia tali forze sono tempo-labili e una volta raggiunto l’obiettivo (di averti fatto perdere tempo a redigere il nuovo commentario dell’enciclopedia dei Santi)… le cose si rimettono a posto da sole! Sembra un’affermazione senza senso per una persona dotata di logica e soprattutto se rapportata ad apparati HW/SW, ma non per un sistemista. Niente di meglio di una buona dormita su un problema irrisolvibile per poi recarsi la mattina dopo dal cliente e trovare la soluzione immediatamente lì… dove ieri non c’era.

c)Tra i tuoi clienti c’è sempre un commercialista.

Grazie Andrea, per le perle di saggezza con cui ci illumini e continua così!

franganghi | #

Amico mio, quanto ti capisco? Tanto.

Conta che gestiamo parecchie macchine, ma tra le tante ci sono tre nodi geografici composti da 6 noi virtuali X 3 superdome HP.

Durante la mia SETTIMANA e negli ultimi… 2 anni?… ho passato una media di 2 delle mie ore lavorative ad occuparmi dei backup di questi nodi che abbiamo predisposto:
– in vg software (su controlli diversi), da specifica
– su mirror hardware, da specifica
– con backup giornaliero su tape
– con backup geografico su disco MA in altra sede

E con tutto questo ANCORA CI CAGHIAMO SOTTO. E lo sai perché? Te lo dico io: il sistemista che mette da parte Dio per credere in Murphy, quel sistemista li dorme sempre con un occhio socchiuso.

Ottimo lavoro, magnifico racconto.

Ciao

Marco | #

Grandioso..!!In alcuni sprazzi del racconto mi sono visto in ” alcune scene di vita quotidiana” 😀