sabato 4 marzo 2017

Un errore di battitura dietro al collasso dei server Amazon

lastampa.it
antonio dini

Martedì scorso si sono registrati disservizi in tutta la Rete per il malfunzionamento di AWS, la piattaforma cloud dell’azienda americana. E ora si apprende che non si è trattato di un attacco hacker, ma di un banale errore umano

Il singhiozzo di Amazon mette in ginocchio tutta la rete. Ma cosa lo ha provocato? È stato il fattore umano, lo sbaglio di un operatore, a creare la momentanea interruzione di servizio di alcuni server di Amazon che hanno messo in crisi centinaia di attività basate sui servizi cloud dell’azienda di Jeff Bezos, da Quora a Trello, a IFTTT, a tantissime altre attività private. Uno sbaglio tecnico che ha provocato un effetto domino per più di quattro ore imprevedibile e incontrollabile.

Lo spiega la stessa Amazon : durante la giornata di martedì scorso, per effettuare lavori di aggiornamento al software che calcola i pagamenti dei servizi di Amazon Web Services (per gli addetti ai lavori AWS), i tecnici hanno dovuto spegnere un piccolo numero di server inviando i comandi tramite console. Qui entra in gioco l’errore umano: un refuso, un errore di battitura nella console di comando (forse uno zero in più, Amazon non lo spiega) da parte di uno dei tecnici ha infatti provocato lo spegnimento di un numero molto maggiore di server rispetto a quello previsto. Tra gli altri, sono stati coinvolti anche alcuni server critici, che hanno funzione di coordinamento per centinaia di altri, che a loro volta si sono bloccati, provocando un effetto domino.

Dopo essere stati spenti oppure aver perso la sincronizzazione con i dati degli altri server, i sistemi hanno fatto partire le procedure di riavvio automatico. A differenza di quanto avviene con i nostri computer, che oggi sono diventati estremamente rapidi, il riavvio dei server è una procedura lunga e complessa. Una procedura che in questo caso ha però sorpreso anche i tecnici di Amazon, rivelandosi particolarmente lunga a causa delle verifiche automatiche dell’integrità dei dati. Amazon ha spiegato che è al lavoro per creare procedure automatiche di ripartenza molto più rapide e che comunque in futuro i tecnici non saranno più in grado di mettere offline un numero di server critico senza una doppia autorizzazione. 

Infine, oltre a scusarsi, Amazon ha dichiarato di voler correggere anche un particolare che si è rivelato molto imbarazzante. Durante il “crollo” di martedì scorso il servizio online di pubblico monitoraggio dello stato dei server AWS (la Health Dashboard) ha continuato a segnalare tutto ok, disco verde. Questo perché è anch’esso parte del sistema che non funzionava. Da oggi la Health Dashboard gira su server dedicati e fisicamente sconnessi.