A Amazon revelou que o apagão que afetou uma grande parte da Internet a nível global, se deveu a uma falha no sistema DynamoDB.
Uma falha de grandes proporções na Amazon Web Services (AWS) deixou a Internet parcialmente fora de serviço no passado dia 20 de outubro. De acordo com um relatório técnico divulgado pela própria Amazon, a origem do problema esteve num erro de software no DynamoDB, o sistema de base de dados utilizado pela plataforma, que acabou por gerar uma interrupção com impacto global.
O incidente começou quando o DynamoDB, responsável por gerir centenas de milhares de registos DNS, criou por engano uma entrada DNS vazia associada aos data centers da região US-EAST-1, no norte da Virgínia. Apesar de a infraestrutura da Amazon Web Services estar distribuída mundialmente, a falha nesta região foi suficiente para afetar serviços em vários continentes. Em circunstâncias normais, o sistema de automação da Amazon teria corrigido o erro automaticamente. Desta vez, o mecanismo falhou, obrigando as equipas de engenharia da empresa a realizar uma intervenção manual para restaurar os sistemas. Durante o processo, todos os serviços que dependiam do DynamoDB para consultas DNS ficaram temporariamente inacessíveis.
O apagão digital rapidamente se propagou para diversas plataformas e aplicações populares. Entre os serviços afetados estiveram o Snapchat, Reddit, Disney+, Fortnite, a PlayStation Network e até os próprios serviços Alexa da Amazon. Em alguns casos, os utilizadores apenas sentiram lentidão ou breves falhas de acesso a serviços, mas em outros casos houve mesmo sites e aplicações que ficaram totalmente indisponíveis.
No seu comunicado oficial a Amazon pediu desculpa pelo sucedido e reconheceu o impacto do incidente: “Pedimos desculpa aos nossos clientes pelos inconvenientes causados. Embora os nossos serviços mantenham normalmente níveis de disponibilidade muito elevados, compreendemos a importância crítica que têm para os negócios e aplicações dos nossos clientes. Este episódio será analisado em detalhe para reforçar ainda mais a resiliência da nossa infraestrutura.” Entretanto, a empresa afirmou que já iniciou uma revisão interna para evitar que um problema semelhante volte a ocorrer.
