Đầu tuần này, gần như toàn bộ mạng Internet bị rơi vào tình trạng trì trệ khi hầu hết các server lớn bỗng nhiên biến mất. Các server này là một phần của dịch vụ S3, dịch vụ web hosting vô cùng nổi tiếng của Amazon, và khi bị sự cố, chúng kéo theo một loạt dịch vụ lớn “tiêu tùng” theo. Quora, Trello, và IFTTT là một số website tiêu biểu bị ảnh hưởng trong sự cố lần này. Sau hơn bốn giờ giải quyết, cuối cùng các server này cũng quay trở lại hoạt động.
Đến nay, lý do cho sự cố đã được tìm ra. Trong phần thông cáo gửi cho các khách hàng của mình ngày hôm nay, Amazon cuối cùng đã hé lộ lý do là vì: lỗi đánh máy.
Sáng thứ 3, các thành viên trong team S3 lúc này đang debug hệ thống thanh toán. Trong quá trình debug, cả team phải hạ một số server xuống offline. Amazon cho biết: “Không may thay, chúng tôi nhập sai một trong số các lệnh này, từ đó vô tình kéo theo cả một loạt server lớn hơn dự kiến. Cụm server vô tình bị dỡ xuống lại đang hỗ trợ hai hệ thống phụ khác của S3.”
Những hệ thống phụ này đóng vai trò khá quan trọng. Trong đó có một hệ thống “quản lý metadata và thông tin vị trí của tất cả S3 object trong khu vực”. Không có hệ thống này, các server phụ thuộc không cách nào thực hiện các tác vụ lưu xuất dữ liệu cơ bản nhất.
“Chúng tôi muốn gửi lời xin lỗi vì những hậu quả mà tai nạn này gây ra đến khách hàng”
Sau khi vô tình đưa loạt server này xuống, nhiều hệ thống đã phải “khởi động lại hoàn toàn”, mà quá trình này lại diễn ra lâu hơn rất nhiều khi so với chiếc laptop của bạn. Trong lúc S3 “lặn mất tăm”, rất nhiều dịch vụ web khác của Amazon phải dừng hoạt động, đặc biệt trong đó có Amazon’s Elastic Compute Cloud (EC2), một dịch vụ nữa vô cùng nổi tiếng với các công ty mạng có nhu cầu mở rộng lưu trữ nhanh chóng.
Tham gia ngay để biết thêm về cuộc chiếnAmazon cho biết S3 được thiết kế để có thể “sống sót” khi bị mất một vài server. Nhưng với ‘khởi động hàng loạt’ lại là một câu chuyện hoàn toàn khác. Phía công ty tiếp tục giải thích: “S3 đã trải qua mở rộng vô cùng mạnh mẽ trong vài năm vừa qua, bởi vậy quá trình khởi động lại những server này và thực hiện các tác vụ kiểm tra an toàn để chứng thực tính toàn vẹn của metadata mất nhiều thời gian hơn chúng tôi dự đoán.”
Bởi vậy, Amazon cho biết họ đang thực hiện nhiều thay đổi cần thiết đến S3 để hệ thống này có thể hồi phục nhanh hơn nữa. Không dừng lại ở đó, Amazon còn hứa hẹn “tuyên chiến” với lỗi typo. Cụ thể hơn, trong tương lai, các kỹ sư làm việc tại đây sẽ không thể giảm hiệu năng của S3 xuống ngưỡng tối thiểu để duy trì các hệ thống phụ nữa.
Amazon cũng đang có thực hiện nhiều thay đổi đến AWS Service Health Dashboard. Trong thời gian diễn ra sự cố, dashboard này “ngại ngùng” hiển thị tất cả các service đang “biến xanh” (vì bản thân dashboard phụ thuộc vào S3). Trong lần sự cố kế tiếp của S3 (nếu có), dashboard này sẽ hoạt động thông minh hơn.
Cuối cùng, Amazon muốn nhắn gửi: “Chúng tôi muốn gửi lời xin lỗi vì những hậu quả mà tai nạn này gây ra đến khách hàng. Chúng tôi sẽ làm mọi thứ theo những gì học được từ sự kiện này để càng hoàn thiện các dịch vụ gửi đến mọi người hơn nữa.”
Techtalk via theverge