Facebook giải thích sự cố ngừng hoạt động ngày 4/10

Facebook cho biết một lệnh đáng lẽ được thực thi để bảo trì định kỳ lại trở thành nguyên nhân gây sự cố.

Sau sự cố ngừng cung cấp dịch vụ vào hôm thứ hai khiến tất cả các dịch vụ không thể truy cập, Facebook đã xuất bản một bài đăng trên blog mô tả chi tiết những gì đã xảy ra. Theo Santosh Janardhan, phó chủ tịch phụ trách cơ sở hạ tầng của công ty, việc ngừng hoạt động liên quan đến việc bảo trì định kỳ. Vào một thời điểm nào đó, một lệnh đáng lẽ được thực thi nhằm đánh giá tình trạng kết nối mạng thì thay vào đó, lệnh này đã vô tình gỡ bỏ những kết nối đó. Janardhan cho biết một lỗi trong hệ thống nội bộ của công ty đã ngăn không cho lệnh được thực thi đúng cách.

Vấn đề đó đã gây ra sự cố máy chủ DNS của Facebook không thể kết nối với trung tâm dữ liệu chính của công ty, và nó đã ngừng quảng bá thông tin định tuyến mà mọi thiết bị trên internet cần để kết nối với máy chủ của Facebook.

Janardhan cho biết: “Kết quả cuối cùng là các máy chủ DNS của chúng tôi không thể truy cập được mặc dù chúng vẫn đang hoạt động. Điều này khiến các thiết bị trên internet không thể tìm thấy máy chủ của chúng tôi.”

Như chúng ta đã biết được phần nào vào ngày hôm qua, điều khiến tình hình vốn đã khó khăn trở nên tồi tệ hơn là sự cố ngừng hoạt động khiến các kỹ sư của Facebook không thể kết nối với các máy chủ mà họ cần để sửa chữa. Hơn nữa, việc mất chức năng DNS có nghĩa là họ không thể sử dụng công cụ nội bộ để điều tra và giải quyết các sự cố mạng. Điều đó có nghĩa là công ty phải gửi nhân sự đến các trung tâm dữ liệu, một nhiệm vụ phức tạp bởi các biện pháp bảo vệ mà công ty áp dụng tại các địa điểm đó.

Janardhan cho biết: “Chúng rất khó tiếp cận và khi bạn đã vào bên trong, phần cứng và bộ định tuyến được thiết kế để khó sửa đổi ngay cả khi bạn có quyền truy cập vào chúng”. Một khi có thể khôi phục mạng xương sống của mình, Facebook thận trọng không bật lại mọi thứ ngay lập tức vì sự gia tăng năng lượng và nhu cầu điện toán có thể dẫn đến nhiều sự cố hơn.

“Mỗi lần thất bại như thế này là một cơ hội để học hỏi và trở nên tốt hơn, và có rất nhiều điều để chúng ta học hỏi từ lần này,” Janardhan nói. “Sau mỗi vấn đề, dù nhỏ hay lớn, chúng tôi đều thực hiện một quá trình xem xét toàn diện để hiểu cách chúng tôi có thể làm cho hệ thống của mình linh hoạt hơn. Quá trình đó đã và đang được tiến hành. ”

Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments