Mọi tình tiết trong câu chuyện đều là hư cấu. Tác giả không chịu trách nhiệm trước mọi suy diễn của người đọc
Hàng loạt những lỗi server nghiêm trọng diễn ra trong thời gian ngắn dẫn tới sự cố rò rỉ dữ liệu lớn nhất trong lịch sử chính phủ Pháp, thiệt hại hàng tỉ đô la.
Trong lúc điều tra troubleshoot issue hệ thống, Professor, SRE engineer của tổ chức DevOps Expendables đã khám phá ra những âm mưu đen tối đằng sau sự cố này. Liệu anh ấy có thoát khỏi sự trừng phạt từ thế giới ngầm SRE???
Sophia antipolis, Pháp
Công viên công nghệ nằm về phía tây bắc của Antibes và tây nam của Nice, ở miền nam nước Pháp, trên French Riviera.[ Được mệnh danh là Silicon Valley của nước Pháp, nơi đây là trụ sở của hơn 1K công ty công nghệ , trong đó có tập đoàn PSG, gã khổng lồ về tài chính, công nghệ. Họ đã ký kết nhiều hợp đồng trị giá hàng tỉ đô la về chuyển đổi số cho chính phủ Pháp
Trong một căn phòng kín, Olivier Giroud, Vice President of SRE Engineer tỏ ra rất tức giận, ông đấm mạnh tay xuống bàn
Tại sao một tập đoàn lớn như PSG lại giao quyền quản lý infrastructure với nhiều dữ liệu quan trọng cho những tên Anamit ?
Mọi chuyện không đơn giản thưa ngài, họ là người xây dựng nên hệ thống này và đã có kinh nghiệm nhiều năm rồi. Người của chúng ta chưa thật sự ready để take over hệ thống, có quá nhiều thứ chỉ có họ mới nắm được.
Lead SRE Architect, Antoine Griezmann phân trần
Đó là việc của ông, ông phải có trách nhiệm đào tạo member, handover hệ thống
Căn phòng trở nên ồn ào hẳn lên, mỗi người một ý, vẫn chưa chốt được phương án. Chỉ duy nhất một người thâm trầm, im lặng từ đầu tới cuối, chỉ khẽ mỉm cười. Kylian Mbappé, Director of Software engineering
Hãy giao việc đó cho tôi, mọi việc sẽ được xử lý ổn thỏa
…
Đà Nẵng, Việt Nam 10h tối
Professor, SRE eningeer của công ty X, vừa về nhà sau một ngày dài làm việc mệt mỏi, anh định bật TV để xem bộ phim yêu thích thì điện thoại vang lên tin nhắn Alert. Đó là tín hiệu cảnh bảo của hệ thống Service Now
ServiceNow là một nền tảng quản lý dịch vụ CNTT hàng đầu được nhiều tập đoàn lớn sử dụng. Công ty X build IT ticket system trên nền tảng service now
Khi có 1 incidents xảy ra, ticket sẽ tự động generate và assigned cho IT agent để xử lý. Các ticket được phân loại theo priority như Blocker, Critical, High, Major.
Server X, website của bộ năng lượng Pháp, region eu-west down, mã lỗi 502 nginx bad gateway. Mức độ priority BLOCKER
Server Y, server chạy communication platform của bộ tài chính Pháp, Invalid TLS/SSL Certificate Error
Mức độ priority BLOCKER
Có chuyện không hay rồi. Professor nghĩ bụng
Anh bấm điện thoại gọi về trụ sở
Các server đang đồng loạt lỗi SSL, có nguy cơ rò rỉ dữ liệu và bị hacker tấn công, đề nghị kích hoạt L3 support
Hệ thống IT ngân hàng tài chính phải đảm bảo SLA, SLO đối với khách hàng nên họ đều xây dựng mô hình AMS, một dạng support xử lý issue hệ thống 24/7 theo 3 mức độ L1 ~ L3
L1 là được cung cấp bởi nhân viên hỗ trợ CNTT có ít kinh nghiệm nhất, IT help desk ; hiểu biết thấp hơn về các vấn đề kỹ thuật;và khả năng truy cập thông tin công ty bị hạn chế. Thường là những em nhân viên trực tổng đài tiếp nhận yêu cầu từ khách hàng, giải quyết những issue đơn giản, trong trường hợp phức tạp sẽ forward tới level cao hơn
L2 Các nhân viên Cấp độ 2 nhận thông tin và sự truy vấn từ Cấp độ 1. Cấp độ hỗ trợ này chủ yếu giải quyết vấn đề khắc phục sự cố chuyên sâu; phân tích phụ trợ, thường là operator có quyền nhất định trong hệ thống
L3 Các chuyên gia, kiến trúc sư trưởng, Infra architect, có quyền cao nhất trong hệ thống, xử lý issue ở mức độ hạ tầng, code change, thay đổi config trong server
FC, 12 đêm, trụ sở của Expendables, lực lượng gồm các kỹ sư SRE/DEVOPS đầu ngành, được tập đoàn X lập ra để xử lý những sự cố blocker ở cấp L3
Trong một căn phòng với đầy máy móc, màn hình, mọi người đều rất căng thẳng
Thật kì lạ, SSL certificate invalid. Certificate Manager không hề gửi tới 1 alert nào cả về Certificate issue, expired…
SSL Certificate là chứng chỉ SSL. Chứng thư số SSL cài trên website cho phép khách hàng khi truy cập có thể xác minh được tính xác thực, tin cậy của website, đảm bảo mọi dữ liệu, thông tin trao đổi giữa website và khách hàng được mã hóa. Điều này tránh nguy cơ thông tin bị can thiệp, rò rỉ.
Cách thức hoạt động như ở dưới
Số lượng certificate SSL rất lớn bao gồm external internal server, load balancing, nginx ELB, domains khác nhau, được generate từ certbot, letsencrypt hoặc mua từ cloudflare, digicert, godaddy . Các server nằm trên AWS, GCP on-premise. Nên team EX phải build một hệ thống quản lý certificate riêng from scratch thay vì sử dụng dịch vụ Cert Manager của AWS, hay GCP.
Hãy kiểm tra trên HashiCorp Vault xem (Một platform dùng để lưu trữ secret data)
Để centralize, các SSL certificate được lưu trữ trên HashiCorp HA cluster with Integrated Storage
Do được build để lưu trữ data nên Vault build Storage Backend, hiểu đơn giản là nơi dùng để lưu trữ secret data. Storage backend có thể là internal (Hashicorp build-in) hoặc external ( S3, Dynamodb, Cassandra)
Hệ thống này sử dụng internal storage với cơ chế raft storage
Raft storage là mỗi Node của Vault sẽ lưu một bản copy secret data. Data sẽ được replica qua all node bằng thuật toán Raft Consensus Algorithm
Vault HA cluster được provisioning trên AWS bằng terraform module, launch các vault node bằng AWS Autoscaling, mỗi node trong ASG được launch từ vault AMI, cái được build bằng Packer
ssl on;
ssl_certificate /etc/ssl/certs/mc-vault.cer;
ssl_certificate_key /etc/ssl/private/mc-vault.key;
Tôi phát hiện toàn bộ các certificate trên vault đã bị thay đổi, hãy kiểm tra audit logs
Ai đã làm điều đó, bị hacker tấn công sao?
Không tìm thấy bất kì dấu hiệu nào từ bên ngoài, đây là một hành động nội gián
(Còn tiếp)
0 Nhận xét