Giaosucan's blog - Chia sẻ kiến thức theo cách bá đạo

Ticker

20/recent/ticker-posts

Kế hoạch đen - Part 1


Mọi tình tiết trong câu chuyện đều là hư cấu. Tác giả không chịu trách nhiệm trước mọi suy diễn của người đọc

Hàng loạt những lỗi server nghiêm trọng diễn ra trong thời gian ngắn dẫn tới sự cố rò rỉ dữ liệu lớn nhất trong lịch sử chính phủ Pháp, thiệt hại hàng tỉ đô la.

Trong lúc điều tra troubleshoot issue hệ thống, Professor, SRE engineer của tổ chức DevOps Expendables đã khám phá ra những âm mưu đen tối đằng sau sự cố này. Liệu anh ấy có thoát khỏi sự trừng phạt từ thế giới ngầm SRE???


Công viên công nghệ nằm về phía tây bắc của Antibes và tây nam của Nice, ở miền nam nước Pháp, trên French Riviera.[ Được mệnh danh là Silicon Valley của nước Pháp, nơi đây là trụ sở của hơn 1K công ty công nghệ , trong đó có tập đoàn PSG, gã khổng lồ về tài chính, công nghệ. Họ đã ký kết nhiều hợp đồng trị giá hàng tỉ đô la về chuyển đổi số cho chính phủ Pháp

Trong một căn phòng kín, Olivier Giroud, Vice President of SRE Engineer tỏ ra rất tức giận, ông đấm mạnh tay xuống bàn

Tại sao một tập đoàn lớn như PSG lại giao quyền quản lý infrastructure với nhiều dữ liệu quan trọng cho những tên Anamit ?

Mọi chuyện không đơn giản thưa ngài, họ là người xây dựng nên hệ thống này và đã có kinh nghiệm nhiều năm rồi. Người của chúng ta chưa thật sự ready để take over hệ thống, có quá nhiều thứ chỉ có họ mới nắm được.

Lead SRE Architect, Antoine Griezmann phân trần

Đó là việc của ông, ông phải có trách nhiệm đào tạo member, handover hệ thống

Căn phòng trở nên ồn ào hẳn lên, mỗi người một ý, vẫn chưa chốt được phương án. Chỉ duy nhất một người thâm trầm, im lặng từ đầu tới cuối, chỉ khẽ mỉm cười. Kylian Mbappé, Director of Software engineering

Hãy giao việc đó cho tôi, mọi việc sẽ được xử lý ổn thỏa

Đà Nẵng, Việt Nam 10h tối

Professor, SRE eningeer của công ty X, vừa về nhà sau một ngày dài làm việc mệt mỏi, anh định bật TV để xem bộ phim yêu thích thì điện thoại vang lên tin nhắn Alert. Đó là tín hiệu cảnh bảo của hệ thống Service Now

ServiceNow là một nền tảng quản lý dịch vụ CNTT hàng đầu được nhiều tập đoàn lớn sử dụng. Công ty X build IT ticket system trên nền tảng service now


Khi có 1 incidents xảy ra, ticket sẽ tự động generate và assigned cho IT agent để xử lý. Các ticket được phân loại theo priority như Blocker, Critical, High, Major.

Server X, website của bộ năng lượng Pháp, region eu-west down, mã lỗi 502 nginx bad gateway. Mức độ priority BLOCKER

Server Y, server chạy communication platform của bộ tài chính Pháp, Invalid TLS/SSL Certificate Error

Mức độ priority BLOCKER

Có chuyện không hay rồi. Professor nghĩ bụng

Anh bấm điện thoại gọi về trụ sở

Các server đang đồng loạt lỗi SSL, có nguy cơ rò rỉ dữ liệu và bị hacker tấn công, đề nghị kích hoạt L3 support

Hệ thống IT ngân hàng tài chính phải đảm bảo SLA, SLO đối với khách hàng nên họ đều xây dựng mô hình AMS, một dạng support xử lý issue hệ thống 24/7 theo 3 mức độ L1 ~ L3

L1 là được cung cấp bởi nhân viên hỗ trợ CNTT có ít kinh nghiệm nhất, IT help desk ; hiểu biết thấp hơn về các vấn đề kỹ thuật;và khả năng truy cập thông tin công ty bị hạn chế. Thường là những em nhân viên trực tổng đài tiếp nhận yêu cầu từ khách hàng, giải quyết những issue đơn giản, trong trường hợp phức tạp sẽ forward tới level cao hơn

L2 Các nhân viên Cấp độ 2 nhận thông tin và sự truy vấn từ Cấp độ 1. Cấp độ hỗ trợ này chủ yếu giải quyết vấn đề khắc phục sự cố chuyên sâu; phân tích phụ trợ, thường là operator có quyền nhất định trong hệ thống

L3 Các chuyên gia, kiến trúc sư trưởng, Infra architect, có quyền cao nhất trong hệ thống, xử lý issue ở mức độ hạ tầng, code change, thay đổi config trong server

FC, 12 đêm, trụ sở của Expendables, lực lượng gồm các kỹ sư SRE/DEVOPS đầu ngành, được tập đoàn X lập ra để xử lý những sự cố blocker ở cấp L3

Trong một căn phòng với đầy máy móc, màn hình, mọi người đều rất căng thẳng

Thật kì lạ, SSL certificate invalid. Certificate Manager không hề gửi tới 1 alert nào cả về Certificate issue, expired…

SSL Certificate là chứng chỉ SSL. Chứng thư số SSL cài trên website cho phép khách hàng khi truy cập có thể xác minh được tính xác thực, tin cậy của website, đảm bảo mọi dữ liệu, thông tin trao đổi giữa website và khách hàng được mã hóa. Điều này tránh nguy cơ thông tin bị can thiệp, rò rỉ.

Cách thức hoạt động như ở dưới


Thật kì lạ, Certificate Manager đã được auto-renew cách đây 3 hôm, tức là không thể có chuyện expired certificate

Số lượng certificate SSL rất lớn bao gồm external internal server, load balancing, nginx ELB, domains khác nhau, được generate từ certbot, letsencrypt hoặc mua từ cloudflare, digicert, godaddy . Các server nằm trên AWS, GCP on-premise. Nên team EX phải build một hệ thống quản lý certificate riêng from scratch thay vì sử dụng dịch vụ Cert Manager của AWS, hay GCP.

Hãy kiểm tra trên HashiCorp Vault xem (Một platform dùng để lưu trữ secret data)

Để centralize, các SSL certificate được lưu trữ trên HashiCorp HA cluster with Integrated Storage

Do được build để lưu trữ data nên Vault build Storage Backend, hiểu đơn giản là nơi dùng để lưu trữ secret data. Storage backend có thể là internal (Hashicorp build-in) hoặc external ( S3, Dynamodb, Cassandra)

Hệ thống này sử dụng internal storage với cơ chế raft storage

Raft storage là mỗi Node của Vault sẽ lưu một bản copy secret data. Data sẽ được replica qua all node bằng thuật toán Raft Consensus Algorithm

storage "raft" {

path = "/path/to/raft/ssl" node_id = "raft_node_1" }
cluster_addr = "http://127.0.0.1:8201"

Vault HA cluster được provisioning trên AWS bằng terraform module, launch các vault node bằng AWS Autoscaling, mỗi node trong ASG được launch từ vault AMI, cái được build bằng Packer


Sau khi các SSL được generate và lưu trữ trên Vault, các server nginx load các SSL từ Vault về lưu trữ trong server disk, nginx config point tới các certificate này trong nginx config


ssl on;

ssl_certificate /etc/ssl/certs/mc-vault.cer;
ssl_certificate_key /etc/ssl/private/mc-vault.key;

Tôi phát hiện toàn bộ các certificate trên vault đã bị thay đổi, hãy kiểm tra audit logs

Ai đã làm điều đó, bị hacker tấn công sao?

Không tìm thấy bất kì dấu hiệu nào từ bên ngoài, đây là một hành động nội gián

(Còn tiếp)

Đăng nhận xét

0 Nhận xét