Project Glasswing: Khi Anthropic train ra con AI biết hack rồi… không dám thả ra public

Ngày 7/4/2026, Anthropic làm một thứ khá lạ: họ công bố một model mới, viết hẳn một System Card dày 244 trang cho nó, rồi thẳng thắn thông báo rằng sẽ không release cho public. Lý do? Con model đó quá nguy hiểm.

Không phải theo kiểu “doomscrolling clickbait” — mà theo nghĩa rất cụ thể, kỹ thuật, đã được verify thực tế.

Claude Mythos Preview là gì?

Mythos Preview là một frontier model chưa được release, general-purpose, và có khả năng vượt mặt hầu hết con người — trừ những security researcher giỏi nhất — trong việc tìm kiếm và khai thác lỗ hổng phần mềm. Anthropic

Quan trọng: nó không được train riêng cho cybersecurity. Sức mạnh của Mythos trong lĩnh vực bảo mật là kết quả trực tiếp từ khả năng coding và agentic reasoning rộng hơn — một model có thể hiểu sâu và modify code phức tạp cũng sẽ có khả năng tìm và vá lỗ hổng của nó. Anthropic

Nói theo ngôn ngữ của anh em dev: nó giỏi đọc code đến mức tự nhiên thấy bug.

Nó làm được gì cụ thể? Ba ví dụ không phải PR

Đây là phần thú vị nhất, và cũng là phần đáng lo ngại nhất.

Trong vài tuần qua, Anthropic đã dùng Mythos Preview để tìm ra hàng nghìn zero-day vulnerabilities — những lỗ hổng mà chính các developer của phần mềm đó chưa biết — bao gồm trong mọi hệ điều hành lớn và mọi trình duyệt web lớn. Và điều đáng chú ý: nó tìm ra gần như tất cả các lỗ hổng đó hoàn toàn tự động, không cần con người can thiệp. Anthropic

Ba ví dụ đã được patch và công bố:

1. OpenBSD — lỗ hổng 27 tuổi

Mythos Preview tìm thấy một lỗ hổng tồn tại 27 năm trong OpenBSD — vốn được biết đến là một trong những hệ điều hành bảo mật nhất thế giới, được dùng để chạy firewall và các hạ tầng quan trọng. Lỗ hổng này cho phép kẻ tấn công crash từ xa bất kỳ máy nào đang chạy OS này chỉ bằng cách kết nối đến nó. Anthropic

2. FFmpeg — lỗ hổng 16 tuổi, đã bị fuzz 5 triệu lần

Mythos cũng phát hiện một lỗ hổng 16 năm tuổi trong FFmpeg — thư viện encode/decode video được vô số phần mềm sử dụng — trong một dòng code mà các automated testing tool đã “chạm vào” đúng 5 triệu lần mà không bao giờ phát hiện ra vấn đề. Anthropic

3. Linux kernel — privilege escalation tự động

Model này tự động tìm và kết chuỗi nhiều lỗ hổng trong Linux kernel — phần mềm chạy hầu hết các server trên thế giới — để cho phép kẻ tấn công leo từ quyền user thường lên quyền kiểm soát toàn bộ máy. Anthropic

Và nếu mấy cái trên chưa đủ ấn tượng: CVE-2026-4747 là một lỗ hổng remote code execution 17 tuổi trong FreeBSD NFS implementation, cho phép bất kỳ kẻ tấn công chưa xác thực nào trên internet có được quyền root trên server bị ảnh hưởng. Mythos tìm ra lỗ hổng này hoàn toàn tự động — không có con người nào tham gia vào quá trình discovery hoặc exploitation sau lệnh ban đầu. Anthropic

Benchmark: Mythos so với Opus 4.6

Trên benchmark CyberGym đánh giá khả năng tái tạo lỗ hổng bảo mật, Mythos Preview đạt 83.1%, trong khi Claude Opus 4.6 — model tốt nhất tiếp theo của Anthropic — chỉ đạt 66.6%. Anthropic

Đó là khoảng cách 16.5 điểm phần trăm giữa các model trong cùng một công ty. Không nhỏ.

Trên CTI-REALM — benchmark open-source của Microsoft đánh giá khả năng của AI agents trong việc tạo ra detection rule từ threat intelligence — Claude chiếm ba vị trí dẫn đầu, với điểm số từ 0.624 đến 0.685, nhờ khả năng sử dụng tool và hành vi query lặp lại mạnh mẽ hơn đáng kể so với các model OpenAI. Microsoft

Vậy Project Glasswing là gì?

Project Glasswing là một sáng kiến tập hợp Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA và Palo Alto Networks để bảo vệ những phần mềm quan trọng nhất thế giới. Anthropic

Logic của sáng kiến này khá đơn giản và thẳng thắn đến mức gần như… đáng sợ:

“Chúng tôi build ra con AI có thể hack mọi thứ. Không thể giữ bí mật mãi, vì AI đang tiến nhanh và sớm thôi nhiều người khác cũng sẽ có tool tương tự. Vậy thì thay vì giấu nó đi, hãy để defenders dùng nó trước.”

Anthropic đã cam kết lên đến 100 triệu USD tín dụng sử dụng cho Mythos Preview trong khuôn khổ sáng kiến này, cùng 4 triệu USD donate trực tiếp cho các tổ chức bảo mật open-source. Ngoài 12 launch partners, hơn 40 tổ chức bổ sung chuyên build hoặc maintain hạ tầng phần mềm quan trọng cũng được cấp quyền truy cập. VentureBeat

Tại sao không release public?

Đây là phần mà Anthropic nói thẳng hơn hầu hết công ty trong ngành:

Newton Cheng, Frontier Red Team Cyber Lead tại Anthropic, tuyên bố rõ ràng: “Chúng tôi không có kế hoạch release Claude Mythos Preview cho công chúng vì khả năng cybersecurity của nó. Tuy nhiên, với tốc độ tiến bộ của AI, sẽ không lâu nữa các khả năng như vậy sẽ lan rộng, có thể vượt ra ngoài tầm kiểm soát của những người cam kết triển khai chúng một cách an toàn.” VentureBeat

Đây không phải PR spin. Anthropic thực sự có bằng chứng trực tiếp về phía tấn công: công ty đã tiết lộ hồi tháng 11/2025 rằng một nhóm do nhà nước Trung Quốc bảo trợ đã đạt được 80-90% autonomous tactical execution khi sử dụng Claude trên khoảng 30 mục tiêu. VentureBeat

Nói cách khác: con AI của họ đã bị dùng để tấn công thật, và họ biết điều đó.

Các “ông lớn” nói gì?

CrowdStrike CTO Elia Zaitsev: Khoảng thời gian giữa lúc phát hiện lỗ hổng và lúc kẻ tấn công khai thác nó đã thu hẹp lại — điều từng mất nhiều tháng nay chỉ cần vài phút với AI. VentureBeat

Microsoft Global CISO Igor Tsyganskiy: Khi được test trên CTI-REALM, Claude Mythos Preview cho thấy sự cải thiện đáng kể so với các model trước đó. Anthropic

AWS CISO Amy Herzog: Các team của AWS đã test Mythos Preview trên các codebase quan trọng, nơi model đang “giúp chúng tôi củng cố code.” VentureBeat

Palo Alto Networks: Đây không chỉ là game changer trong việc tìm các lỗ hổng ẩn giấu, mà còn báo hiệu một sự thay đổi nguy hiểm khi kẻ tấn công sắp có khả năng tìm zero-day và develop exploit nhanh hơn bao giờ hết. Cần chuẩn bị cho attackers có AI-assisted: nhiều cuộc tấn công hơn, nhanh hơn, tinh vi hơn. Anthropic

Giá và cách access

Claude Mythos Preview có sẵn cho các participants của Project Glasswing với giá $25/$125 per million input/output tokens, có thể truy cập qua Claude API, Amazon Bedrock, Google Cloud Vertex AI, và Microsoft Foundry. Anthropic

Không có public API. Không có waitlist. Bạn cần phải thuộc diện được Anthropic invite hoặc là một trong hơn 40 tổ chức được cấp access trong chương trình nghiên cứu này.

Góc nhìn của một developer: nên đọc điều này như thế nào?

Có một vài điểm đáng suy ngẫm ngoài phần marketing:

Điểm thú vị về kỹ thuật: FFmpeg vulnerability tồn tại 16 năm và đã bị fuzzer chạm vào 5 triệu lần mà không phát hiện ra — điều đó không chỉ cho thấy Mythos giỏi, mà còn cho thấy fuzzing truyền thống có giới hạn rất thực tế. Một model đủ giỏi để “hiểu ngữ nghĩa của code” có thể tìm ra những bug mà brute-force testing không bao giờ thấy.

Điểm cần skeptical: Anthropic đang announce cả việc doanh thu vượt $30B annualized, deal compute với Google và Broadcom, và một cybersecurity initiative nổi bật với blue-chip partners — tất cả trong cùng một tuần. Một sáng kiến an ninh mạng nổi bật, liên quan đến chính phủ, với các đối tác hàng đầu là chính xác loại chương trình làm đẹp câu chuyện cho IPO — đặc biệt khi công ty có thể đồng thời chỉ ra doanh thu $30 tỷ annualized. VentureBeat Sự thật là cả hai thứ có thể đúng cùng lúc: initiative này vừa quan trọng vừa có lợi cho IPO narrative.

Điểm quan trọng nhất: Câu hỏi không còn là liệu AI có được dùng cho offensive cybersecurity hay không — nó đã đang được dùng rồi. Câu hỏi là liệu defenders có thể duy trì ngang bằng không. Project Glasswing là cược của Anthropic rằng cho defenders công cụ tốt nhất trước sẽ tốt hơn là chờ phía tấn công phát triển chậm hơn. Nxcode

Tóm lại

Project Glasswing là một thứ thực sự hiếm trong thế giới AI: một công ty thừa nhận thẳng rằng họ vừa build ra thứ gì đó quá nguy hiểm để release public, rồi tìm cách dùng nó có trách nhiệm thay vì giấu hoặc giả vờ nó không tồn tại.

Đối với anh em làm web/backend/infra: những lỗ hổng như trong FFmpeg hay Linux kernel ảnh hưởng đến stack của bạn nhiều hơn bạn nghĩ. Và nếu một ngày nào đó các capability này rò rỉ ra ngoài kiểm soát — hoặc đơn giản là attacker cũng có model tương đương — thì window để vá lỗ hổng sẽ còn hẹp hơn nữa.

Như CrowdStrike nói: khoảng thời gian giữa một lỗ hổng được phát hiện và bị exploit đã co lại từ nhiều tháng xuống còn vài phút. Anthropic

Đó không phải lý thuyết. Đó là thực tế của April 2026.

Nguồn chính: anthropic.com/glasswing | red.anthropic.com/2026/mythos-preview

Claude Mythos Preview là gì?

Nó làm được gì cụ thể? Ba ví dụ không phải PR

Benchmark: Mythos so với Opus 4.6

Vậy Project Glasswing là gì?

Tại sao không release public?

Các “ông lớn” nói gì?

Giá và cách access

Góc nhìn của một developer: nên đọc điều này như thế nào?

Tóm lại

Có thể bạn sẽ thích

Google I/O 2026: Gemini 3.5 Flash Trình Làng – Kỷ Nguyên Trợ Lý AI “Tự Hành” Cho Dân Dev

Không thể chậm chân, Anthropic ra mắt Claude Design

Claude Opus 4.7 — Đây Mới Là Bước Nhảy Developer Đang Chờ

Bình luận (0)