Claude Opus 4.7 — Đây Mới Là Bước Nhảy Developer Đang Chờ

Ra mắt ngay hôm nay 16/4/2026, Claude Opus 4.7 không phải bản “update nhỏ cho có”. Từ benchmark coding đến vision, từ agentic workflow đến migration gotcha — tất cả dữ liệu thật, không phỏng đoán.

TL;DR — Tóm Tắt Trong 30 Giây

Nếu bạn đang dùng Opus 4.6 cho bất kỳ workflow coding hoặc agentic nào, Opus 4.7 là upgrade đáng làm ngay. Giá không đổi, performance tăng rõ rệt trên mọi benchmark thực chiến. Nhưng có hai thứ cần lưu ý trước khi bấm migrate: tokenizer mới và instruction-following chặt hơn — cả hai đều có thể “break” behavior cũ của bạn theo cách không ngờ.

✓ Điểm nổi bật

Cursor: 70% vs 58% trên CursorBench · Rakuten: giải quyết 3× nhiều production task hơn 4.6 · Vision: nhận ảnh lên tới 2,576px / ~3.75MP (gấp 3 lần trước) · Giá: $5/$25 per MTok — giống hệt 4.6

Những Gì Mới Trong Opus 4.7

Anthropic không viết hoa “revolutionary” hay “paradigm shift” trong blog chính thức — và mình trân trọng sự trung thực đó. Họ nói thẳng: đây là “notable improvement on Opus 4.6 in advanced software engineering, with particular gains on the most difficult tasks“. Tức là không phải bản vá lỗi, cũng không phải leap-of-faith tiếp thị — mà là cải tiến có đo lường được.

🧠

Instruction Following siêu chặt

Opus 4.7 đọc instruction từng chữ. Nghe có vẻ hay, nhưng Anthropic cảnh báo thẳng: prompt cũ viết cho 4.6 — loại mà model tự “diễn giải” linh hoạt — có thể cho ra kết quả khác bây giờ. Bạn cần re-tune lại harness của mình.

👁️

Vision nâng cấp mạnh: 3.75 Megapixel

Trước đây model chỉ xử lý ảnh khoảng 1MP. Giờ nhận ảnh lên tới 2,576px long edge (~3.75MP) — gấp hơn 3 lần. Mở ra rất nhiều usecase: đọc dense screenshot, extract bảng biểu từ PDF scan, computer-use agent cần pixel-perfect reference.

🗂️

Memory qua filesystem tốt hơn

Trong các multi-session workflow, model ghi nhớ note quan trọng và tự carry context sang task tiếp theo — giảm đáng kể lượng context phải feed lại từ đầu.

⚙️

Effort level mới: xhigh

Nằm giữa high và max. Trong Claude Code, effort default đã được nâng lên xhigh cho tất cả plan. Cho coding và agentic task, Anthropic khuyến nghị bắt đầu với high hoặc xhigh.

💸

Task Budgets (Public Beta)

Developer có thể guide Claude về token spend, giúp model ưu tiên công việc trong long-running task mà không bị “cháy” context vào chỗ không cần thiết.

🔍

/ultrareview trong Claude Code

Slash command mới: model đọc toàn bộ thay đổi code và flag bugs + design issues — kiểu “senior reviewer” ảo. Pro và Max user nhận 3 ultrareview miễn phí để thử.

🤖

Auto mode mở rộng cho Max users

Claude tự quyết định permission thay bạn — chạy task dài hơn với ít interrupt hơn. Trước đây chỉ có trên một số plan nhất định.

Benchmark Thực Tế — Số Liệu Từ Partner

Mình không lấy số benchmark “lab-made” của Anthropic để cho trông đẹp. Dưới đây là số thật từ các công ty đã chạy early-access với Opus 4.7 trên production workload của họ. Đây là loại số khó fake nhất.

// Coding & Agentic Workflows

Cursor · CursorBench

Tỷ lệ resolve task coding

4.7

70%

4.6

58%

Notion Agent · 93-task benchmark

Resolution rate, ít token hơn, 1/3 tool errors

gain

+14%

error

1/3 errors

Rakuten · Rakuten-SWE-Bench

Production task resolution so với 4.6

4.7

3× hơn

Factory Droids · Enterprise engineering

Task success rate, ít tool error hơn

gain

+10–15%

Bolt · Long-running app building

Task success, không có regression

gain

+10% (best case)

// Code Review

CodeRabbit · Complex PR review

Bug recall tăng, precision giữ nguyên

recall

>10%

Harvey · BigLaw Bench (legal AI)

Substantive accuracy at high effort

4.7

90.9%

// Vision

XBOW · Visual-Acuity Benchmark (computer-use agent)

Độ chính xác nhận dạng thị giác

4.7

98.5%

4.6

54.5%

📌 Context về XBOW

XBOW là nền tảng autonomous penetration testing. Điểm 98.5% vs 54.5% trên visual-acuity không phải benchmark lab — đây là production workload thật. CEO của XBOW nói thẳng: pain point lớn nhất của Opus 4.6 “biến mất hoàn toàn” và mở ra cả một class usecase mà trước đây không dùng được.

“Claude Opus 4.7 autonomously built a complete Rust text-to-speech engine from scratch — neural model, SIMD kernels, browser demo — then fed its own output through a speech recognizer to verify it matched the Python reference. Months of senior engineering, delivered autonomously.”

— Sean Ward, CEO Cartesia

Cái quote này nói lên rất nhiều về khả năng self-verification — model tự build xong rồi tự test lại output của mình. Không cần human in the loop ở từng bước.

Cải Tiến Vision — Số Liệu Cụ Thể

Nếu bạn đang build bất kỳ thứ gì liên quan đến image processing, computer-use agent, hay document extraction, đây là thứ quan trọng nhất trong release này với bạn.

Thông số	Opus 4.6 (trước)	Opus 4.7 (mới)
Long edge tối đa	~800px (ước lượng)	2,576 px
Megapixel tối đa	~1 MP	~3.75 MP
Cách áp dụng	API parameter	Model-level (tự động)
Token consumption	Thấp hơn	Cao hơn nếu ảnh lớn

⚠️ Lưu ý về Token

Vì vision upgrade là model-level, không phải API parameter, ảnh bạn gửi lên sẽ tự động được xử lý ở độ phân giải cao hơn. Nếu bạn không cần chi tiết đó, hãy downsample ảnh trước khi gửi để tránh tốn token không cần thiết.

Giá Cả & Availability

Một trong những điểm hay nhất của release này: giá không tăng. Anthropic giữ nguyên pricing từ Opus 4.6.

Loại token	Giá / 1M tokens	So sánh
Input tokens	$5	Giữ nguyên từ Opus 4.6
Output tokens	$25	Giữ nguyên từ Opus 4.6

Model string khi gọi API: claude-opus-4-7

// Platforms hỗ trợ

Opus 4.7 available ngay hôm nay trên tất cả Claude products, API, Amazon Bedrock, Google Cloud Vertex AI, và Microsoft Foundry. Không cần waitlist, không cần request access đặc biệt — trừ Cyber Verification Program (xem mục Safety bên dưới).

💡 Fast Mode vẫn available

Fast mode (speed: "fast") từ Opus 4.6 vẫn hoạt động với Opus 4.7, cho output nhanh hơn 2.5× với premium pricing $30/$150 per MTok. Cùng model, cùng intelligence — chỉ inference nhanh hơn.

Sử Dụng Qua API — Quick Start

Nếu bạn đang dùng Opus 4.6, migrate về cơ bản chỉ cần đổi model string. Nhưng để tận dụng tính năng mới, đây là một số pattern recommended:

// Basic call với adaptive thinking

# Python SDK — adaptive thinking (không còn dùng budget_tokens nữa)
import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",        # ← model string mới
    max_tokens=16000,
    thinking={"type": "adaptive"},  # ← không dùng "enabled" + budget_tokens nữa
    effort="xhigh",              # ← level mới: xhigh nằm giữa high và max
    messages=[{
        "role": "user",
        "content": "Review this codebase and find all race conditions"
    }]
)

// Task budget — control token spend

# Task budgets — public beta
response = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=32000,
    betas=["task-budgets-2026-04-01"],
    task_budget={
        "max_tokens": 20000     # Claude sẽ cố gắng complete trong budget này
    },
    messages=[...]
)

⚠️ Deprecated: thinking type “enabled”

thinking: {"type": "enabled", "budget_tokens": N} đã deprecated trên cả Opus 4.6 và 4.7. Vẫn chạy được nhưng sẽ bị remove trong future release. Migrate sang {"type": "adaptive"} với effort parameter.

Migration Guide — Những Thứ Có Thể Break

Anthropic rất thẳng thắn về hai thay đổi có thể ảnh hưởng đến workflow cũ của bạn. Đây không phải lý thuyết — đây là production gotcha thật.

// Gotcha #1: Tokenizer mới

Opus 4.7 dùng tokenizer cập nhật. Cùng một input text nhưng có thể tốn 1.0× đến 1.35× token tùy loại content. Với code-heavy workflow, con số 1.35× sẽ ảnh hưởng đến cost trực tiếp.

Hành động: Đừng assume cost giống cũ. Measure token usage thật trên real traffic trước khi full migrate. Anthropic có migration guide tại platform.claude.com/docs/en/about-claude/models/migration-guide

// Gotcha #2: Instruction Following “Too Literal”

Đây là thứ subtle nhất và khó catch nhất. Opus 4.6 có xu hướng interpret instruction một cách linh hoạt — bỏ qua phần không rõ, tự “fill in the blanks” theo intent. Opus 4.7 làm ngược lại: nó đọc literal.

Ví dụ: nếu prompt của bạn nói “reply in JSON” nhưng có một edge case mà bạn muốn model tự xử lý, Opus 4.6 có thể đã tự quyết. Opus 4.7 sẽ trả về JSON dù bất kể gì — đúng instruction, nhưng không phải intent.

Hành động: Re-read tất cả system prompt và harness config. Bất kỳ instruction nào mà bạn đang dựa vào việc model “tự hiểu” — viết lại cho explicit.

Tin tốt là: Anthropic report rằng tổng token usage across all effort levels vẫn improved trong internal coding evaluation — model xử lý được nhiều hơn với ít token hơn tính trên task được hoàn thành. Con số 1.35× overhead của tokenizer sẽ được offset bởi việc model cần ít attempt hơn.

Safety, Alignment & Câu Chuyện Mythos

Đây là phần thú vị nhất từ góc độ kỹ thuật — và cũng là phần mà nhiều bài viết khác bỏ qua.

// Opus 4.7 & Project Glasswing

Tuần trước Anthropic công bố Project Glasswing — highlighting rủi ro và lợi ích của AI trong cybersecurity. Đồng thời họ announce một model mạnh hơn gọi là Claude Mythos Preview, nhưng giữ release rất hạn chế vì cyber capability của nó quá mạnh.

Opus 4.7 là testbed đầu tiên cho cách tiếp cận mới: Anthropic đã thử nghiệm giảm thiểu có chọn lọc cyber capability của model trong quá trình training, và deploy safeguard tự động detect + block các request liên quan đến prohibited cybersecurity use.

🔒 Cyber Verification Program

Security professional cần dùng Opus 4.7 cho legitimate purpose (vulnerability research, penetration testing, red-teaming) có thể đăng ký Cyber Verification Program tại claude.com/form/cyber-use-case. Không phải mọi cybersecurity usecase đều bị block — chỉ những thứ được classifier đánh giá là high-risk.

// Safety Profile — Honest Assessment

Anthropic publish alignment assessment thẳng thắn: Opus 4.7 có safety profile tương tự Opus 4.6. Cải thiện ở honesty và resistance to prompt injection. Yếu hơn nhẹ ở harm-reduction advice cho controlled substances. Kết luận overall: “largely well-aligned and trustworthy, though not fully ideal in its behavior“.

Mythos Preview vẫn là model well-aligned nhất theo internal evaluation. Opus 4.7 không pretend otherwise.

Kết Luận — Nên Dùng Không?

// Verdict của mình

Yes.

Với điều kiện bạn đọc migration gotcha trước khi migrate

Opus 4.7 không phải “update cho có”. Từ CursorBench 70% đến XBOW visual-acuity 98.5%, từ Rakuten 3× production task resolution đến Databricks 21% ít lỗi hơn trong document reasoning — đây là những con số từ production workload thật, không phải benchmark được thiết kế để model “chiến thắng”.

Giá không đổi. Vision gấp 3 lần. Instruction following chặt hơn. /ultrareview trong Claude Code là bổ sung thực sự hữu ích cho workflow code review.

Thứ duy nhất cần cẩn thận: đừng blind-migrate production. Test kỹ tokenizer overhead và re-audit system prompt. Đó là thứ mà dữ liệu thật khuyến cáo.

❌ Không phù hợp nếu

Bạn cần cyber capability cao (→ chờ Mythos Preview) · Bạn có budget constraint chặt và chưa test tokenizer impact · Bạn cần model “diễn giải linh hoạt” instruction cũ

✓ Nên upgrade nếu

Bạn đang chạy agentic coding workflow · Bạn cần xử lý ảnh resolution cao (scan, screenshot, diagram) · Bạn dùng computer-use agent · Bạn cần model follow instruction chính xác trong long-running task · Bạn muốn thử /ultrareview cho code review

// Tài liệu tham khảo

Tất cả số liệu trong bài đến từ: anthropic.com/news/claude-opus-4-7 (official blog, publish 16/4/2026) và documentation chính thức tại platform.claude.com.

TL;DR — Tóm Tắt Trong 30 Giây

Những Gì Mới Trong Opus 4.7

Benchmark Thực Tế — Số Liệu Từ Partner

Cải Tiến Vision — Số Liệu Cụ Thể

Giá Cả & Availability

Sử Dụng Qua API — Quick Start

Migration Guide — Những Thứ Có Thể Break

Safety, Alignment & Câu Chuyện Mythos

Kết Luận — Nên Dùng Không?

Có thể bạn sẽ thích

Google I/O 2026: Gemini 3.5 Flash Trình Làng – Kỷ Nguyên Trợ Lý AI “Tự Hành” Cho Dân Dev

Không thể chậm chân, Anthropic ra mắt Claude Design

Project Glasswing: Khi Anthropic train ra con AI biết hack rồi… không dám thả ra public

Bình luận (0)