Anthropic Rilis Claude Opus 4.8: SWE-Bench Pro 69,2% dan Fast Mode 2,5x Lebih Cepat

Anthropic secara resmi meluncurkan Claude Opus 4.8 pada 28 Mei 2026, menghadirkan peningkatan signifikan di bidang kecepatan, efisiensi biaya, dan kejujuran model. Fast mode pada Opus 4.8 diklaim 2,5 kali lebih cepat dari generasi sebelumnya dengan biaya hanya sepertiga dari tarif lama — sebuah lompatan yang relevan bagi pengembang maupun organisasi yang mengandalkan AI untuk otomasi skala besar.

Skor SWE-Bench Pro 69,2%: Unggul di Banyak Tolok Ukur, Kecuali Terminal Coding

Berdasarkan evaluasi internal Anthropic, Claude Opus 4.8 meraih skor 69,2% pada SWE-Bench Pro — tolok ukur yang mengukur kemampuan model dalam menyelesaikan isu nyata pada repositori perangkat lunak. Anthropic mengklaim Opus 4.8 melampaui GPT-5.5 dan Gemini 3.1 Pro pada SWE-Bench Pro serta sejumlah tolok ukur lainnya.

Perlu dicatat, klaim ini berasal dari evaluasi yang dilakukan Anthropic sendiri, bukan pihak independen. Selain itu, Anthropic secara terbuka mengakui bahwa GPT-5.5 masih unggul pada tolok ukur terminal coding — yakni pengujian kemampuan penulisan kode langsung di lingkungan terminal. Artinya, posisi Opus 4.8 lebih tepat digambarkan sebagai model dengan keunggulan menyeluruh, bukan dominasi mutlak di semua aspek.

Aspek	Claude Opus 4.8
SWE-Bench Pro	69,2% (melampaui GPT-5.5 & Gemini 3.1 Pro, klaim Anthropic)
Terminal Coding	GPT-5.5 masih unggul
Kecepatan Fast Mode	2,5x lebih cepat dari generasi sebelumnya
Biaya Fast Mode	Sepertiga dari tarif generasi sebelumnya

Tingkat Kejujuran Meningkat: Cacat Kode yang Terlewat Turun Drastis

Salah satu aspek yang paling ditekankan Anthropic dalam peluncuran ini adalah peningkatan "honesty" atau kejujuran model. Dalam evaluasi internal, probabilitas Opus 4.8 melewatkan cacat pada kode yang ditulisnya sendiri turun menjadi sekitar seperempat dibandingkan Opus 4.7.

Para penguji awal melaporkan bahwa Opus 4.8 terasa "lebih andal dan lebih tajam dalam penilaiannya" saat menjalankan tugas-tugas berbasis agen. Pada evaluasi keselarasan (alignment), model ini mencapai standar baru dalam karakteristik prososial — seperti mendukung otonomi pengguna — sementara tingkat perilaku menyimpang seperti penipuan dilaporkan lebih rendah dari Opus 4.7 dan setara dengan Claude Mythos Preview.

Bagi tim pengembang yang mendelegasikan penulisan kode kepada AI, penurunan tingkat cacat yang terlewat ini berdampak langsung pada efisiensi proses review — lebih sedikit waktu terbuang untuk memeriksa ulang output model.

Tiga Fitur Baru: Dynamic Workflows, Effort Control, dan Messages API

Bersamaan dengan pembaruan model, Anthropic memperkenalkan tiga fitur baru:

Dynamic Workflows (Research Preview): Memungkinkan Claude Code menyusun rencana kerja lalu menjalankan ratusan sub-agen secara paralel dalam satu sesi. Fitur ini dirancang untuk tugas berskala besar seperti migrasi basis kode berukuran ratusan ribu baris. Tersedia eksklusif untuk paket Enterprise, Team, dan Max di Claude Code.
Effort Control: Tersedia di Claude.ai dan Cowork, fitur ini memungkinkan pengguna mengatur seberapa besar "upaya" yang dikeluarkan Claude dalam merespons. Pengaturan lebih rendah menghasilkan respons lebih cepat dengan konsumsi batas penggunaan yang lebih hemat. Opus 4.8 secara bawaan menggunakan pengaturan high untuk menjaga kualitas.
Messages API: Pengembang kini dapat menyisipkan entri sistem di dalam array pesan, sehingga instruksi kepada Claude dapat diperbarui di tengah-tengah tugas yang sedang berjalan.

Sebagai catatan penting, Dynamic Workflows hanya tersedia untuk paket berbayar tingkat atas. Pengguna individu atau tim dengan paket dasar perlu memverifikasi langganan organisasi mereka sebelum berharap dapat mengakses fitur ini.

Harga Tidak Berubah untuk Penggunaan Reguler

Tarif penggunaan reguler Claude Opus 4.8 tidak mengalami perubahan dari Opus 4.7. Penurunan biaya hingga sepertiga hanya berlaku untuk fast mode. Dengan kata lain, pengguna yang selama ini menggunakan Opus 4.7 melalui API standar atau Claude.ai akan langsung menikmati peningkatan kualitas tanpa tambahan biaya.

Anthropic juga mengungkapkan bahwa mereka tengah mengerjakan dua arah pengembangan: model dengan kemampuan setara Opus 4.8 namun dengan biaya lebih rendah, serta kelas model baru yang melampaui kemampuan Opus secara keseluruhan.

Claude Mythos: Peluncuran Penuh Diperkirakan dalam Beberapa Minggu

Model "Claude Mythos" yang saat ini masih dalam uji coba terbatas di sejumlah organisasi terpilih diperkirakan akan tersedia untuk semua pelanggan "dalam beberapa minggu ke depan" — demikian menurut Anthropic. Perlu digarisbawahi bahwa ini adalah perkiraan, bukan jadwal yang dikonfirmasi.

Yang menarik, evaluasi keselarasan Opus 4.8 disebut setara dengan Mythos Preview. Hal ini menjadikan pengalaman menggunakan Opus 4.8 sebagai gambaran awal tentang bagaimana Mythos kemungkinan akan berperilaku saat diluncurkan secara penuh.

Bagi pengguna dan pengembang di Indonesia yang memanfaatkan Claude melalui API Anthropic atau platform seperti Amazon Bedrock dan Google Cloud Vertex AI, pembaruan ini dapat langsung dirasakan tanpa perlu menunggu rilis regional khusus — selama akses ke layanan tersebut sudah tersedia. Informasi mengenai ketersediaan langsung di pasar Indonesia belum diumumkan secara spesifik oleh Anthropic.

Sumber

MacRumors — Anthropic Launches Claude Opus 4.8 With Gains in Coding and Honesty

Anthropic Rilis Claude Opus 4.8: SWE-Bench Pro 69,2% dan Fast Mode 2,5x Lebih Cepat

Skor SWE-Bench Pro 69,2%: Unggul di Banyak Tolok Ukur, Kecuali Terminal Coding

Tingkat Kejujuran Meningkat: Cacat Kode yang Terlewat Turun Drastis

Tiga Fitur Baru: Dynamic Workflows, Effort Control, dan Messages API

Harga Tidak Berubah untuk Penggunaan Reguler

Claude Mythos: Peluncuran Penuh Diperkirakan dalam Beberapa Minggu

Sumber

Artikel Terkait

Claude Code Kini Punya Auto Memory: Belajar Lintas Sesi Tanpa Bergantung pada CLAUDE.md

Anthropic Serukan Perlambatan Global Riset AI Jelang IPO, Apa Dampaknya?

Trump Teken Perpres AI: Akses 30 Hari Pemerintah AS ke Model Frontier, Benchmark Dirahasiakan

"Ask YouTube" Hadir di TV: Cukup Bicara ke Remote, Langsung ke Adegan yang Dicari