Google resmi memperluas jangkauan Kaggle Benchmarks ke lingkungan pengembangan lokal. Mulai sekarang, para developer dapat membuat, memvalidasi, dan menjalankan tugas evaluasi model AI langsung dari VSCode, Cursor, hingga Antigravity tanpa perlu berpindah ke notebook editor berbasis web.

Kaggle Benchmarks Turun ke Editor Lokal, Tinggalkan Notebook Web

Lewat pengumuman resmi di blog Kaggle pada 4 Juni 2026, Google memperkenalkan integrasi Kaggle CLI dengan AI coding agent. Dengan kombinasi ini, alur kerja "membuat — memvalidasi — push — menjalankan — mengunduh" tugas evaluasi dapat sepenuhnya dilakukan di lingkungan lokal developer. Sebelumnya, seluruh proses harus dilakukan melalui notebook editor berbasis browser yang disediakan Kaggle.

Lingkungan yang disebutkan secara resmi mencakup Antigravity, VSCode, dan Cursor, serta berbagai AI coding agent populer lainnya. Pengumuman ini disampaikan oleh Nicholas Kang (Product Manager, Kaggle) dan Andrew Wang (Software Engineer, Kaggle).

Sejak diluncurkan, Kaggle Benchmarks telah menghimpun lebih dari 10.000 test case dari komunitas AI global. Dengan dukungan lokal ini, Google menilai hambatan untuk membuat evaluation set akan semakin rendah, sehingga jarak antara ide dan eksekusi menjadi lebih dekat.

write-kaggle-benchmarks Skill: Cukup Minta dengan Bahasa Natural

Sorotan utama dari pembaruan ini adalah skill baru bernama write-kaggle-benchmarks. Skill ini memberikan instruksi terstruktur kepada AI agent tentang cara menggunakan SDK kaggle-benchmarks dan Kaggle CLI untuk membangun tugas evaluasi.

Langkah penggunaannya cukup sederhana:

  • Minta agent menginstal skill dengan perintah: "Install the write-kaggle-benchmarks skill: https://github.com/Kaggle/kaggle-skills"
  • Setelah skill terpasang, deskripsikan tugas evaluasi yang diinginkan dengan bahasa natural. Contoh: "Buatkan task yang menanyakan ke model apakah 300+140=460 itu benar"
  • Agent akan secara otomatis menghasilkan tugas yang siap dijalankan di Kaggle

Dengan pendekatan ini, developer cukup fokus merumuskan ide evaluasi. Detail template, struktur API, dan boilerplate ditangani sepenuhnya oleh agent. Video peluncuran resmi tersedia di YouTube.

Mengapa Evaluasi Berbasis Komunitas Jadi Penting bagi Persaingan Lab AI

Google menjelaskan bahwa Kaggle Benchmarks diluncurkan sebagai respons terhadap evolusi model AI — dari sekadar chatbot menjadi reasoning agent yang dapat menulis kode, memakai tool, dan memecahkan masalah kompleks. Menurut Google, benchmark tradisional dinilai sudah tidak lagi memadai, sehingga dibutuhkan evaluasi dinamis dan ketat yang dibuat oleh orang-orang yang benar-benar menggunakan model di dunia nyata.

Google menegaskan bahwa "kemampuan yang bisa diukur akan mendorong setiap lab AI berkompetisi untuk memperbaikinya". Sinyal objektif yang kredibel inilah yang ingin dibangun lewat ekosistem Kaggle Benchmarks, agar evaluation set yang mencerminkan keragaman tantangan di lapangan dapat dibuat oleh siapa saja di seluruh dunia.

Apa Artinya bagi Developer dan Komunitas AI Indonesia

Bagi developer di Indonesia yang banyak menggunakan VSCode atau Cursor sebagai editor harian, dukungan lokal ini menghilangkan friksi context switching yang selama ini menjadi penghambat. Ide evaluasi yang muncul saat sedang ngoprek model bisa langsung diwujudkan di tempat.

Yang lebih menarik, kombinasi AI coding agent dan skill write-kaggle-benchmarks menggeser pekerjaan benchmark dari "menulis kode" menjadi "menulis kebutuhan". Artinya, domain expert di bidang hukum, kesehatan, pendidikan, hingga customer support — yang belum tentu paham SDK atau API — kini punya peluang untuk membuat evaluation set sendiri dengan bahasa natural.

Hal ini relevan bagi tim AI lokal di Indonesia, terutama startup AI yang sedang membangun produk berbasis LLM untuk pasar berbahasa Indonesia. Kecepatan dan akurasi membuat evaluation set yang sesuai dengan use case spesifik (misalnya layanan perbankan digital, e-commerce, atau healthtech) berkaitan langsung dengan kualitas pemilihan dan fine-tuning model. Sebagai langkah awal, tim internal dapat mencoba memasang skill write-kaggle-benchmarks di agent yang biasa dipakai, lalu membuat satu test case sederhana untuk merasakan alur kerjanya.

Sumber