Photo by cottonbro studio: https://www.pexels.com/photo/a-woman-looking-afar-5473955/
Tren Leisure

AI Mengalahkan 30 Matematikawan Top Dunia dalam Pertemuan Rahasia

  • Para matematikawan terkemuka dunia tercengang oleh betapa mahirnya kecerdasan buatan dalam melakukan pekerjaan mereka.

Tren Leisure

Amirudin Zuhri

JAKARTA- Pada akhir pekan di pertengahan Mei 2025 sebuah pertemuan matematika rahasia diadakan. Sebanyak 30 matematikawan paling terkenal di dunia pergi ke Berkeley, California, dengan beberapa datang dari jauh seperti Inggris. 

Para anggota kelompok berhadapan dalam pertarungan dengan chatbot "penalaran" yang bertugas memecahkan masalah yang telah mereka rancang untuk menguji kehebatan matematikanya. Setelah melemparkan pertanyaan tingkat profesor pada bot selama dua hari, para peneliti terkejut menemukan bahwa bot itu mampu menjawab beberapa masalah yang paling sulit dipecahkan di dunia . 

"Saya memiliki rekan-rekan yang benar-benar mengatakan model-model ini mendekati kejeniusan matematika," kata Ken Ono, matematikawan di University of Virginia dan   pemimpin serta juri pada pertemuan tersebut dikutip Live Science Senin 14 Juli 2025.

Chatbot yang dimaksud didukung oleh o4-mini , yang disebut sebagai model bahasa besar penalaran (LLM). Chatbot ini dilatih oleh OpenAI agar mampu membuat deduksi yang sangat rumit. Padanan Google, Gemini 2.5 Flash , memiliki kemampuan serupa. 

Seperti LLM yang mendukung versi ChatGPT sebelumnya, o4-mini belajar memprediksi kata berikutnya dalam suatu urutan. Namun, dibandingkan dengan LLM sebelumnya, o4-mini dan padanannya adalah model yang lebih ringan dan lebih gesit yang dilatih pada kumpulan data khusus dengan penguatan yang lebih kuat dari manusia. Pendekatan ini menghasilkan chatbot yang mampu menyelami masalah matematika yang kompleks jauh lebih dalam daripada LLM tradisional .

Untuk melacak perkembangan o4-mini, OpenAI sebelumnya menugaskan Epoch AI, sebuah lembaga nirlaba yang melakukan benchmarking LLM, untuk menghasilkan 300 soal matematika yang solusinya belum dipublikasikan. Bahkan LLM tradisional pun dapat menjawab banyak soal matematika yang rumit dengan benar. Namun, ketika Epoch AI mengajukan beberapa pertanyaan   kepada model-model tersebut, yang berbeda dengan pertanyaan yang telah mereka gunakan dalam pelatihan, model yang paling berhasil hanya mampu menyelesaikan kurang dari 2 persen. Ini  menunjukkan bahwa LLM ini kurang memiliki kemampuan untuk bernalar. Namun, o4-mini terbukti sangat berbeda.

Epoch AI mempekerjakan Elliot Glazer, yang baru saja menyelesaikan gelar Ph.D. matematikanya, untuk bergabung dalam kolaborasi baru untuk benchmark  yang dijuluki FrontierMath  pada bulan September 2024. Proyek tersebut mengumpulkan pertanyaan-pertanyaan baru pada berbagai tingkatan kesulitan, dengan tiga tingkatan pertama mencakup tantangan tingkat sarjana, pascasarjana, dan penelitian. 

Pada bulan April 2025, Glazer menemukan bahwa o4-mini dapat memecahkan sekitar 20 persen dari pertanyaan-pertanyaan tersebut. Dia kemudian pindah ke tingkatan keempat: serangkaian pertanyaan yang akan menantang bahkan untuk seorang matematikawan akademis. 

Belajar Cepat

Hanya sekelompok kecil orang di dunia yang mampu mengembangkan pertanyaan-pertanyaan seperti itu, apalagi menjawabnya. Para matematikawan yang berpartisipasi harus menandatangani perjanjian kerahasiaan yang mengharuskan mereka untuk berkomunikasi hanya melalui aplikasi perpesanan Signal. Bentuk kontak lain, seperti email tradisional, berpotensi dipindai oleh LLM dan secara tidak sengaja melatihnya, sehingga mengontaminasi kumpulan data.

Setiap soal yang tidak dapat dipecahkan oleh o4-mini akan memberikan hadiah sebesar US$7.500 kepada matematikawan yang menemukannya. Kelompok tersebut mengalami kemajuan yang lambat namun pasti dalam menemukan pertanyaan. Namun Glazer ingin mempercepat prosesnya, sehingga Epoch AI menyelenggarakan pertemuan tatap muka pada hari Sabtu, 17 Mei, dan Minggu, 18 Mei. 

Di sana, para peserta akan menyelesaikan kumpulan soal tantangan terakhir. Ke-30 peserta dibagi menjadi kelompok-kelompok yang terdiri dari enam orang. Selama dua hari, para akademisi berkompetisi satu sama lain untuk merancang soal yang dapat mereka selesaikan tetapi akan membuat bot penalaran AI tersebut kesulitan.

Di penghujung Sabtu malam itu, Ono frustrasi dengan bot  yang kehebatan matematikanya  tak terduga justru menggagalkan kemajuan kelompok. "Saya menemukan sebuah soal yang para ahli di bidang saya kenali sebagai pertanyaan terbuka dalam teori bilangan — soal tingkat Ph.D. yang bagus," ujarnya. Ia meminta o4-mini untuk menyelesaikan soal tersebut. 

Selama 10 menit berikutnya, Ono menyaksikan dengan tercengang saat bot tersebut mengungkap solusi secara langsung, menunjukkan proses penalarannya di sepanjang prosesnya. Bot tersebut menghabiskan dua menit pertama untuk mencari dan menguasai literatur terkait di bidang tersebut. Kemudian ia menulis di layar bahwa ia ingin mencoba memecahkan versi "mainan" yang lebih sederhana dari soal tersebut terlebih dahulu untuk belajar. 

Beberapa menit kemudian, ia menulis bahwa ia akhirnya siap untuk memecahkan soal yang lebih sulit. Lima menit setelah itu, o4-mini menyajikan solusi yang tepat namun berani. "Ini mulai menjadi sangat berani," kata Ono, yang juga merupakan konsultan matematika lepas untuk Epoch AI. "Dan di bagian akhir, tertulis, 'Tidak perlu kutipan karena angka misteri itu sudah saya hitung!'"