AI Hebat, Data Sekarat

6 hours ago 6

Oleh Ahmadie Thaha, Kolomnis

REPUBLIKA.CO.ID, Di sebuah pagi yang tampak biasa di kampus Universitas Gadjah Mada (UGM) Yogyakarta, sejarah kecil terjadi. Bukan karena demonstrasi mahasiswa yang mengguncang pagar kampus, bukan pula karena berlangsung seminar yang penuh jargon dan kopi dingin.

Pagi itu, di hari yang sama, sepasang suami-istri, Prof Edi Winarko dan Prof Tutik Dwi Wahyuningsih, berdiri sejajar dan bersama mencapai puncak akademik: guru besar. Di negeri yang sering lebih sibuk mengejar gelar ketimbang mengejar mutu, momen ini terasa seperti anomali yang menyenangkan, sekaligus menyentil diam-diam.

Namun yang lebih penting dari seremoni itu bukanlah toga, bukan pula pidato ucapan terima kasih penuh haru. Melainkan satu gagasan yang, jika ditarik sampai ke ujungnya, bisa membuat kita sedikit gelisah: kecerdasan buatan ternyata ditentukan bukan terutama oleh kecerdasan mesin, tapi oleh kualitas data yang kita berikan.

Dalam pidato ilmiahnya yang berjudul “Data Berkualitas, AI Berdaya: Pentingnya Pendekatan Data-Centric dalam Penerapan Kecerdasan Buatan di Dunia Nyata”, Prof Edi Winarko menjelaskan pergeseran penting dalam dunia AI, sekaligus memberi kita sentilan tentang posisi kita dalam bidang akal imitasi ini.

Selama ini, perkembangan AI lebih banyak didorong oleh pendekatan model-centric, yaitu memperbaiki algoritma, menambah kompleksitas arsitektur, dan memperbesar jumlah parameter. Dari Convolutional Neural Network (CNN) hingga transformer, semua berlomba menjadi lebih pintar.

Namun, menurut beliau, persoalan utama di lapangan sering kali bukan pada model, melainkan pada data. Model yang sama bisa menghasilkan performa sangat berbeda jika dilatih dengan data yang berbeda.

Karena itu, pendekatan data-centric menjadi krusial. Di sini, data harus dibersihkan, distandardisasi, diberi label dengan benar, dan terus diperbaiki kualitasnya. AI dianalogikan seperti mobil balap. Mesin boleh canggih, tapi tanpa bahan bakar berkualitas, ia hanya akan berputar di tempat.

Masalahnya, kita ini seperti bangsa yang bangga membeli mobil balap, tapi mengisinya dengan bensin eceran. Punya mobil Mercy, tapi diisi bensin oplosan di perempatan jalan. Lebih tragis lagi, kita sibuk memoles bodinya, sementara mesinnya dibiarkan batuk-batuk.

Dunia hari ini memang sedang mabuk model. Model, maksudnya, adalah hasil dari proses belajar dari data. Ia bukan data itu sendiri, melainkan pola yang diserap dari data. Jadi kalau data adalah buku-buku yang dibaca, maka model adalah isi kepala setelah membaca semua buku itu.

Dalam bahasa sangat sederhana, model AI itu seperti “otak buatan” yang belajar dari pengalaman. Bayangkan seorang anak kecil. Ia belum tahu apa itu kucing. Lalu ia melihat banyak gambar kucing, mendengar orang menyebut “ini kucing”, dan perlahan ia bisa mengenali kucing tanpa diajari rumus apa pun.

Proses belajar itu menghasilkan “pemahaman” di dalam kepalanya. Itulah analoginya dengan model. Nama-nama seperti OpenAI, Google, Meta, Microsoft, dan Alibaba disebut dengan penuh kekaguman, karena menghasilkan model-model kuat melalui proses training dan fine-tuning atas data.

Kita bicara tentang GPT, Gemini, LLaMA, DeepSeek, Qwen, Gemma, dan berbagai model besar lain seakan-akan itu adalah puncak peradaban manusia. Kita membahas fine-tuning, inference, dan latency seperti sedang membaca kitab suci teknologi. Namun kita lupa satu hal sederhana: semuanya hidup dari data.

Lalu di tengah kehebatan raksasa tadi, kita heran, mengapa kita bangsa Indonesia seolah tak punya data. Lihat saja, misalnya di bidang text-to-speech (TTS) kelas dunia, jarang yang benar-benar fasih berbahasa Indonesia. Itu karena model-model TTS tidak memiliki dataset bahasa Indonesia yang memadai.

Di titik ini, ironi kita menjadi agak lucu, sekaligus menyedihkan. Kita ribut memilih model terbaik, padahal datanya tidak siap. Kita berdebat GPT mana paling canggih, tapi korpus bahasa sendiri berantakan. Kita ingin suara AI terdengar “Indonesia banget”, tapi tak pernah serius mengumpulkan suara orang Indonesia.

Ibarat mau bikin rendang kelas dunia, tapi dagingnya pinjam, santannya impor, dan bumbunya hasil googling.

Model-model TTS seperti WaveNet dari Google, VALL-E dari Microsoft, Voicebox dari Meta, hingga sistem suara dari OpenAI atau ElevenLabs, menghadirkan bahasa Indonesia setengah hati. Kadang ada, tapi terasa kaku. Kadang tidak ada sama sekali.

Jika pun berbicara, terdengar seperti turis asing yang baru tiga hari belajar mengucapkan “ngopi”. Masih bisa dipahami, tapi rasa Indonesianya terasa “asing”. Ini bukan karena mereka tidak mampu, melainkan karena kita tidak memberi mereka data untuk dipelajari.

Mari tengok lebih jauh. Kontribusi riset AI Indonesia masih relatif kecil dalam lanskap global. Dalam berbagai laporan internasional, jumlah publikasi ilmiah Indonesia di bidang AI berada di bawah satu persen dari total dunia. Bukan hanya soal jumlah, tetapi juga soal kualitas dan dampaknya.

Lalu kita bertanya: di mana masalahnya?

Apakah kita kekurangan data? Rasanya tidak. Kita punya jutaan dokumen, dari artikel berita, karya sastra, kitab-kitab klasik, hingga ceramah keagamaan yang tersebar di berbagai platform. Kita punya ratusan bahasa daerah dengan kekayaan ekspresi yang luar biasa. Kita punya percakapan sehari-hari yang hidup dan dinamis.

Masalahnya, semua itu tidak menjadi dataset. Ia hanya menjadi tumpukan. Kalau pun ada, sering kali tidak berkualitas. Data berkualitas itu bukan sekadar banyak. Ia harus bersih dari kesalahan, konsisten dalam format, jelas dalam konteks, dan terkurasi dengan baik.

Data dari Wikipedia bisa berguna, tapi tidak cukup. Data dari kitab-kitab klasik bisa sangat berharga, tetapi perlu anotasi. Data percakapan bisa memperkaya model, tetapi harus dipilah. Semua itu membutuhkan kerja panjang: mengumpulkan, membersihkan, memberi label, mengevaluasi, dan memperbaiki secara berulang.

Perusahaan-perusahaan besar seperti OpenAI, Google, Meta, Microsoft, dan Alibaba memahami ini dengan sangat serius. Mereka membangun tim khusus untuk kurasi data, membuat pipeline pembersihan, melakukan deduplikasi, dan menetapkan standar kualitas yang ketat. Mereka tidak hanya membangun model.

Mereka merawat data seperti petani merawat sawah. Sementara kita masih sibuk menanam tanpa pernah mencangkul. Bahkan kadang, sawahnya belum jelas, kita sudah sibuk panen wacana.

Padahal, secara teknis, membangun dataset berkualitas untuk bahasa Indonesia bukan hal mustahil. Apalagi jika negara mau turun tangan, dengan alasan strategis sekaligus kultural: menjaga bahasa dari kepunahan. BRIN dan Badan Bahasa semestinya terlibat penuh.

Kita bisa menyusun korpus bahasa baku, menambahkan variasi dialek, melibatkan ahli linguistik, dan membuat standar anotasi nasional. Kita bahkan bisa membuka kolaborasi lintas kampus dan lembaga untuk membangun dataset terbuka yang bisa digunakan bersama.

Yang tampaknya lebih sulit justru bukan teknologinya, melainkan ketekunannya, juga political will-nya. Kita terlalu cepat puas menjadi pengguna. Terlalu nyaman menjadi pasar. Kita unduh model, kita pakai, kita kagum, lalu selesai. Seolah-olah masa depan bisa diimpor seperti aplikasi di ponsel.

Padahal, masa depan dibangun dari pekerjaan yang tidak glamor: membersihkan data satu per satu, memberi label dengan sabar, memperbaiki kesalahan kecil yang nyaris tak terlihat, tapi menentukan segalanya.

Di titik ini, pidato Prof Edi Winarko terasa seperti pengingat yang sunyi namun tajam. Bahwa AI bukan sekadar perlombaan siapa paling pintar membuat model LLM, tetapi siapa paling sabar membangun fondasi data.

Dan mungkin, jika kita jujur, krisis kita bukan krisis teknologi, melainkan krisis ketekunan.

Karena pada akhirnya, AI hanyalah cermin. Ia memantulkan apa yang kita berikan. Jika datanya kacau, hasilnya pun pincang.

Dan jangan heran, jika suatu hari nanti, mesin bisa berbicara dalam ratusan bahasa dunia dengan fasih, tetapi masih tersendat-sendat ketika menyebut: Indonesia.

Ma'had Tadabbur al-Qur'an, 12/4/2026

Disclaimer: Pandangan yang disampaikan dalam tulisan di atas adalah pendapat pribadi penulisnya yang belum tentu mencerminkan sikap Republika soal isu-isu terkait.

Read Entire Article