Ensiklopedia Bebas di Era Kecerdasan Buatan

Wikipedia bahasa Indonesia telah berumur 20 tahun pada 30 Mei 2023. Sepanjang perjalanannya, sudah tidak terhitung berapa miliar kali halaman-halamannya dikunjungi dan berapa banyak pembaca yang mendapatkan informasi bermanfaat dari situs tersebut.

Tidak sedikit tantangan yang dihadapi oleh situs Wikipedia dan komunitas sukarelawan – biasa disebut Wikipediawan – yang tanpa pamrih menulis dan menyunting artikel. Tantangan terkini adalah hadirnya ChatGPT, Bard, dan teknologi kecerdasan buatan semacamnya (selanjutnya akan disebut Generative AI) yang semakin hari semakin canggih. Melalui Generative AI, pengguna bisa mendapatkan informasi tanpa harus membuka dan mengunjungi Wikipedia. Padahal, informasi yang diberikan ChatGPT sebagian besar bersumber dari kontribusi para Wikipediawan. Kondisi ini akan membuat jumlah pembaca Wikipedia menurun dan secara tidak langsung regenerasi sukarelawan tidak akan berjalan lancar.

Kehadiran Generative AI memudahkan penggunanya untuk menyusun berbagai macam karya tulis, termasuk di dalamnya artikel berita dan artikel ensiklopedia, dalam waktu sekejap. Hal ini tentu saja mencemaskan berbagai pihak, mulai dari pengajar hingga pekerjaan-pekerjaan yang terancam digantikan oleh Generative AI, seperti pemrogram, pemusik, seniman, penulis, dan penerjemah. Namun, alih-alih melihatnya dari kacamata seorang pesimis, saya melihat ada kesempatan yang besar dengan hadirnya teknologi Generative AI, terutama dalam hal menyelamatkan bahasa daerah dan ketimpangan informasi berbagai bahasa di dunia.

Bila kita lihat di internet, mayoritas informasi ditulis dalam bahasa Inggris (63%) dan bahasa Eropa lainnya (Rusia, Spanyol, Prancis, Jerman, dll.). Informasi dalam bahasa Indonesia dan bahasa-bahasa daerah di Indonesia hanya menempati porsi sangat kecil dari seluruh situs web yang ada (kurang dari satu persen). Kehadiran teknologi Generative AI dapat dimanfaatkan untuk membantu penerjemahan dan pembuatan konten ensiklopedia maupun berita dalam bahasa-bahasa di Indonesia yang berjumlah lebih dari 700 bahasa. Saat ini kualitas konten yang dihasilkan Generative AI dalam bahasa Indonesia sudah terbilang lumayan, sedangkan konten dalam bahasa daerah masih belum tersedia atau kualitasnya masih jauh dari layak. Jika Generative AI sudah mampu berbahasa daerah, ketika seseorang mencari suatu informasi yang belum ada dalam bahasa daerahnya, ia akan dapat membacanya dengan bantuan Generative AI dan mendapatkan informasi tersebut tanpa perlu ada penulis yang menulisnya terlebih dahulu dalam bahasa tersebut.

Hal ini akan membawa dampak besar pada situs-situs yang datanya diambil oleh mesin-mesin cerdas ini. Pembaca tidak akan lagi mengunjungi situs sumber, melainkan cukup membaca informasi yang disajikan dalam bentuk percakapan singkat, sesuai dengan tren membaca warganet yang menginginkan segala informasi dalam bentuk pendek dan padat informasi. Hal ini akan membuat kunjungan situs, terutama ke situs-situs kecil akan berkurang secara drastis. Bagi situs yang mengandalkan konten buatan pengguna (termasuk Wikipedia), situs yang mengandalkan iklan, atau situs yang mengandalkan konten terjemahan, semakin lama akan semakin sepi pengunjung. Situs-situs konten yang besar dan tulisan yang orisinal serta berkualitas tinggi saja yang akan dapat bertahan. Pada akhirnya, konten akan dimonopoli oleh pemain besar, biasanya dalam bahasa Inggris.

Menanggapi tantangan dan kesempatan besar ini, Balai Bahasa dan organisasi yang peduli dengan pelestarian bahasa perlu segera menginvestasikan sumber daya di teknologi pengolahan bahasa alami (Natural Language Processing–NLP) untuk bahasa-bahasa daerah. Fokus pengembangan model NLP membutuhkan data (korpus) yang berjumlah besar dalam bahasa-bahasa daerah agar NLP dapat memahami dan menulis konten dalam bahasa-bahasa tersebut. Buku-buku digital dalam bahasa daerah perlu diperbanyak dan diterbitkan menggunakan lisensi terbuka, seperti Creative Commons. Selain itu, diperlukan kolaborasi dengan negara dan organisasi lain yang berpengalaman dalam mengembangkan model NLP untuk bahasa-bahasa dengan sumber sedikit (low-resource languages). Pemerintah juga perlu memberikan pendanaan dan insentif untuk penelitian serta pengembangan di bidang ini.

Para Wikipediawan sedikit banyak telah sadar akan peluang ini. Di berbagai kegiatan, baik daring maupun luring, para sukarelawan Wikipedia bersama-sama mendiskusikan tantangan dan peluang teknologi Generative AI yang akan mendisrupsi pola dan kebiasaan yang sudah terbentuk selama 20 tahun keberadaan Wikipedia.

Akankah Wikipedia mampu bertahan selama 20 tahun ke depan? Ataukah ia akan tergantikan oleh  Generative AI dalam waktu tidak lama lagi?


Keterangan gambar: Wikipedia Bahasa Indonesia – Logo 20 Tahun oleh Gunarta (WMID) dilisensikan dengan CC BY-SA 4.0.

Penulis