Korpus Daring Bahasa Indonesia

21 November, 2010 | Edisi: | Kategori: Berita Gejala

Oleh Wahyu Adi Putra Ginting

Pengantar

Ilham untuk membahas perkara korpus daring Bahasa Indonesia muncul dari perjumpaan saya dengan Ivan Lanin – seorang kawan pecinta Bahasa Indonesia, perancang Kateglo (Kamus-Tesaurus-Glosarium) pada situs-jejaring www.bahtera.org, dan juga pelanggan LIDAHIBU – di Jakarta pada pertengahan Agustus, 2010.

Perjalanan saya dari Yogyakarta ke Jakarta itu sendiri, yang saya tempuh malam hari dengan Kereta Api Progo, saya anggap sebagai petualangan bahasawi. Kereta api kelas ekonomi, bagi saya, menawarkan sebuah ‘pesta’ ragam bahasa. Semakin jauh dari Yogyakarta, semakin dekat ke Jakarta, semakin menyenangkan rasanya memperhatikan perubahan-perubahan bahasa yang terjadi: dari bahasa Jawa ngoko yang masih lembut dilafalkan oleh para penjaja makanan saat kereta masih berada di sekitar Yogyakarta, sampai bahasa Jawa yang lebih kental lagi letupan-letupan bunyinya di daerah Gombong. Ada juga sebuah pertunjukan Bahasa Indonesia yang baik dan benar yang dilakoni oleh seorang pengamen. Dengan teliti telinga saya mencoba mencari kesalahan tatabahasa dari “Kata Pengantar” yang diteriakkan si pengamen sebelum ia memulai merambas gitar dan menembang lagu. Harus saya akui, disertai rasa heran campur kagum, tiada kesalahan saya dapati. Lafalnya pun jernih jelas lancar, tanpa gagap. Kemudian, sesampainya di Stasiun Jatinegara, Jakarta, tentu saja saya langsung disambut dengan Bahasa Indonesia logat Betawi yang jakarta-banggĂ©t itu.

Siangnya, di bilangan Kuningan, sambil menemani Ivan Lanin menikmati makan siang, saya langsung terlibat dalam sebuah diskusi hangat tentang bahasa. Ivan Lanin menceritakan cita-citanya untuk membangun sebuah korpus Bahasa Indonesia dalam bentuk daring. Mungkin karena tidak begitu akrab dengan linguistik korpus, saya agak terpana dengan cita-citanya itu. Sekembalinya ke Yogyakarta, saya pun mencoba meramban berbagai situs-jejaring korpus bahasa. Beberapa situs membuat mulut saya menganga karena pencapaian jumlah data, kerapian pengarsipannya yang luar biasa, dan faedah yang bisa diperoleh berbagai ragam khalayak (dari bahasawan, peneliti, penerjemah, mahasiswa, sampai penutur biasa) dari memanfaatkan isian korpus tersebut.

***

Tulisan ini saya perbuat sebagai usaha untuk menerangkan dengan ringkas-jelas apa itu korpus bahasa, menyebarkan kesadaran akan pentingnya sebuah korpus Bahasa Indonesia, dan juga sebagai bentuk apresiasi dan dukungan saya terhadap cita-cita kawan saya, Ivan Lanin.

Korpus Bahasa

Dalam Kamus Besar Bahasa Indonesia Edisi IV (KBBI IV), lema korpus memiliki tiga makna. Tapi, hanya satu yang terkait dengan pembahasan yang akan kita lakukan di sini, yaitu: ‘(Ling) kumpulan ujaran yg tertulis atau lisan yg digunakan untuk menyokong atau menguji hipotesis tentang struktur bahasa.’

Makna tersebut cukup khusus. Sebetulnya, dapat saja kita anggap korpus sebagai kumpulan ujaran, atau daftar/indeks kata, tanpa menspesifikkan kegunaannya; sebab, kegunaannya memang tidak hanya untuk ‘menyokong atau menguji hipotesis tentang struktur bahasa’, seperti yang dicatat oleh KBBI IV. Anda dapat menggunakan korpus untuk apa saja; dan Anda tidak perlu memiliki sebuah hipotesis tentang struktur bahasa terlebih dahulu untuk dapat menggunakan sebuah korpus bahasa. Daftar masukan kamus saja pun sebetulnya dapat kita sebut sebagai sebuah korpus.

Sehubungan dengan kamus, korpus dapat juga dipakai sebagai bahan untuk menyokong konteks makna sebuah kata sebab korpus dapat juga berisi daftar kata dalam lingkungannya di sebuah teks, baik lisan maupun tertulis. Pendeknya? Korpus itu alat (!); persis sebagaimana hakikat sebuah mesin bagi manusia: alat untuk membantu penyelesaian sebuah pekerjaan.

Metode pembuatan korpus ini sebetulnya sangat mirip dengan metode pengarsipan. Apa yang diarsipkan? Tentulah bahasa dengan berbagai unsurnya: kata, frasa, idiom, ungkapan, dll., dari bertumpuk-tumpuk teks yang ada. Bagaimana mengarsipkannya? Pertama-tama, karena data yang digunakan sangatlah banyak, umumnya teknologi yang digunakan untuk mengarsipkan bahasa adalah teknologi komputer. Penjelasan berikutnya seperti ini: Misalkan kita ingin membangun korpus dari sumber teks yang berupa novel-novel berbahasa Indonesia. Nah, novel-novel ini dikumpulkan menurut periode penerbitannya, misalnya: novel-novel Indonesia yang terbit di periode tahun 1990-2010. Korpus yang akan dibangun adalah lumbung yang akan menampung seluruh teks yang ada di novel tersebut. Dalam bentuknya yang paling kecil, tentunya yang diarsipkan adalah kata. Maka, tentu juga kita akan punya banyak sekali data. Pengarsipan dilakukan dengan mendaftar kata-kata tersebut secara alfabetis: dari A-Z. Jadi nanti ketika kita ingin mencari kata, misalnya, corak, maka kita akan menemukan kata tersebut, salah satunya, dalam novel Dadaisme karya Dewi Sartika (terbit tahun 2004), pada halaman 148. Tampilannya biasanya disertai konteks, baik konteks yang pendek atau yang panjang, yang menyertai munculnya kata corak tersebut. Contohnya, dalam konteks sejumlah lima kata sebelum dan sesudah kata corak, seperti ini:

Dadaisme (148) …badan. Imanensi kewanitaan berdasarkan corak jasmaniah seperti juga transendensi laki-laki…

Satu lagi informasi yang biasanya ada dalam korpus bahasa adalah kekerapan munculnya suatu kata dalam kumpulan teks yang menjadi sumber bahan korpus tersebut. Jadi, kita bisa tahu berapa kali sebuah kata muncul dalam satu teks tertentu atau dalam seluruh kumpulan teks.

Itu hanya satu contoh kata dalam satu novel. Kemungkinan besar, bila novel yang dikorpuskan adalah novel di periode 1990-2010, akan ada beberapa novel lain dalam mana kata corak juga maktub. Apabila kata yang kita cari adalah kata yang sangat umum, misalnya saya, maka hasil keluarannya pun dipastikan akan sangat banyak.

Korpus yang Daring

Daring telah menjadi lema dalam KBBI IV. Ia adalah sebuah akronim dari frasa dalam jaring(an) yang diajukan sebagai padanan untuk kata bahasa Inggris online. Maka, pengertian frasa korpus daring Bahasa Indonesia adalah sebuah ‘korpus Bahasa Indonesia yang tersaji, terkelola, dan tersimpan dalam, dan dapat diakses lewat jaringan Internet’.

Mengapa korpus daring saya ajukan sebagai jalan keluar untuk perkara korpus Bahasa Indonesia? Begini. Teknologi komputer adalah perkakas yang sudah sangat lazim digunakan saat berurusan dengan pembangunan sebuah korpus linguistik. Oleh karena itu, data yang ada dalam sebuah korpus bahasa itu pun berupa data komputer. Data ini biasanya terlalu besar atau banyak bila ingin dicetak (entah berapa volume buku yang dapat menampungnya). Sebagai contoh, ada satu korpus daring bahasa Inggris-Amerika, bernama Corpus of Contemporary American English (COCA), yang mendaku memiliki data sebanyak 410 juta kata (silahkan periksa di www.byu.edu/coca). Masa data sebanyak itu mau dicetak? Kan, boros! Nah, kalau begitu, bukankah jaringan Internet adalah alat yang tepat untuk memasyarakatkan korpus bahasa?

Di Internet sendiri, selain COCA banyak sekali beredar korpus bahasa. Dari sekian banyak itu, saya daftarkan beberapa saja: (1) Malay Concordance Project (dengan alamat www.mcp.anu.edu.au/Q/mcp.html), sebuah korpus yang berisi lebih dari 150 teks klasik Melayu dan 5,7 juta kata – korpus ini bisa diakses gratis; (2) Loan-Words in Indonesia and Malay (dengan alamat www.sealang.net/indonesia/lwim), sebuah korpus dari kamus etimologi dengan judul yang sama – korpus ini bisa diakses gratis; dan (3) The Oxford English Corpus (dengan alamat www.oxforddictionaries.com/page/oec), korpus yang didaku sebagai korpus bahasa terbesar di dunia, memiliki sekitar 1,9 miliar kata dari teks-teks dalam periode waktu tahun 2000-2006 – akses ke korpus ini, sayangnya, terbatas hanya untuk para peneliti yang bekerja untuk proyek-proyeknya Oxford University Press.

***

Entahlah, mungkin saya sedang berprasangka, namun saya kerap sekali menemukan anggapan bahwa linguistik korpus adalah pekerjaan kebahasaan yang kurang menarik. Sering juga dianggap sebagai pekerjaan mesin. Saya setuju dengan anggapan yang kedua. Tapi, saya kira bidang linguistik yang satu ini bukanlah tidak menarik. Faedahnya pun sebenarnya sangat besar.

Inti dari pembangunan sebuah korpus bahasa adalah pembangunan alat. Korpus bahasa memang bukanlah sebuah tujuan. Korpus adalah alat untuk mencapai tujuan; sebagaimana halnya pengarsipan yang memang merupakan sebuah metode yang memudahkan orang untuk mengerjakan sesuatu. Namun, ‘metode’ ini bukanlah sesuatu yang asal. Dibutuhkan logika matang dan rapi untuk dapat membangun sebuah lumbung arsip yang baik dan yang ramah-guna. Ketakasalan inilah yang membuat pengarsipan bahasa dapat menjadi sebuah ilmu sendiri. Dan ilmu ini pada hakikatnya ada untuk membantu orang mengerjakan proyek-proyek kebahasaan lainnya: pembuatan kamus etimologi, misalnya.

Terlebih untuk sebuah bahasa, keberadaan korpus sangatlah dibutuhkan. Korpus dapat menjadi sebuah sumber, sebuah lumbung yang menyimpan rekaman-rekaman penggunaan praktis bahasa tertentu. Dalam hal ini, kita bisa katakan bahwa korpus adalah tampilan sejarah bahasa dalam bentuknya yang ‘mentah’.

Korpus dapat pula digunakan sebagai data-keras untuk membuktikan gejala-gejala kebahasaan yang terjadi pada suatu bahasa: gejala peyorasi atau ameliorasi makna kata, contohnya. Teks-teks yang tersimpan dalam sebuah korpus dapat dijadikan acuan untuk memeriksa alur perubahan peyoratif atau amelioratif dari makna kata tertentu. Tentunya, akan sangat menyusahkan bila kita harus mencari acuan tersebut dalam buku-cetak. Hanya orang-orang berwatak tekun yang mampu melakukan itu: membolak-balik halaman buku atau mengandalkan ingatan kuat untuk melacak keberadaan suatu kata dalam konteks makna tertentu di sebuah teks tertentu pula. Namun, bayangkan bila semua alur itu dapat dipersingkat dan disistemkan dalam sebuah metode simpan-cari yang sangkil dan mangkus: korpus! Kita tinggal mengetikkan saja kata yang kita cari, dan hasil pencariannya langsung kita dapatkan dalam hitungan detik. Memang inilah hakikat-guna dari sebuah alat: memudahkan pekerjaan.

Hal lain yang harus diperhitungkan dalam penciptaan sebuah alat adalah ketersediaan akses terhadap alat tersebut. Alat bagus akan menjadi kurang berfaedah bila tak dapat digunakan oleh khalayak banyak. Dalam konteks inilah saya berpikir bahwa konsep daring dapat menjadi jawaban untuk akses sebuah korpus bahasa.

Korpus Daring Bahasa Indonesia: sebuah Cita-Cita

Kawan saya, Ivan Lanin, sangat bersemangat saat menceritakan cita-citanya itu. Dia pun sempat mengisahkan beberapa usaha yang telah dilakukannya. Salah satunya yang saya ingat dengan jelas adalah cerita saat dia, bersama organisasi Wikipedia Indonesia (tempatnya bekerja aktif secara administratif sampai tahun 2009), berusaha mengajukan kerjasama dengan Pusat Bahasa. Misinya adalah untuk mendapatkan korpus KBBI IV. Korpus KBBI IV, menurut keterangan Ivan Lanin, nantinya hendak digabung dengan data korpus yang telah dibangunnya di Kateglo. Namun, Pusat Bahasa tak meluluskan permintaan tersebut. Pusat Bahasa terikat kontrak dengan penerbit KBBI IV (PT. Gramedia Pustaka Utama), sehingga tak bisa memberikan korpus mereka.

KBBI IV dan Kateglo pun sebetulnya bukanlah satu-satunya sumber korpus Bahasa Indonesia yang dicita-citakan Ivan Lanin. Menurutnya, sumber teks apa pun yang dapat menyokong kelengkapan korpus Bahasa Indonesia layak untuk diikutsertakan. Hal ini mengingat jumlah ruang yang disediakan oleh Internet boleh dibilang tak terbatas.

Saya mencoba merenung-renungkan cita-cita Ivan Lanin, terutama pada bagian mengapakah seorang Ivan Lanin yang punya cita-cita seperti itu. Mengapa bukan Eko Endarmoko (penulis Tesaurus Bahasa Indonesia) atau Anton M. Moeliono, yang jawara Bahasa Indonesia itu, misalnya? Saya mengetahui bahwa Ivan Lanin utamanya adalah seorang pelaku teknologi informasi, seorang pemrogram komputer. Tapi dia juga pecinta bahasa. Setelah memikirkannya, akhirnya saya insyaf. Wajar bila seorang Ivan Lanin muncul dengan cita-cita korpus bahasanya itu. Dia adalah orang yang paham betul bagaimana cara mengerjakan pembangunan korpus bahasa dengan teknologi komputer. Saya rasa pun Indonesia belum punya banyak bahasawan yang bergerak di bidang Linguistik Komputasional atau Linguistik Korpus. Saya pun semakin mahfum dan insyaf lagi saat mendengar pengakuan Ivan Lanin, “Sebagai orang yang bisa komputer, inilah yang dapat aku tawarkan untuk Bahasa Indonesia. Di bidang inilah (korpus bahasa) keahlianku bisa terpakai maksimal.”

***

Satu lagi gagasan yang muncul dari pembicaraan saya dengan Ivan Lanin adalah gagasan tentang keinteraktifan korpus daring Bahasa Indonesia. Korpus yang nantinya akan dibangun itu baiknya sebuah korpus yang punya tabiat interaktif. Dalam arti, ada jalur yang disediakan oleh pengelola korpus daring tersebut bagi pengunjung yang ingin mengajukan tambahan data.

Sebuah korpus bahasa tentunya bukanlah sebuah lumbung mati. Selayaknya bahasa, korpus tersebut pastilah harus terus berkembang, baik dari segi jumlah atau pun keragaman jenis datanya. Sebuah bangunan sebesar korpus bahasa tentunya tidak bisa dipelihara ‘sendirian’.

Sewaktu mengajukan gagasan ini pada Ivan Lanin, saya memberi contoh tentang pembuatan Oxford English Dictionary yang legendaris itu. Kamus tersebut adalah kamus etimologis lengkap yang menyertakan contoh pemakaian setiap lema lewat teks-teks empiris (teks-teks yang memang ada dalam bentuk cetakan). Pengerjaannya melibatkan banyak sekali sukarelawan dan berton-ton buku. Para sukarelawan inilah yang membantu para penulis kamus mendata kata-kata yang pernah ada dalam teks-teks tertulis bahasa Inggris. Kenyataan ini memberi saya ide tentang sifat interaktif untuk kamus daring Bahasa Indonesia. Mengapa tidak melibatkan penutur untuk ikut menyumbang, yang juga berarti memelihara pertumbuhan, korpus Bahasa Indonesia? Sumbangan baru tersebut, selain membantu para pengelola untuk mengembangkan korpus, juga menciptakan semacam rasa memiliki dalam diri para penutur Bahasa Indonesia. Bukankah ini (salah-)satu cara untuk memantapkan rasa percaya diri penutur terhadap bahasanya sendiri?

***

Korpus daring Bahasa Indonesia memang masih sebuah cita-cita. Dan, saya kira, cita-cita ini baiknya kita kerjakan bersama-sama. Supaya dahsyat jadinya!

(+3 jempol)
Loading ... Loading ...

3 komentar
Berikan komentar »

  1. akan ada
    beberapa novel lain dalam mana kata
    corak juga maktub. << ini maksudnya apa ya? Aku gak ngerti, bisa dijelaskan?? Atau kalimat ini ada typo nya? Plz reply this asap.

  2. Cita-cita mas ivan sama dg saya. Sjk 2008 sy pun sdh bermimpi itu….

  3. Buka Tatoeba.org

Berikan Komentar