Tanya 73 : Membuat Kamus Sendiri dengan freedict (1) – Mengenal TEI XML

Tanya :
Bisa nggak kita buat kamus Bahasa Indonesia sendiri di Ubuntu ?
Jawab :
Pertanyaan ini menggiring kita untuk membahas salah satu perangkat pengembangan Kamus, yakni FreeDict. Mudah-mudahan bisa dipaparkan secara berseri pula di blog ini. Bahasan merupakan kompilasi dari berbagai sumber yang dirasa dapat digunakan untuk mempermudah pemahaman dan kemampuan praktis para pembaca.
FreeDict adalah sebuah organisasi kecil yang bekerja secara kolaboratif untuk mempublikasikan kamus terjemahan secara bebas. Kamus-kamus yang ada diarsipkan dalam format XML yang fleksibel untuk penggunaan dan pengembangan lebih jauh.
FreeDict juga menjamin bahwa kamus yang dibuat dapat dikonversi ke dalam format database dictd (cf. RFC 2229), yang dapat dijalankan di dictd (lihat http://www.dict.org) dan dictionary servers lain.
Konten dari kamus diserahkan pada pengembang-pengembang individu.

Aliran Data FreeDict (sumber : freedict.org)

Kamus FreeDict dimarked up menggunakan versi XML dari Text Encoding Initiative (TEI) DTD.
Ini mungkin tampak membingungkan pada awalnya, tetapi penjelasan demi penjelasan mudah-mudahan dapat membuatnya semakin terasa mudah. Penjelasan lengkap diberikan di bagian “Menulis Kamus FreeDict”. Pengembang FreeDict juga mengembangkan dan menguji sejumlah perangkat yang mungkin cocok untuk otomatisasinya.
Ada beberapa keuntungan dari penggunaan standar TEI XML ini, diantaranya :

  • Berbasis konten bukan berbasis layout
  • Bersifat Application Independent
  • Bersifat Platform Independent
  • Siap untuk pemrosesan lebih lanjut menggunakan seluruh koleksi FreeDict
  • Dapat digunakan secara penuh di teknologi XML yang ada saat ini
  • Memiiki format input dan output yang standar
  • Bisa terus diperbaharui
  • TEI memiliki DTD yang komprehensif :
  • Kamus DTD adalah salah satu yang memiliki perangkat konseptual yang luas
  • Elemen-elemennya tersedia untuk leksikografis, etimologis, fonetis, dan kekhasan kamus yang lainnya
  • Kombinasi TEI XML memperkenankan pemrosesan, pengembangan dan penggunaan didalam ruang lingkup kamus terjemahan FreeDict
  • Teknologi TEI gampang dipahami dan digunakan di lingkungan akademis

.
Ada pula kekurangannya :

  1. Membutuhkan memori yang besar, baik untuk storage maupun pemrosesan.
  2. TEI DTD bersifat terlalu permisif. Ia memperkenankan model konten yang terlalu kompleks pada elemen-elemennya, dikarenkan ditulis untuk dapat melakukan “capture” sebanyak mungkin teks yang mungkin. Dikarenakan semua elemen diperkenankan disisipkan diantara yang lain, merancang perangkat lunak untuk pemrosesan data TEI lebih jauh menjadi kompleks. FreeDict menggunakan subset TEI DTD-nya sendiri.
  3. TEI memiliki kekurangan tipologi. Misalnya TEI tidak melakukan deskripsi awal untuk enkoding bagian “noun” atau “n”. Tipologi yang kurang lainnya adalah untuk Cross Reference, semacam : sinonim, hipernim dll, yang harus didefinisikan satu persatu oleh FreeDict.
  4. Data XML membutuhkan lebih dari sebuah teks editor untuk dapat dimaintain secara mudah karena kerumitannya. Misalnya : Anda tidak dapat memasukkan entri dengan cepat dikarenakan anda harus memasukkan semua tag secara manual. Untuk mempermudah ini, pengembang FreeDict mengembangkan FreeDict-Editor

Bersambung …

Be the first to comment

Leave a Reply

Your email address will not be published.


*