Masih terkait dengan mata kuliah Sistem Informasi Intelijen (SII) nih. Salah satu materi yang dibahas dalam mata kuliah ini adalah mengenai teknik question answering (QA). QA adalah salah satu aplikasi text mining dimana sistem dapat memberikan jawaban yang sesuai dengan pertanyaan dari pengguna. Untuk dapat memberikan jawaban, maka sistem harus menganalisis jenis dari pertanyaan dan mengambil kata kunci dari pertanyaan. Sistem kemudian mencari dokumen-dokumen yang diduga mengandung jawaban dari pertanyaan (menggunakan teknik information retrieval). Selanjutnya, sistem mencari jawaban dari dokumen tersebut. Teknik dalam mencari jawaban bisa bermacam-macam, contohnya dengan name entity tagger atau dengan menggunakan pattern jawaban dari pertanyaan. Salah satu variasi dari QA adalah Cross Language Question Answering (CLQA). Pada CLQA, pertanyaan, dokumen, dan jawaban menggunakan bahasa yang berbeda. Sederhananya, CLQA itu QA + mesin penerjemah.

Soal UAS mata kuliah SII kemarin salah satunya mengenai CLQA. Peserta diminta untuk merancang arsitektur aplikasi CLQA dengan constraint sebagai berikut

  1. Pertanyaan dan jawaban dalam bahasa IND
  2. Pertanyaan berupa factoid
  3. Kumpulan dokumen dalam bahasa EN
  4. Tidak ada mesin penerjemah (T_T)
  5. Tidak ada corpus paralel (T_T). Yang ada adalah corpus monolingual IND dan corpus monolingual EN
  6. Terdapat dictionary IND > EN dan EN>IND
  7. Terdapat thesaurus EN
  8. Terdapat name entity tagger IND dan EN
  9. Terdapat pos tagger IND dan EN

Akhirnya, saya merancangnya seperti ini.

Cross Language Question Answering Architecture

Cross Language Question Answering Architecture

Pertama system akan melakukan analisis terhadap tipe pertanyaan : apa | siapa | kapan | dimana | kemana. Hal ini dilakukan untuk mendapatkan pola jawabannya. Misalnya nih. Untuk pertanyaan “Apa ______?” maka pola jawabanya “adalah_____” atau “merupakan______”. Selanjutnya, dilakukan ekstraksi kata kunci dari pertanyaan sekaligus tag jenis katanya. Pola jawaban dan kata kunci dalam bahasa Indonesia ini kemudian diterjemahkan ke dalam bahasa Inggris. Didapatkan pola jawaban dan kata kunci dalam bahasa Inggris. Kemudian, dilakukan pencarian jawaban dengan memanfaatkan pola jawaban dan kata kunci tersebut. Selanjutnya jawaban akan diterjemahkan menjadi bahasa Inggris.

Sekian aja deh sharing dari saya mengenai CLQA. Semoga bermanfaat buat Anda. Ditunggu lho kritik dan sarannya..

Semangat ya! ^_^