ສັງລວມເອກະສານ

  1. ພາກສາະເໜີ
    ໃນຫຼາຍປີຜ່ານມານີ້, ຄຽງຄູ່ກັບການພັດທະນາຂອງອິນເຕີເນັດ, ປະລິມານຂໍ້ມູນຂ່າວສານເທິງອິນເຕີເັນດກໍເພີ່ມຂື້ນຫຼາຍຕາມກັນ. ປະລິມານຂໍ້ມູນຂ່າວສານມະຫາສານຄືແນວນັ້ນເຮັດໃຫ້ພວກເົຮາມີຄວາມຫຍຸ້ງຍາກໃນການຮັບເອົາ ແລະ ບຸກເບີກໄດ້ໝົດ ຖ້າບໍ່ມີວິທີການແກ້ໄຂສະຫຼຸບສັງລວມໂດຍອັດຕະໂນມັດທີ່ມີປະສິດທິຜົນ. ໃນທົດສະຕະວັດຜ່ານມາ, ທິດທາງສະຫຼຸບສັງລວມໂດຍອັດຕະໂນມັດນັບມື້ນັບກ້ວາງຂວາງ, ບໍ່ພຽງແຕ່ໃນການສຶກສາຮ່ຳຮຽນ, ຄົ້ນຄ້ວາ ແຕ່ຍັງລວມມີຂົງເຂດອຸດສາຫະກຳ, ອັນທີ່ເປັນການຢັ້ງຢືນແມ່ນ Yahoo ແລະ Google ໄດ້ຊື້ສອງບໍລິສັດໃນຂົງເຂດສະຫຼຸບສັງລວມຂ່າວສານ ນັ້ນແມ່ນບໍລິສັດ Summly ແລະ Wavii.

    ໃນປະຈຸບັນ ບັນດາການຄົ້ນຄ້ວາກ່ຽວກັບສະຫຼຸບສັງລວມເອກະສາະໃນພາສາຫວຽດຍັງມີໜ້ອຍ. ການຄົ້ນຄ້ວາຕົ້ນຕໍແມ່ນນຳໃຊ້ວິທີການຄັດຈ້ອນ: ເລືອກເອົາກຸ່ມຍ່ອຍບັນດາຄຳສັບຕ່າງໆ, ວະລີຫຼືບັນດາປະໂຫຍກຈາກເອກະສານຕົ້ນສະບັບ ແລະ ນຳໄປໃສ່ບົດສະຫຼຸບສັງລວມ. ຈຸດປະສົງຂອງ CLC ແມ່ນຊອກຫາວິທິການສ້າງບົດສັງລວມໃຫ້ຄ້າຍຄືທີ່ສຸດກັບວິທີການຂອງຄົນເຮົາ: ສ້າງບົດສັງລວມດ້ວຍວິທີສັງລວມບັນດາຂໍ້ມູນຂ່າວສານທີ່ໄດ້ຄັດຈ້ອນຈາກເອກະສານຕົ້ນສະບັບ, ພ້ອມກັນນັ້ນບົດສະຫຼຸບສັງລວມອາດຈະບັນຈຸຫຼາຍຄຳສັບໃໝ່ທີ່ບໍ່ມີໃນເອກະສານຕົ້ນສະບັບ.

  2. ການຄົ້ນຄ້ວາ

    ພວກຂ້າພະເຈົ້າກຳລັງສຸມໃສ່ 3 ບັນຫາຕົ້ນຕໍໃນສະຫຼຸບສັງລວມເອກະສານໂດຍອັດຕະໂນມັດ: ສັງລວມຫຼາຍເອກະສານ (multi-document summarization), ຊາວປະໂຫຍກ (sentence fusion) ແລະ ອັບໜີບປະໂຫຍກ (sentence compression).

    • ສັງລວມເອກະສານແມ່ນບົດໂຈດສ້າງບົດສັງລວມຈາກເອກະສານຕົ້ນສະບັບທີ່ມີຫົວຂໍ້ດຽວກັນຫຼືເຫດການໃດໜຶ່ງ.
    • ຊາວປະໂຫຍກແມ່ນບົດໂຈດສ້າງປະໂຫຍກສັງລວມຈາກຫຼາຍປະໂຫຍກທີ່ຄ້າຍຄືກັນ.
    • ອັດໜີບປະໂຫຍກແມ່ນບົດໂຈດຄັດອອກບັນດາຄຳ/ວະລີ ທີ່ບໍ່ຈຳເປັນຈາກປະໂຫຍກຕົ້ນ ແຕ່ຍັງຮັກສາປະໂຫຍກນັ້ນໃຫ້ຖືກຕາມຫຼັກໄວຍະກອນ.