Tóm tắt văn bản

  1. Giới thiệu
    Trong nhiều năm trở lại đây, cùng với sự phát triển của Internet, lượng thông tin trên mạng cũng bùng nổ theo. Lượng thông tin khổng lồ như vậy khiến chúng ta khó có thể tiếp nhận và khai khác được hết nếu không có một giải pháp tóm tắt tự động hiệu quả. Trong những thập kỷ vừa qua, xu hướng tóm tắt tự động đang ngày càng phổ biến, không chỉ trong học tập, nghiên cứu mà còn trong cả lĩnh vực công nghiệp, bằng chứng là Yahoo và Google đã mua lại hai công ty khởi nghiệp trong lĩnh vực tóm tắt tin tức là Summly và Wavii.

    Các nghiên cứu về tóm tắt văn bản trong tiếng Việt hiện nay còn khá ít. Các nghiên cứu chủ yếu sử dụng phương pháp trích xuất: chọn ra một tập con các từ, cụm từ hoặc các câu từ văn bản nguồn và đưa vào bản tóm tắt. Mục tiêu của CLC là tìm cách tạo ra bản tóm tắt gần giống với cách làm của con người nhất: tạo ra bản tóm tắt bằng cách tổng hợp các thông tin trích ra từ văn bản nguồn, đồng thời bản tóm tắt có thể chứa nhiều từ mới không xuất hiện trong văn bản gốc.

  2. Nghiên cứu
    Chúng tôi đang tập trung chủ yếu vào 3 bài toán nhỏ trong tóm tắt văn bản tự động: tóm tắt đa văn bản, trộn câu và nén câu.
    • Tóm tắt đa văn bản là bài toán tạo ra bản tóm tắt từ nhiều văn bản gốc thuộc về cùng một chủ đề hay sự kiện nào đó.
    • Trộn câu là bài toán tạo ra một câu tổng hợp từ nhiều câu tương đồng.
    • Nén câu là bài toán loại bỏ những từ/cụm từ không cần thiết từ một câu nguồn mà vẫn giữ cho câu đó đúng ngữ pháp.