Résumé automatique des documents

  1. Introduction
    Avec le développement rapide de l’Internet, un grand nombre des informations sont disponibles en ligne. Cela conduit au problème de la surcharge d’informations et la nécessité des systèmes de résumé automatique. La dernière décennie a vu une tendance croissante vers le résumé automatique, non seulement dans les milieux universitaires, mais aussi dans l’industrie. Yahoo et Google a racheté Summly et Wavii, des compagnies de start-up sur le résumé des actualités respectivement.

    Il y a peu de recherches sur le résumé de textes en vietnamien. La plupart d’entre eux utilisaient l’approche d’extraction, qui sélectionne un sous-ensemble de mots existants, des segments ou des phrases dans le texte original pour former le résumé. L’objectif de l’équipe de résumé CLC est de créer un résumé qui est plus proche de ce qu’un être humain peut générer, un résumé qui pourrait contenir des mots non explicitement présents dans l’original.

  2. Recherche
    Nous nous concentrons sur trois sous-problèmes de résumé automatique de textes: résumé de multi-documents, fusion de phrases, et compression de phrases.
    • Système de résumé de multi-documents génère un résumé depuis nombreux documents sur le même thème ou le même événement..
    • Fusion de phrases est une méthode qui génère un résumé de phrase simple, courte à partir d’un groupe de phrases similaires.
    • Compression de phrases vise à supprimer les mots / segments inutiles depuis une phrase tout en gardant la phrase grammaticalement correcte.