Hướng nghiên cứu

 

  1. XỬ LÝ TỰ ĐỘNG VĂN BẢN HÁN-NÔM:

    Chữ Nôm được ông cha ta sáng tạo ra dựa trên chữ Hán từ khoảng TK10 và được sử dụng cho đến TK19. Trong suốt cả ngàn năm đó, biết bao công trình về lịch sử, văn học, y học, nông nghiệp, địa lý, … được viết bằng Hán-Nôm và phần lớn các tài liệu đó chưa được “dịch” sang chữ Quốc ngữ ngày nay. Ngay cả các hệ thống AI mạnh nhất trên thế giới hiện nay cũng chưa dịch được chữ Nôm. Vì vậy, trung tâm chúng tôi tập trung nghiên cứu và xây dựng hệ thống “dịch” tự động các tài liệu Hán-Nôm đó sang chữ Quốc ngữ. Hệ thống “dịch” này bao gồm nhiều bài toán xử lý bên trong như: Phân loại ảnh, nhận dạng ảnh (OCR), phân loại văn bản, chuyển tự (transliteration) hay còn gọi là dịch âm (dịch sang âm Hán-Việt), dịch nghĩa (interpretation) sang ngôn ngữ đương đại, … Hệ thống này sẽ trợ giúp người dùng có thể đọc hiểu, khai thác, khám phá kho tàng tri thức quý giá viết bằng chữ Hán-Nôm do cha ông ta truyền lại thông qua chữ Quốc ngữ hiện nay. Hiện hệ thống này đã được triển khai tại các địa chỉ: https://kimhannom.clc.hcmus.edu.vn hay https://kimhannom.fit.hcmus.edu.vn và app Kim Hán Nôm trên thiết bị di động.
    Vào đầu năm 2025, Digitizing Việt Nam (https://www.digitizingvietnam.com/vi/about-us) đã đóng góp 5TB dữ liệu Hán Nôm từ thư viện trường Đại học Columbia để chúng tôi cải thiện chức năng nhận diện, dịch thuật của Kim Hán Nôm.

    Diagram v2.1

  2. Từ điển: Việt-Việt, Anh-Việt, Việt-Anh, Pháp-Việt, Việt-Pháp, Hoa-Việt, Việt-Hoa, Nhật-Việt, Việt-Nhật, Hàn-Việt, Việt-Hàn, Đức-Việt, Việt-Đức, Nga-Việt, Việt-Nga; thông thường, chuyên ngành, thực dụng, từ nguyên, WordNet tiếng Việt
  3. Ngữ liệu:
    • Đơn ngữ: VCor, Treebank tiếng Việt (VTB)
    • Song ngữ: Anh-Việt (EVC), Pháp-Việt (FVC), Hàn-Việt (KVC), Lào-Việt (LVC), Việt-Hoa (VCC), ngữ liệu đa ngữ hỗ trợ khách du lịch (BTEC)
  4. Công cụ: Tách câu, Tách từ, Gán nhãn từ loại, Phân đoạn ngữ, Nhận dạng thực thể có tên, Phân tích cú pháp, quan hệ phụ thuộc, Gán nhãn ngữ nghĩa
  5. Xử lý văn bản: Phân loại văn bản, Độ tương đồng văn bản, Kiểm lỗi chính tả, Kiểm lỗi ngữ pháp, Phân tích độ khó của văn bản, Phong cách văn bản, Phân tích tâm lý trong văn bản
  6. Ứng dụng: