Sở Khoa học và Công nghệ TP.HCM vừa tổ chức Hội đồng tư vấn nghiệm thu nhiệm vụ khoa học và công nghệ “Nghiên cứu xây dựng hệ thống dịch tự động Hán Nôm sang chữ Quốc ngữ giai đoạn 2” do Trường Đại học Khoa học Tự nhiên chủ trì thực hiện, PGS.TS. Đinh Điền làm chủ nhiệm.
Kết quả nghiên cứu đánh dấu bước tiến quan trọng trong việc ứng dụng trí tuệ nhân tạo (AI) và công nghệ ngôn ngữ nhằm bảo tồn, khai thác và phổ biến kho tàng di sản Hán Nôm của Việt Nam trong kỷ nguyên số.
Kho dữ liệu Hán Nôm quy mô lớn: tài nguyên số hóa di sản văn tự cổ
Theo nhóm nghiên cứu, trong gần một thiên niên kỷ, chữ Hán và chữ Nôm là phương tiện ghi chép và lưu truyền các giá trị lịch sử, văn hóa, văn học, địa lý, y học cổ truyền và đời sống xã hội Việt Nam. Hàng triệu trang tư liệu như sắc phong, châu bản, gia phả, địa bạ, văn bia, thư tịch cổ, hoành phi, câu đối hay các bài thuốc dân gian vẫn đang được lưu giữ tại các cơ quan lưu trữ, bảo tàng, di tích và trong dân gian. Tuy nhiên, theo thống kê của Hội Bảo tồn di sản Hán Nôm, có tới hơn 90% tư liệu này chưa được dịch sang chữ Quốc ngữ, phần lớn vẫn tồn tại dưới dạng ảnh hoặc bản lưu trữ số. Một thực trạng đáng ngại là tư liệu này chưa được khai thác rộng rãi do số người có khả năng đọc hiểu Hán Nôm ngày càng ít.

Đại diện nhóm nghiên cứu trình bày các kết quả thực hiện nhiệm vụ
Trong khi đó, các hệ thống AI phổ biến hiện nay trên thế giới chủ yếu được huấn luyện cho chữ Hán hiện đại và chưa có khả năng xử lý hiệu quả chữ Nôm -hệ thống văn tự đặc thù của người Việt. Xuất phát từ thực tiễn đó, nhóm nghiên cứu đã triển khai nhiệm vụ nhằm xây dựng hệ thống dịch tự động Hán Nôm sang chữ Quốc ngữ và ngược lại, tạo nền tảng công nghệ hỗ trợ nhận dạng, chuyển tự và từng bước khai thác các nguồn tư liệu Hán Nôm phục vụ nghiên cứu, giáo dục và bảo tồn di sản văn hóa.
Nhóm đã tiến hành các nội dung như: thu thập và xử lý bộ dữ liệu huấn luyện khối nhận dạng ký tự quang học (OCR) ảnh chữ Hán/Nôm; gán nhãn dữ liệu huấn luyện khối nhận dạng ký tự quang học (OCR) ảnh chữ Hán/Nôm; xây dựng ngữ liệu song song Quốc ngữ – Hán Nôm; xây dựng các mô hình ngôn ngữ chữ Hán/Nôm, mô hình nhận dạng ký tự quang học (OCR) ảnh chữ Hán/Nôm cho loại chữ khắc/in, mô hình chuyển tự 2 chiều Hán Nôm – chữ Quốc ngữ; xây dựng phần mềm dịch tự động hai chiều giữa Hán Nôm và chữ Quốc ngữ.

Một số hình ảnh minh họa các nội dung nghiên cứu của đề tài

Một trong những kết quả nổi bật của nhiệm vụ là việc xây dựng thành công kho dữ liệu Hán Nôm có quy mô lớn nhất từ trước đến nay tại Việt Nam. Theo đó, nhóm nghiên cứu đã xây dựng được kho dữ liệu gồm 200.000 ảnh trang văn bản Hán Nôm các loại, 200.000 ảnh đã được gán nhãn phục vụ huấn luyện mô hình nhận dạng ký tự quang học (OCR), 750.000 cặp câu song ngữ Hán Nôm – Quốc ngữ và hơn 1 triệu câu đơn ngữ Hán Nôm, tương đương khoảng 16 triệu ký tự.
Nguồn dữ liệu được thu thập từ nhiều lĩnh vực khác nhau như văn học, lịch sử, tôn giáo, y học cổ truyền, văn bản hành chính, văn bia, thư tín dân gian và các loại hình tư liệu văn hóa truyền thống. Đây không chỉ là nền tảng quan trọng để huấn luyện các mô hình AI mà còn là nguồn tài nguyên số hóa di sản văn tự của cha ông, có giá trị phục vụ nghiên cứu liên ngành trong tương lai.
Về công nghệ, đối với bài toán nhận dạng ký tự quang học (OCR), nhóm nghiên cứu xây dựng quy trình xử lý chuyên biệt cho tài liệu Hán Nôm cổ, kết hợp các công nghệ xử lý ảnh hiện đại và mô hình học sâu nhằm khắc phục tình trạng tài liệu bị mờ, nhòe, hư hại hoặc có chất lượng không đồng đều. Hệ thống đạt độ chính xác nhận dạng cao, đáp ứng mục tiêu đề ra và cho phép xử lý nhiều loại tài liệu khác nhau như văn bản khắc in, tài liệu viết tay, văn bia, sắc phong hay các hiện vật ngoài thực địa.
Đối với bài toán chuyển tự giữa Hán Nôm và chữ Quốc ngữ, nhóm nghiên cứu áp dụng mô hình lai kết hợp giữa dịch máy thống kê (SMT) và dịch máy mạng nơ-ron (NMT) dựa trên kiến trúc Transformer. Cách tiếp cận này giúp xử lý hiệu quả đặc điểm đa nghĩa, đa âm của chữ Hán Nôm, đồng thời giảm thiểu hiện tượng sai lệch ngữ nghĩa thường gặp ở các hệ thống dịch tự động.
Hình thành hệ sinh thái “Kim Hán Nôm” phục vụ cộng đồng
Một trong những sản phẩm chính của đề tài là phần mềm dịch tự động hai chiều giữa chữ Hán Nôm và chữ Quốc ngữ. Toàn bộ các công nghệ nhận dạng và chuyển tự được tích hợp vào hệ sinh thái phần mềm mang tên “Kim Hán Nôm” hoạt động trên nền tảng web, Android và iOS. Hệ thống cho phép người dùng dịch trực tiếp văn bản Hán Nôm, nhận dạng nội dung từ hình ảnh, chuyển đổi hai chiều giữa Hán Nôm và chữ Quốc ngữ, đồng thời hỗ trợ phát âm tiếng Việt nhằm tăng khả năng tiếp cận cho người dùng không có chuyên môn về Hán Nôm.

Đặc biệt, với ứng dụng di động “Kim Hán Nôm” trên Android và iOS, người dùng có thể chụp ảnh các văn bản Hán Nôm, hoành phi, câu đối hoặc tư liệu lịch sử để hệ thống tự động nhận dạng và chuyển đổi sang chữ Quốc ngữ, hỗ trợ tra cứu và tìm hiểu nội dung chỉ trong vài giây.
Đại diện nhóm nghiên cứu cho biết, phần mềm dịch tự động hai chiều giữa chữ Hán Nôm và chữ Quốc ngữ đã được Cục Bản quyền tác giả cấp Giấy chứng nhận đăng ký quyền tác giả, khẳng định tính mới của sản phẩm nghiên cứu.

Hội đồng tư vấn nghiệm thu nhiệm vụ được Sở Khoa học và Công nghệ TP.HCM tổ chức ngày 26/5/2026

Hội đồng nghiệm thu đánh giá các sản phẩm của nhiệm vụ được hoàn thành đầy đủ về số lượng, chất lượng và yêu cầu khoa học. Các chuyên gia nhận định kết quả nghiên cứu có tiềm năng ứng dụng rộng rãi trong các trường đại học, thư viện, bảo tàng, trung tâm lưu trữ, cơ sở bảo tồn di tích và các đơn vị nghiên cứu Hán Nôm trên cả nước. Xa hơn, hệ thống có thể hỗ trợ công tác số hóa tư liệu lịch sử, bảo tồn di sản văn hóa, nghiên cứu chủ quyền biển đảo, khai thác tri thức y học cổ truyền, phát triển du lịch văn hóa và phổ biến kiến thức lịch sử đến cộng đồng. Kết quả đề tài không chỉ có giá trị thực tiễn, mà còn mang tính nhân văn sâu sắc, góp phần đưa kho tàng tri thức được lưu giữ qua nhiều thế kỷ trong các văn bản Hán Nôm đến gần hơn với công chúng hiện đại.
Nguồn: Bài viết “Ứng dụng AI giải mã kho tàng Hán Nôm, mở rộng khai thác và phát huy giá trị di sản văn hóa”, tác giả Lam Vân, theo Trung Tâm thông tin và thống kê KH&CN, đăng ngày 02/06/2026.
Truy cập tại: https://cesti.gov.vn/bai-viet/CTDS5/ung-dung-ai-giai-ma-kho-tang-han-nom-mo-rong-khai-thac-va-phat-huy-gia-tri-di-san-van-hoa-df8e1b5d-7adc-4579-ab6b-f20ae65f47a9
