Chuyển tự tự động từ Chữ Nôm sang Chữ Quốc Ngữ

Chữ Nôm là chữ Quốc ngữ đầu tiên do cha ông chúng ta xây dựng dựa trên chất liệu của chữ Hán và đã sử dụng trong gần 1.000 năm từ thế kỷ X đến thế kỷ thứ XIX. Trong suốt mười thế kỷ đó, biết bao công trình về lịch sử, văn học, y học, nông nghiệp, địa lý, … được viết bằng chữ Nôm và còn được lưu lại cho đến ngày hôm nay. Tiếc rằng, phần lớn chưa được dịch (chuyển tự) sang chữ Quốc ngữ (sử dụng con chữ Latin) của ngày hôm nay và đáng tiếc hơn là rất ít người thế hệ hiện nay (nhất là thế hệ trẻ) có khả năng đọc được chữ Nôm để tìm hiểu, khai thác kho tàng văn hóa, tri thức, chứng cứ lịch sử do cha ông để lại. Vì vậy, trong đề tài này, chúng tôi muốn đề xuất xây dựng một hệ thống chuyển tự tự động từ chữ Nôm sang chữ Quốc ngữ.

Việc chuyển tự ở đây là sự thay thế chữ viết từ dạng này sang dạng khác trong cùng một ngôn ngữ. Ví dụ: chuyển tự từ hệ chữ Cyrillic của tiếng Nga sang hệ chữ Latin, như: “Путин” thành “Putin”, hay từ hệ chữ Hangeul của tiếng Hàn sang hệ chữ Latin, như: “삼성” thành “Samsong”. Việc chuyển tự này rất đơn giản vì có sự tương ứng (gần như) 1-1 giữa một mẫu tự trong hệ chữ Cyrillic hay Hangeul với một mẫu tự tương ứng trong hệ chữ Latin. Do cả ba hệ chữ viết trên cùng thuộc loại hình chữ viết ghi âm vị (alphabet) nên việc chuyển tự hoàn toàn được thực hiện một cách tự động, nhanh chóng và chính xác bằng cách tra bảng (ánh xạ).

Tuy nhiên, việc chuyển tự từ chữ Nôm sang chữ Quốc ngữ hoàn toàn không đơn giản mà ngược lại vô cùng phức tạp do hai hệ chữ không cùng thuộc một loại hình chữ viết. Chữ Nôm thuộc loại hình chữ viết ghi ý (ideographic) còn chữ Quốc ngữ thuộc loại hình chữ viết ghi âm vị theo cách phân chia 6 loại hình chữ viết trên thế giới trong công trình của Rogers H. [1]. Chính vì có sự khác biệt hoàn toàn về hệ chữ viết giữa chữ Nôm (hệ ghi ý, dựa theo Hán tự) và chữ Quốc ngữ (hệ ghi âm vị, dựa theo hệ chữ Latin) nên chúng ta không thể áp dụng cách tra bảng (ánh xạ) vì không có sự tương ứng 1-1 giữa một chữ Nôm với một chữ Quốc ngữ như trong ví dụ chữ tiếng Nga hay tiếng Hàn nói trên.

Thực sự, việc chuyển tự tự động từ chữ Nôm sang chữ Quốc ngữ là bài toán rất khó vì chính con người chúng ta khi đọc chữ Nôm cũng phải “vừa đọc vừa đoán” vì cùng một chữ Nôm có thể được “dịch” (chuyển tự) sang nhiều chữ Quốc ngữ khác nhau. Việc suy đoán này phải dùng đến nhiều tri thức cả trong và ngoài ngôn ngữ (extra-linguistic) như văn hóa, lịch sử, địa lý, tiếng Việt cổ, tiếng địa phương, từ chuyên ngành, … Vì vậy, mà từ trước đến nay, việc chuyển tự tự động chữ Nôm sang chữ Quốc ngữ được xem là bài toán bất khả thi. Nhưng gần đây, với sự phát triển vượt bậc của lĩnh vực Trí tuệ nhân tạo với các công nghệ Học máy tiên tiến trong ngành Khoa học máy tính đã khiến cho bài toán này có thể thực hiện được dù chưa thể chính xác hoàn toàn. Với công nghệ Học máy, máy có thể tự “học” được cách chọn (“suy đoán”) chữ Quốc ngữ phù hợp với từng chữ Nôm thông qua ngữ cảnh trong rất nhiều các bản dịch Nôm – Quốc ngữ trước đó của con người. Do đó, nếu chúng ta “dạy” cho máy tính bằng cách cung cấp (đưa vào kho ngữ liệu huấn luyện) cho máy càng nhiều bản dịch Nôm – Quốc ngữ chuẩn, thì máy sẽ càng “thông minh” hơn và cho kết quả dịch chính xác hơn. Ngoài ra, máy cũng có khả năng tự học để hoàn thiện hơn bằng cách rút kinh nghiệm từ các lỗi dịch sai của máy sau khi con người hiệu đính lại những chỗ dịch sai đó. Quá trình này nếu được lặp lại càng nhiều thì máy sẽ càng cho những bản dịch tốt hơn sau này. Chính vì thế, trong đề tài này, chúng tôi muốn đề xuất xây dựng hệ thống chuyển tự tự động từ chữ Nôm sang chữ Quốc ngữ bằng công nghệ Học máy có bổ sung thêm tri thức từ điển và mô hình ngôn ngữ theo lĩnh vực.

Kết quả của đề tài có thể được chuyển giao đến các trường đại học có giảng dạy bộ môn/chuyên ngành Hán – Nôm, Việt Nam học, các thư viện, bảo tàng, trung tâm bảo tồn di tích, các trường phổ thông trong cả nước để giảng dạy và phổ biến chữ Nôm để bảo tồn thứ chữ mà cha ông ta ngày xưa đã sáng tạo và sử dụng.

Có thể áp dụng hệ chuyển tự tự động này với các phần mềm trên thiết bị di động (Mobi App) phục vụ cho các khách du lịch khi đến thăm các khu di tích lịch sử, đền đài cổ để tra cứu các bia, câu đối, liễn, … chữ Nôm. Nếu hệ thống này được kết hợp với hệ thống nhận dạng ký tự quang học (OCR: Optical Character Recognition) thì hiệu quả ứng dụng càng cao.

Hệ thống chuyển tự tự động này cũng có thể được áp dụng trong quá trình đào tạo cho ngành Hán – Nôm học của các trường đại học, các viện nghiên cứu trên cả nước: giúp các sinh viên, các nhà nghiên cứu dễ dàng tra cứu nội dung của các văn bản chữ Nôm. Ngoài ra, hệ thống này còn có thể được dùng để hỗ trợ trong quá trình giảng dạy cho sinh viên các ngành học khác như Văn hóa học, Việt Nam học, Ngôn ngữ học, …

Hệ thống này cũng có thể được sử dụng trong lĩnh vực y học cổ truyền dân tộc, vì có rất nhiều bệnh lý, phương thuốc trị bệnh của cha ông ta ngày xưa được lưu lại dưới dạng văn bản chữ Nôm.

Đề tài đã được nghiệm thu vào ngày 27/12/2022 tại Sở Khoa học và Công nghệ TPHCM với kết quả ĐẠT.

6344_chunom-18e3a0d63e3bb82d1fa79c83bc6e7b054e833297

 

Phần mềm chuyển tự tự động văn bản chữ Nôm sang chữ Quốc ngữ – một sản phẩm của đề tài – đã được Trung tâm đăng ký quyền tác giả.

Giay chung nhan Quyen tac gia_Page1_Image1

 

Link công cụ: https://tools.clc.hcmus.edu.vn/