Người dùng hiện có thể truy cập và trải nghiệm công cụ chuyển chữ Nôm sang chữ quốc ngữ này trên một website mở.
Hệ thống chuyển chữ Nôm sang chữ quốc ngữ hiện đang mở cho những ai quan tâm có thể trải nghiệm – Ảnh: TRỌNG NHÂN
Ứng dụng chuyển chữ Nôm sang chữ quốc ngữ
Công trình xây dựng hệ thống chuyển chữ Nôm sang chữ quốc ngữ do PGS.TS Đinh Điền – giám đốc Trung tâm ngôn ngữ học tính toán, Trường đại học Khoa học tự nhiên (Đại học Quốc gia TP.HCM) – chủ trì. Đây là một trong những đề tài vừa được nghiệm thu tại Sở Khoa học và Công nghệ TP.HCM.
PGS.TS Đinh Điền giải thích hệ thống của ông tập trung vào chuyển tự, nghĩa là thay thế từ dạng này sang dạng khác trong cùng một ngôn ngữ.
Chẳng hạn, từ “Путин” trong hệ chữ Cyrillic của tiếng Nga có thể được chuyển tự sang từ “Putin” trong hệ chữ Latin.
Hay từ “にほん” trong hệ chữ Hiragana sẽ tương đương với từ “Nihon” khi được chuyển sang hệ chữ Latin, đều có nghĩa là Nhật Bản.
Theo PGS.TS Đinh Điền, việc chuyển tự như trên khá đơn giản vì có sự tương ứng, gần như “1-1” giữa các mẫu tự trong 2 hệ chữ.
Đồng thời, các hệ chữ viết trên cùng thuộc loại hình chữ viết ghi âm nên việc chuyển tự hoàn toàn được thực hiện một cách tự động, nhanh chóng và chính xác bằng cách tra bảng.
Tuy nhiên, việc chuyển chữ Nôm sang chữ quốc ngữ lại phức tạp hơn rất nhiều. Thách thức nằm ở chỗ hai hệ chữ khác loại hình chữ.
Một chữ Nôm thường mượn 2 yếu tố Hán tự, một chữ Hán ghi âm và một ghi ý. Ví dụ, chữ “năm”: (số 5), có sự kết hợp giữa yếu tố ghi âm là “南” (/nán/) + và yếu tố ghi ý “五” (ngũ).
Trong khi đó, chữ quốc ngữ đơn thuần thuộc loại hình chữ ghi âm vị (phonemic).
Cùng một chữ Nôm có thể được chuyển tự sang nhiều chữ quốc ngữ khác nhau. Ví dụ chữ “中” có thể chuyển tự sang các chữ “đúng, trong, trung, trúng, truồng” trong chữ quốc ngữ.
Chưa kể, do biến âm vùng miền, lịch sử du nhập âm Hán – Việt nên có nhiều cách viết chữ Nôm khác nhau chưa thống nhất.
Ứng dụng học hàng triệu dữ liệu
Để tạo lập hệ thống chuyển chữ Nôm sang chữ quốc ngữ, nhóm nghiên cứu của PGS.TS Đinh Điền áp dụng mô hình Dịch máy thống kê SMT (Statistical Machine Translation) kết hợp với các mô hình dịch khác (NMT, hybrid).
“Chiến lược” đưa ra là cung cấp cho máy một nguồn dữ liệu lớn về cả chữ Nôm lẫn chữ quốc ngữ để máy “tự học”.
Khi bạn cần tra cứu, máy sẽ tính toán xác suất cao nhất của nghĩa từ/câu chữ Nôm và tính xác suất cao nhất cách diễn đạt từ/câu ấy tương ứng trong chữ quốc ngữ.
Trong khi thực hiện công trình này, nhóm nghiên cứu đã kết hợp với nhiều đơn vị, trong đó có bộ môn Hán Nôm, Trường đại học Khoa học xã hội và Nhân văn (Đại học Quốc gia TP.HCM), để xây dựng kho dữ liệu.
Ước tính máy đã được “học” kho ngữ liệu song ngữ chữ Nôm – chữ quốc ngữ 418.935 tự; kho ngữ liệu đơn ngữ chữ quốc ngữ 823.533 câu, 13 triệu từ; từ điển chữ Hán – Việt 66.450 mục từ; tự điển chữ Nôm – quốc ngữ 22.264 mục tự…
Ngoài ra, máy cũng tự “học” cách khai thác tài nguyên đã được số hóa, đăng tải trên mạng Internet. Nhiều nguồn sách vở chữ Nôm khác đã được “nhập tay” cho máy học, thuộc nhiều lĩnh vực như văn học, lịch sử, địa lý, y học, tôn giáo, âm nhạc…
Hiện tại, hệ thống đã có thể chuyển ngữ phần lớn các câu văn chữ Nôm bất kỳ. Tương tự như ứng dụng Google Translte (Google Dịch), bạn chỉ cần đưa từ/cụm từ/câu văn cần chuyển ngữ (từ chữ Nôm), máy sẽ lập tức hỗ trợ bạn sang chữ quốc ngữ.
Hệ thống chuyển tự hiện được mở trên website: https://tools.clc.hcmus.edu.vn/ để những ai quan tâm có thể tra cứu.
PGS.TS Đinh Điền cho biết sắp tới đây, hệ thống sẽ được “nâng cấp” thêm chức năng có thể chuyển chữ Nôm sang chữ quốc ngữ từ hình ảnh. Bạn chỉ cần chụp ảnh có các chữ Nôm, hệ thống sẽ lập tức chuyển sang chữ quốc ngữ.
Hệ thống này có thể được tích hợp trong các app du lịch. Khách tham quan khi đến thăm các khu di tích lịch sử, đền đài cổ để tra cứu các bia, câu đối, liễn chữ Nôm. Từ đó, du khách sẽ thuận tiện hơn khi tìm hiểu văn hóa Việt Nam.