Độ khó của văn bản

1. Giới thiệu
Đọc là một trong bốn kĩ năng cơ bản nhất của con người để tiếp nhận kiến thức từ thế giới xung quanh. Trong thời đại hiện nay, có hàng tỉ văn bản có thể đọc, bao gồm những văn bản có thể đọc hiểu và cả những văn bản không hoặc khó có thể hiểu được. Việc lựa chọn một văn bản có thể đọc và hiểu được không phải là một vấn đề đơn giản trừ khi chúng ta đọc hết văn bản đó. Chính vì vậy, đã có nhiều nghiên cứu nhằm hỗ trợ người đọc xác định xem một văn bản nào đó có phù hợp với người đọc/nhóm người đọc đó hay không. Bài toán kiểm tra xem một văn bản có phù hợp với người đọc hay không liên quan tới hai yếu tố: (1) khả năng của người đọc và (2) độ phức tạp của chính bản thân văn bản đó. Yếu tố khả năng của người đọc liên quan tới kiến thức và kinh nghiệm của người đó (người đọc có biết và am hiểu về chủ đề của văn bản đó hay không); kĩ năng đọc của người đó; liệu người đó có hứng thú với chủ đề của văn bản hay không; động lực, lý do để người đó đọc văn bản; tình trạng tâm lý và sức khỏe của người đó… Trong khi đó, yếu tố độ phức tạp của chính văn bản lại liên quan tới nội dung của nó (cách thức mà các ý trong văn bản được trình bày); phong cách diễn đạt của văn bản (cách hành văn của của tác giả); các yếu tố thị giác của văn bản (kiểu chữ, kích thước chữ, màu sắc, hình ảnh minh họa…); bố cục của văn bản và các hướng dẫn đọc văn bản (mục lục, các chú thích…)[1].
Xác định độ khó của văn bản là một hướng nghiên cứu nhằm xác định sự phù hợp giữa văn bản và người đọc. Theo Alan Bailin và Ann Grafstein [2], độ khó của văn bản là độ đo xác định một văn bản là dễ hay khó đọc thế nào. Độ khó của văn bản phụ thuộc nhiều vào các yếu tố ngôn ngữ như cách dùng từ, ngữ, câu, phong cách của văn bản…
Các nghiên cứu về độ khó của văn bản đã được thực hiện từ những năm đầu thế kỉ XX, hầu hết là cho tiếng Anh và một số ngôn ngữ phổ biến khác như tiếng A Rập, tiếng Ý, tiếng Pháp, tiếng Hoa, tiếng Nhật… Trong tiếng Việt, có rất ít các nghiên cứu về độ khó của văn bản. Điều này thúc đẩy chúng tôi tiến hành các nghiên cứu sâu hơn về đánh giá độ khó của các văn bản tiếng Việt.

2. Nghiên cứu
Chúng tôi đang tập trung nghiên cứu 3 nhiệm vụ của bài toán đánh giá độ khó văn bản:

  • Xây dựng kho ngữ liệu lớn và tin cậy làm cơ sở để khảo sát độ khó của văn bản tiếng Việt.
  • Khảo sát và đánh giá các đặc trưng phù hợp để đo độ khó của văn bản tiếng Việt [3, 4, 5].
  • Xây dựng mô hình chính xác và hiệu quả để đo độ khó của văn bản tiếng Việt.

References
[1] DuBay, W. H. (2007). Unlocking language: The classic readability studies. Costa Mesa, CA: Impact Information.
[2] Bailin, A., & Grafstein, A. (2016). Readability: Text and context. Basingstoke: Palgrave Macmillan.
[3] An-Vinh Luong, Diep Nguyen, Dien Dinh (2017). Examining the Text-length Factor in Evaluating the Readability of Literary Texts in Vietnamese Textbooks, Knowledge and Systems Engineering (KSE). 2017 Ninth International Conference on, Hue Province, 2017.
[4] Nguyen Thi Nhu Diep, Luong An Vinh, Dinh Dien (2017). Investigating some elements affecting the readability of Vietnamese texts – Primary level (in comparision to English ones). The 3rd international conference on Vietnamese studies, Vung Tau province, 08/2017.
[5] Luong An Vinh, Nguyen Thi Nhu Diep, Truong Thi Hong , Dinh Dien (2017). Examining the Readability of proses in the literature textbooks for Vietnamese students at primary and secondary schools. The 3rd international conference on Vietnamese studies, Vung Tau province, 08/2017.