Thống kê trên từ điển tiếng Việt (*)
Trong nghiên cứu này, chúng tôi đã chọn từ điển tiếng Việt của Viện Ngôn ngữ học (do cố giáo sư Hoàng Phê chủ biên) [1] (gọi tắt là VDic). Trong ngữ liệu VDic, các trường thông tin của từ điển đã được đánh dấu, như trường từ đầu mục (headword), trường từ loại (POS: Parts-of-speech), … VDic có 34.588 mục từ.
Tiếng Việt chúng ta là thuộc loại hình ngôn ngữ đơn lập, vì vậy, đơn vị cơ bản đầu tiên cần đề cập đến chính là chữ (về mặt hình thái) hay tiếng/âm tiết (về mặt ngữ âm). Với số lượng khoảng 34.600 mục từ (trung bình so với các ngoại ngữ khác), nhưng tất cả các từ này, đều được cấu tạo bởi một hoặc vài chữ/âm tiết trong số 6.835 chữ/âm tiết (thuần Việt) khác nhau (không tính các âm tiết phiên âm các tiếng nước ngoài, tiếng dân tộc, như: biu, daklak, …). Điều này tương tự với tiếng Hoa (cũng là một thứ tiếng đơn lập) khi 1 chữ/âm tiết của chúng ta sẽ tương đương 1 Hán tự trong tiếng Hoa, ví dụ: “học sinh” là 1 từ 2 âm tiết thì tương đương với 1 từ 学生 /xué sheng/ gồm 2 Hán tự.
Khác với chữ viết trong tiếng Hán (hình thành bởi lục thư: tượng hình, chỉ sự, hội ý, hình thanh, chuyển chú và giả tá), chữ Quốc ngữ hiện nay của chúng ta là chữ ghi âm (âm vị) bằng các chữ cái Latin kết hợp thêm một số dấu phụ (diacritics). Một âm vị trong tiếng Việt được ghi bằng một hoặc nhiều chữ cái. Ví dụ: âm vị /ƞ/ được ghi bằng 3 chữ cái: “ngh” (khi đứng trước các nguyên âm hẹp, dòng trước như: /i, e, ê/). Các kết quả thống kê dưới đây chỉ thống kê trên bề mặt chữ cái/con chữ, chứ chưa đi sâu vào từng âm vị.
- Chiều dài chữ Quốc ngữ:
Một chữ Quốc ngữ có một hay nhiều chữ cái, tối đa là 7 chữ cái (chỉ có 1 trường hợp, đó là chữ “nghiêng”). Phổ biến nhất là những chữ có 3 hay 4 chữ cái. Trung bình (kỳ vọng) là 3,5 chữ cái.
Chữ Quốc ngữ |
Tỉ lệ % |
Có 1 chữ cái |
0,7 |
Có 2 chữ cái |
11,6 |
Có 3 chữ cái |
40,8 |
Có 4 chữ cái |
33 |
Có 5 chữ cái |
11,7 |
Có 6 chữ cái |
2,2 |
Có 7 chữ cái |
rất nhỏ |
Bảng 1. Thống kê chữ theo chiều dài.
Hình 1. Thống kê chữ theo chiều dài.
- Thanh điệu của âm tiết tiếng Việt:
Một âm tiết tiếng Việt sẽ mang 1 trong 6 thanh: ngang, huyền, hỏi, ngã, sắc, nặng với các tỉ lệ như bên dưới. Theo đó, âm điệu bằng (ngang, huyền) chiếm tỉ lệ 36,8% so với âm điệu trắc (ngã, hỏi, sắc, nặng) chiếm 63,2%. Còn âm vực cao (ngang, ngã, sắc) thì tương đương (chiếm 52,9%) với âm vực thấp (huyền, hỏi, nặng: chiếm 47,1%).
Stt |
Thanh điệu |
Tỉ lệ % |
1 |
Ngang |
20,8 |
2 |
Huyền |
16 |
3 |
Ngã |
7 |
4 |
Hỏi |
11,8 |
5 |
Sắc |
25,1 |
6 |
Nặng |
19,3 |
Bảng 2. Thống kê âm tiết theo thanh điệu.
Hình 2. Thống kê âm tiết theo thanh điệu.
- Loại âm tiết tiếng Việt:
Tùy vào sự hiện diện/vắng mặt và loại của âm cuối, mà một âm tiết tiếng Việt sẽ thuộc 1 trong 4 loại sau: âm tiết mở, khép, nửa mở và nửa khép. Dưới đây là tỉ lệ của 4 loại âm tiết đó trong từ điển VDic. Theo đó, âm tiết nửa khép (những âm tiết có âm vị cuối là những phụ âm mũi, như: /m,n, ƞ / trong “làm tin nhanh”) chiếm tỉ lệ cao gấp đôi so với các loại âm tiết còn lại (trung bình mỗi loại khoảng 20%).
Stt |
Loại âm tiết |
Tỉ lệ % |
Chiều dài |
1 |
Mở |
20,15 |
2,81 |
2 |
Khép |
18,65 |
3,64 |
3 |
Nửa mở |
20,98 |
3,27 |
4 |
Nửa khép |
40,22 |
3,95 |
Bảng 3. Thống kê các loại âm tiết.
Chiều dài trung bình của âm tiết mở là ngắn nhất (2,81 chữ cái) và âm tiết nửa khép là dài nhất (3,95 chữ cái).
Hình 3. Thống kê âm tiết theo loại.
- Thanh điệu của từng loại âm tiết tiếng Việt:
Tỉ lệ thanh điệu của từng loại âm tiết có sự phân bố khác nhau. Với âm tiết khép, chỉ có 2 thanh sắc và nặng, còn 3 loại âm tiết còn lại có đầy đủ 6 thanh, trong đó thanh ngang chiếm tỉ lệ cao nhất (khoảng 25%), còn thanh ngã có tỉ lệ thấp nhất (khoảng 9%).
Stt |
Âm tiết |
Mở |
Khép |
N.Mở |
N.Khép |
1 |
Ngang |
25 |
0 |
23 |
26 |
2 |
Huyền |
18 |
0 |
18 |
21 |
3 |
Ngã |
10 |
0 |
9 |
8 |
4 |
Hỏi |
15 |
0 |
16 |
13 |
5 |
Sắc |
17 |
55 |
21 |
18 |
6 |
Nặng |
15 |
45 |
13 |
14 |
Bảng 4. Thống kê tỉ lệ % từng thanh điệu của mỗi loại âm tiết.
Hình 4. Thống kê thanh điệu
của từng loại âm tiết.
- Phân bố theo chữ cái đầu tiên của chữ:
Sự phân bố 29 chữ cái trong 6.835 chữ Quốc ngữ khác nhau trong từ điển cũng khác nhau: đa số bắt đầu là con chữ phụ âm (chiếm 95,8%), trong đó phụ âm ‘T’ và ‘N’ chiếm tỉ lệ cao nhất (13,7% và 12,2%). Điều này có thể giải thích là có tới 3 âm vị mà con chữ bắt đầu bằng phụ âm ‘t’ (t, tr và th) và phụ âm ‘n’ (n, ng, ngh, nh).
Stt |
Chữ cái |
Slg |
Stt |
Chữ cái |
Slg |
Stt |
Chữ cái |
Slg |
Stt |
Chữ cái |
Slg |
1 |
A |
34 |
9 |
Ê |
15 |
17 |
O |
47 |
25 |
U |
43 |
2 |
Ă |
10 |
10 |
G |
326 |
18 |
Ô |
24 |
26 |
Ư |
23 |
3 |
 |
20 |
11 |
H |
367 |
19 |
Ơ |
14 |
27 |
V |
260 |
4 |
B |
343 |
12 |
I |
19 |
20 |
P |
191 |
28 |
X |
278 |
5 |
C |
592 |
13 |
K |
339 |
21 |
Q |
131 |
29 |
Y |
15 |
6 |
D |
294 |
14 |
L |
454 |
22 |
R |
284 |
|
|
|
7 |
Đ |
328 |
15 |
M |
315 |
23 |
S |
279 |
|
|
|
8 |
E |
21 |
16 |
N |
832 |
24 |
T |
937 |
|
|
|
Bảng 5. Thống kê chữ theo chữ cái bắt đầu.
Hình 5. Thống kê chữ theo chữ cái bắt đầu
- Phân bố chữ cái trong toàn bộ chữ Quốc ngữ:
Nếu xét trong toàn bộ 6.835 chữ Quốc ngữ khác nhau trong từ điển (không quan tâm đến vị trí con chữ), thì số lượng con chữ nguyên âm (chiếm 41,25%) cũng xấp xỉ hai phần ba số lượng con chữ phụ âm (chiếm 58,75%). Nguyên âm phổ biến nhất là ‘a’ (6,46%), nguyên âm xuất hiện ít nhất là ‘y’ (chiếm 1,62%). Phụ âm phổ biến nhất là ‘n’ (chiếm 12,41%) và thấp nhất là ‘q’ (chiếm 0,55%). Điều này có thể giải thích là trong mọi âm tiết tiếng Việt, nhất thiết phải có tối thiểu 1 nguyên âm (âm chính). Ngoài ra, bình thường trong mỗi âm tiết hay có phụ âm đầu và âm cuối, nên khiến tỉ lệ phụ âm cao hơn nguyên âm. Nguyên âm a, i, o, u có thể là âm chính hoặc âm cuối nên xuất hiện nhiều hơn. Tương tự, phụ âm n và h có mặt trong nhiều âm vị phụ âm đầu (n-, nh-, ng-, ngh-) và âm cuối (-n, -ng, -nh) nên tần số xuất hiện cao.
Stt |
Chữ cái |
Slg |
Stt |
Chữ cái |
Slg |
Stt |
Chữ cái |
Slg |
Stt |
Chữ cái |
Slg |
1 |
A |
1532 |
9 |
Ê |
728 |
17 |
O |
1119 |
25 |
U |
1266 |
2 |
Ă |
398 |
10 |
G |
1479 |
18 |
Ô |
689 |
26 |
Ư |
517 |
3 |
 |
573 |
11 |
H |
2220 |
19 |
Ơ |
581 |
27 |
V |
260 |
4 |
B |
343 |
12 |
I |
1485 |
20 |
P |
475 |
28 |
X |
279 |
5 |
C |
1089 |
13 |
K |
339 |
21 |
Q |
131 |
29 |
Y |
384 |
6 |
D |
295 |
14 |
L |
454 |
22 |
R |
535 |
|
|
|
7 |
Đ |
328 |
15 |
M |
989 |
23 |
S |
279 |
|
|
|
8 |
E |
504 |
16 |
N |
2942 |
24 |
T |
1486 |
|
|
|
Bảng 6. Thống kê phân bố chữ cái trong toàn bộ chữ Quốc ngữ.
Hình 6. Thống kê phân bố chữ cái trong toàn bộ chữ Quốc ngữ.
So sánh với bảng 5, ta thấy có 9 trường hợp số liệu không thay đổi (in nghiêng, màu xanh), đó là các chữ cái phụ âm b, d, đ, k, l, q, s, v và x. Điều này có nghĩa là 9 phụ âm này chỉ đứng ở vị trí đầu âm tiết tiếng Việt mà thôi.
- Khả năng kết hợp các chữ cái trong chữ Quốc ngữ:
Trong một chữ Quốc ngữ thì khả năng một chữ cái kết hợp với một chữ cái khác cũng khác nhau (không tính đến thanh điệu). Qua bảng thống kê (2.646 chữ Quốc ngữ không dấu) bên dưới, ta thấy khả năng kết hợp lớn nhất chính là các cặp chữ cái để ghi cùng một âm vị. Ví dụ: nh, ng, tr, th, ch, kh; các cặp nguyên âm đôi: iê, ươ, ưa, … Cột g và r chỉ có 1 giá trị khác không, có nghĩa là g và r chỉ đứng sau 1 chữ cái (trường hợp ng và tr). Chữ cái i và u dễ kết hợp nhất (tới 20 khả năng). Chữ cái p và q chỉ có khả năng kết hợp với 1 chữ cái phía sau (ph và qu). Dòng tương ứng với chữ cái y chỉ có 2 ô khác không, đó là a (1) và ê (28). Điều này có nghĩa là sau y thì 97% khả năng là ê. Chữ cái r có độ hỗn loạn thông tin (entropy) cao nhất (3,3745 bit). Entropy trung bình của một chữ cái là 2,6 bit.
Hình 7. Thống kê khả năng kết hợp các chữ cái.
- Thống kê theo chiều dài của từ:
Các từ tiếng Việt có thể gồm 1 hoặc nhiều âm tiết:
Stt |
Từ |
Số lượng |
Tỉ lệ % |
1 |
1 âm tiết |
5.316 |
15,4 |
2 |
2 âm tiết |
24.156 |
69,8 |
3 |
3 âm tiết |
2.013 |
5,8 |
4 |
4 âm tiết |
1.849 |
5,3 |
5 |
Khác |
1.254 |
3,6 |
Bảng 7. Thống kê từ theo chiều dài (số lượng âm tiết trong 1 từ).
Trong đó, số lượng từ 2 âm tiết chiếm đa số (gần 70%). Chiều dài trung bình (kỳ vọng) của từ tiếng Việt là: 2,12 âm tiết.
Hình 8. Thống kê từ theo chiều dài.
- Thống kê theo từ loại:
Trong VDic, gồm các từ loại sau:
Stt |
Từ loại |
Số lượng |
Số Âm tiết |
Số mẫu tự |
1 |
Danh từ |
16.302 |
2,03 |
7,95 |
2 |
Động từ |
10.851 |
1,83 |
7,10 |
3 |
Tính từ |
7.761 |
1,91 |
7,43 |
4 |
loại khác |
3.386 |
|
|
Bảng 8. Thống kê từ theo từ loại.
Hình 9. Thống kê từ theo từ loại.
Trong số khoảng 34.600 mục từ trong từ điển VDic, có khoảng 3.000 mục từ có nhiều hơn 1 từ loại (tính trung bình mỗi từ tiếng Việt có khoảng 1,1 từ loại) và độ dài trung bình của các từ đa từ loại là 1,4 âm tiết. Số lượng danh từ vẫn nhiều hơn và ngày càng nhiều hơn vì đây là tập mở (được bổ sung các tên gọi của các sự vật, hiện tượng mới trong cuộc sống). Chính vì chức năng định danh đó, nên chiều dài trung bình (tính theo số lượng âm tiết hay số mẫu tự) của danh từ cao cũng hơn của động từ và tính từ.
TÀI LIỆU THAM KHẢO
[1]. Viện Ngôn ngữ học (Hoàng Phê chủ biên), “Từ điển tiếng Việt”, NXB Đà Nẳng, 1980
—————————————————————
(*) Nội dung bài viết này được trích từ công trình: Đinh Điền, Đỗ Đức Hào, “Chữ Quốc ngữ hiện nay qua các con số thống kê”, hội thảo Chữ Quốc ngữ, 10/2015, Phú Yên.