ĐƠN VỊ CHÍNH TẢ VÀ CÁC ĐẶC ĐIỂM CỦA TIẾNG VIỆT:
CHỮ QUỐC NGỮ, HỆ LATINH, CHỮ NÔM, HỆ BIỂU Ý,
VÀ UNICODE/ISO IEC 10646 ♣
Ngô Thanh Nhàn
Ban Chuẩn bị Sử dụng Bộ Mã chữ Việt theo Unicode/ISO 10646
Ngày 1 tháng 7 năm 2001
Bài này dùng các tiêu chí của
Unicode/ISO IEC 10646, như phổ quát, hiệu quả, đồng bộ và
minh bạch, làm cơ sở cho tập mã đa ngữ Việt Nam. Các điểm
chung của chữ quốc ngữ, chữ Nôm, chữ Chàm, chữ Thái, và
các thứ chữ khác rõ ràng là tiếng. Bài này cho
thấy từ một kho chữ viết (một hệ thống chữ viết), ta
rút ra được các đơn vị có hình dáng và có nghĩa nhỏ nhất
của hệ thống chữ viết ấy, sao cho hệ thống luật tái
tạo kho chữ ấy đúng nhất (tái tạo theo đặc thù
của kho chữ này, nghĩa là ra tiếng Việt), đầy đủ nhất
(tái tạo lại kho chữ ban đầu),
thông suốt nhất (không
thay đổi khi chuyển đi lại nhiều lần), và đơn giản
nhất (hệ thống các ký hiệu và hệ luật kết hợp dễ
thực hiện nhất). Ta gọi ký hiệu nhỏ nhất này là một
đơn vị chính tả. Các kho chữ trong tiếng Việt
là kho ký hiệu tiếng và hoạt động đặc biệt
của chúng trong tiếng Việt. Ở đây ta chỉ nói về chữ Nôm
và chữ quốc ngữ hiện có mặt trong Unicode/ISO IEC 10646.
1. Trong bài Cuộc đời sâu kín của Unicode—Lén xem chỗ nhược dưới bụng Unicode,1 bà Suzanne Topping ghi lại một cách dễ hiểu những bình phẩm của những người tham gia xây dựng và sử dụng Unicode và những người chống nó, để đưa đến kết luận, dù Unicode không làm mất đi các vấn đề qua cách quốc tế hoá, nhưng không ai bằng nó, và nó làm cho các vấn đề đặt ra thêm thú vị. Đa số vấn đề nằm ở nhóm chữ biểu ý CJKV (Trung-Nhật-Triều-Việt) do sự hiểu lầm chữ (tự) lâu đời của Âu Mỹ, mâu thuẫn giữa giải pháp mới cần kỹ thuật mới chưa phổ biến trong khi phải bảo vệ cái cũ lỗi thời nhưng có nhiều người dùng, v.v.
Bà Topping cũng bàn về mâu thuẫn tự nội của giải pháp mà Unicode gặp phải gọi là lộn xộn chuỗi mã tương đương equivalency confusion—ví dụ, bộ chuẩn có 4 mã, o, ô, ố, dấu mũ và dấu sắc, một con chữ phức như ố có nhiều hơn một cách tạo nó: (a) dùng 1 mã ố dựng sẵn, (b) tạo ố bằng hai mã: ô và dấu sắc, hoặc (c) tạo ố dùng ba mã: o, dấu mũ và dấu sắc. Tuy Unicode không khuyến khích dùng (a), nhưng đây có lẽ là vấn đề thảo luận sôi nổi nhất của chữ quốc ngữ khi dùng Unicode.
Bài này nêu ra một số vấn đề của chữ quốc ngữ, chữ Nôm và các thứ chữ âm tiết khác như chữ Chàm và chữ Thái, đưa thêm một số tiêu chí để đánh giá chúng theo yêu cầu của từng thứ tiếng dân tộc trong nước Việt Nam. Luận điểm chính là Unicode (hay bất kỳ một bộ mã nào) chỉ có giá trị khi nó đáp ứng được yêu cầu thông tin đúng, đầy đủ, thông suốt và đơn giản của một thứ tiếng nói cụ thể.
2. Chuẩn mã hoá ký tự (character encoding) công nghệ thông tin lấy tính phổ quát (universal), hiệu quả (efficient), đồng bộ (uniform) và minh bạch (unambiguous) làm mục tiêu chính.2 Chúng ta dùng chuẩn Unicode Consortium 16-bit hay ISO IEC 10646 32-bit (ta gọi tắt là Unicode) có nhiều lợi thế hơn các chuẩn ký tự 8-bit trước đây, cơ bản là:
Như thế, vì chữ Nôm, chữ Chàm, chữ Thái và chữ quốc ngữ đều hiện diện trong Unicode, tôi coi đó là lợi thế ta cần nghiên cứu.
B. ĐƠN VỊ CHÍNH TẢ
Ta gọi một đơn vị chính tả (orthographic unit) 6 là một đơn vị nhỏ nhất có hình dáng và có nghĩa của một hệ thống chữ viết. Một đơn vị chính tả được biểu thị bằng một mã ký tự chuẩn.
Định nghĩa này cho phép một đơn vị chính tả có tính trừu tượng, nhưng luôn luôn có hình dáng, ví dụ, đơn vị chính tả "a A …" là con chữ cái "a" trừu tượng, mang nhiều hình dáng khác nhau. Ví dụ, chữ Nôm trời có hai đơn vị chính tả, thiên trên và thượng dưới. Định nghĩa này buộc chúng ta nhận dấu thanh (huyền, sắc, nặng, hỏi, ngã) là đơn vị chính tả (một mã ký tự riêng), trong khi đó, các dấu nguyên âm (mũ circumflex, trăng breve, râu horn, v.v.) không phải là đơn vị chính tả trong chữ quốc ngữ.
Nhóm từ "của một hệ thống chữ viết" trong định nghĩa trên cùng nghĩa với từ kho (repertoire) trong Unicode. Nghĩa là các đơn vị chính tả của chữ Nôm là hình dáng phân tích có nghĩa nhỏ nhất trong kho chữ Nôm mà thôi. Đơn vị chính tả của chữ quốc ngữ là hình dáng có nghĩa nhỏ nhất trong kho chữ quốc ngữ. Nó có nghĩa trong phân tích nội tại của một kho chữ. Ví dụ, dấu mũ (circumflex), trăng (breve), râu (horn), v.v. không có nghĩa trong chữ quốc ngữ, nhưng chúng có nghĩa trong tiếng Pháp, tiếng Tây-ban-nha, tiếng Bồ-đào-nha, chẳng hạn.
1. Phương pháp luận ở đây bắt đầu bằng một kho chữ. Ai cũng phải làm thế. Từ kho chữ ấy, ta rút ra những bộ phận giống nhau nhỏ nhất, cắt tuần tự theo nhiều phương pháp khác nhau và theo dõi toàn bộ các quy trình cắt ấy. Từ một kho chữ có chiều dài nhất định, chúng ta luôn luôn có nhiều quy trình cắt khác nhau thành những đơn vị khác nhau. Mỗi hệ thống cắt cho ta một hệ đơn vị chính tả. Đảo ngược một hệ thống cắt,7 ta có một hệ thống kết hợp riêng cho hệ thống đơn vị chính tả liên hệ. Tất cả các hệ thống kết hợp và đơn vị chính tả của chúng đều sản sinh ra cùng một kết quả (kho ban đầu) như ý.
Ví dụ, phân tích kho chữ quốc ngữ, ta có thể có 3 giải pháp (nhớ lại những ngày đầu của chương trình chuẩn hoá):
Do đó, chúng ta cần có những tiêu chí độc lập với tất cả các quy trình để đánh giá chúng.
Trong một thứ tiếng, chúng ta không bao giờ tìm được kho đầy đủ (ví dụ, kho chữ Hán-Nôm có thể ngày càng nhiều, nhưng không bao giờ đủ, kho tiếng Việt không bao giờ đầy đủ). Hệ các đơn vị chính tả và hệ kết hợp giúp chúng ta tìm ra đặc thù của một thứ chữ viết cho một thứ tiếng… nhờ đó chúng ta tiệm cận được đúng và đầy đủ của một thứ chữ viết (mà không cần khởi đầu bằng một kho đầy đủ).
Nếu không có tiêu chí sắp thứ tự đúng chữ quốc ngữ (các âm tiết), v.v., thì phương pháp dựng sẵn (precomposed) bằng hoặc hơn hẳn phương pháp kết hợp (combining) trong bối cảnh kỹ thuật 8-bit những năm trước đây. Nhưng khi có thêm các tiêu chí về hoạt động khác của ngôn ngữ, như sắp thứ tự, tìm kiếm, bỏ dấu thanh đúng chỗ, v.v. phương pháp kết hợp bắt đầu cho thấy tác dụng của nó… tuy nó đòi hỏi phải có kỹ thuật mới (kỹ thuật kết hợp) cho trình bày và in ấn.
Phương pháp tổ hợp hoàn toàn (coi các dấu nguyên âm là các đơn vị chính tả) tuy không đúng chuẩn từ điển chữ quốc ngữ trong tiếng Việt nhưng lại có lợi trong một số thứ tiếng dân tộc. Kèm theo việc phân tích kho chữ không cần nhìn vào tiếng nói đưa ta đến lựa chọn này. Vì chưa có một giải pháp chữ quốc ngữ nào sử dụng phương pháp này (trừ bàn phím), tôi xin để dành phân tích phương pháp này cho tương lai, vì chúng ta không dễ dàng lơ đi.
2. Thêm nữa, ta có thể gọi một đơn vị chính tả của chữ quốc ngữ là ký hiệu biểu thị một đơn vị chính âm (âm vị, phoneme) theo từ điển chuẩn. Đơn vị chính âm là một đơn vị trong tâm thức của người bản xứ. Ví dụ, vần là một đơn vị trong tâm thức của người nói tiếng Việt (có thể nói vần là đơn vị âm thanh phổ quát—mọi ngôn ngữ đều có thi ca, dùng vần điệu trong thi ca). Trong bài này chúng ta bắt đầu dùng đơn vị chính tả gần với đơn vị chính âm để cho thấy sự cần thiết phải tiệm cận chính tả và tiếng nói, cho đơn vị chính tả cái ta gọi là chứng cớ thực tế sự hiện hữu của nó (physical evidence) trong ngôn ngữ.
Ta có thể nghe/thấy được các đơn vị chính tả qua cách đánh vần của một dân tộc. Cùng một âm tiết /xem/, cách đánh vần chữ quốc ngữ cho ta cấu tạo nội tại và các đơn vị chính tả trong chữ quốc ngữ—khác với cách đánh vần chữ Nôm. Đánh vần là chỉ cho người khác cách viết đúng như ý mình.
Chữ quốc ngữ: xem—e mờ em xờ em xem 8
Chữ Nôm: xem—mục bên trái, chiêm bên phải
Cách đánh vần chữ quốc ngữ cho ta các đơn vị chính tả: e mờ xờ, và các đơn vị cao hơn, e, em và xem. Đơn vị em, ta gọi là vần của đơn vị xem ta gọi là tiếng. Đặc điểm của cách đánh vần này là ta không bắt đầu từ trái sang phải, mà bắt đầu từ nguyên âm trung tâm e (đã là một tiếng), xong thêm m để làm thành vần em trước, xong mới cộng thêm phụ âm x, xong mới thêm dấu thanh, để thành tiếng xem.
Ngược lại, cách đánh vần trong chữ Nôm cho ta hai đơn vị chính tả: mục và chiêm. Đơn vị chính tả "mục" cho ta vùng nghĩa của chữ xem. Đơn vị chính tả "chiêm" cho ta vùng âm thanh của chữ xem.9 Chữ Nôm vì đã có hơn 10 thế kỷ, vùng âm thanh ghi lại những chặng biến đổi âm thanh trong lịch sử phát triển tiếng Việt. Vùng nghĩa cho ta biết loại từ (classifier, còn gọi là bộ) của chữ xem.
Một tiếng nói có hai thứ
chữ viết theo hai hệ thống khác nhau mang cho tiếng Việt nhiều
lợi thế.
C. TIẾNG VÀ CÁC YÊU CẦU CHUẨN CNTT
Tiếng là đơn vị mà chuẩn các chữ viết (Nôm, quốc ngữ, Chàm. Thái) và chuẩn tiếng nói gặp nhau. Không phải vô tình mà hai bên một chữ quốc ngữ và một chữ Nôm (một chữ Chàm hay một chữ Thái) có các dấu cách. Tiếng là âm tiết. Chữ (hay tự) là ký hiệu (hình vẽ) của tiếng. Như vậy, về mặt chữ viết, chúng ta chọn chữ làm một đơn vị nghiên cứu để mô tả tiếng là một đơn vị âm thanh.
Ở đây, ta chọn yêu cầu "đúng", "đầy đủ", "thông suốt", và "đơn giản" làm thước đo các giải pháp chuẩn ký tự.
Chữ quốc ngữ tiếng Việt gồm có:
2. 16 nguyên âm, viết thành
14 nhóm chữ cái,
|
|
|
|
a |
|
|
ơ |
|
|
e |
|
|
ê |
|
|
ia, iê, ya, yê |
|
|
o |
|
|
ô |
|
|
ua, uô |
|
|
ưa, ươ |
Xem, The Syllabeme… sách đã dẫn. 3. 24 phụ âm đầu (một phụ âm đầu tắc hầu, glottal stop, không có con chữ cái), viết thành 23 nhóm chữ cái, và 4 chữ cái cho tiếng dân tộc khác (viết trong ngoặc đơn), b, c/k/q, ch, d, đ, (f), g/gh, gi, h, (j), kh, l, m, n, nh, ng/ngh, p, ph, r, s, t, th, tr, v, (w), x, (z) 4. 1 bán nguyên âm đầu (tròn môi, o hay u): Ví dụ, khoan, khuynh, noãn, công-poanh, nguyễn, v.v. Chứng cớ bán nguyên âm này là một phần âm sắc của phụ âm đầu là nói lái hoà lan thành hoàn la (âm tròn môi o đi theo h).5. 2 bán nguyên âm cuối (i, y, o, u), 6 phụ âm cuối (p, t, c/ch, m, n, ng/nh)
i/y, o/u, p, t, c/ch, m, n, ng/nh 6. 6 thanh, viết bằng 5 dấu. Thanh ngang không mang dấu.Sự phân biệt bằng trắc, cao thấp, giúp chúng ta tái tạo cách nói lái (đấu tranh, đánh trâu, tránh đâu, trâu đánh, tranh đấu,…), lập từ láy (trăng trắng, nho nhỏ, mằn mặn, vò võ, v.v.), ngữ đoạn, …
|
|
|
|
|
|
|
|
|
|
|
|
|
7. Một tiếng trong tiếng Việt gồm có một phụ âm đầu, một bán nguyên âm, một nguyên âm chính, một phụ âm hay bán nguyên âm cuối và một thanh.
|
||||
|
|
|
||
|
|
|
|
|
|
|
|
|
|
Trong lịch sử, một tiếng gồm một phụ âm (phụ âm đầu + bán nguyên âm tròn môi), một vần (nguyên âm chính + phụ âm/bán nguyên âm cuối) và một thanh. Một tiếng phải có ít nhất một thanh và một nguyên âm chính, các thành phần khác của tiếng xuất hiện theo các mẫu dưới đây. Sự phân biệt phụ âm, vần và thanh mô tả tiếng nói đầy đủ nhất.
Có một số luật kết hợp chuẩn giữa các đơn vị tiếng (thanh, phụ âm, vần) và các luật kết hợp chuẩn cho các cấu phần nội bộ của tiếng.10 Ví dụ, chỉ có hai thanh sắc và nặng xuất hiện khi các vần tận cùng bằng –p, –t, –c và –ch.
8. Các mẫu cấu tạo trên và
các luật kết hợp cho ta khoảng 15.000 tiếng nói được và
nhận biết được là tiếng Việt, nhưng chỉ có trên dưới
7.000 tiếng Việt hiện đại dùng đến.
Định nghĩa đơn vị chính tả chính xác hơn định nghĩa ký tự của Unicode (không làm rõ sự tương ứng của chữ biểu ý, gốc ấn, gốc hồi,… và chữ latinh). Nó phát huy lợi thế của Unicode giúp chúng ta làm được tập mã đa ngữ Việt Nam, nằm trong tập mã đa ngữ quốc tế. Kỹ thuật dấu rời (combining marks)—những đơn vị chính tả—cho phép chúng ta tiệm cận đặc thù của các thứ chữ viết và tiếng nói trong nước. Nó cho phép chúng ta ghi lại, và nhái lại đúng hoạt động đặc thù của tiếng Việt và các thứ tiếng khác, như nhập dữ liệu (theo phong cách riêng của mỗi thứ chữ viết), sắp thứ tự, tìm kiếm, chuẩn chính tả tự động, chuyển ngữ (ví dụ, Nôm–quốc ngữ và ngược lại), dịch/trữ/tìm/phát sinh âm thanh, sản sinh các cách nói lái, từ láy, vần điệu trong lời nói, nhạc, thi ca, v.v. Chúng ta có mục tiêu rộng hơn để làm dễ việc chuyển hoá giữa chữ viết và âm thanh của một thứ tiếng. Trong đó, theo những tri thức/nhận xét về tiếng của tiền nhân, ta gộp các ký tự thành đơn vị lớn hơn, đó là phụ âm, vần và thanh.
Định nghĩa này cho phép hai
ngành công nghệ tin học về âm thanh và chữ viết phát triển
song song, dành chỗ cho các nhà tin học trẻ tham gia giải quyết
quan hệ của chữ viết và tiếng nói, góp phần vào việc
tự động thu tin tức đủ loại (vừa tiếng vừa chữ), giúp
cho người điếc, người câm, người ngoại quốc du lịch,
giảng dạy tiếng Việt tự động, thu thập tri thức (tiềm
tàng trong chữ viết và tiếng nói), v.v.