Bước tới nội dung

Wikisource:Thảo luận/Mã hóa dấu sóng trong Unicode

Văn thư lưu trữ mở Wikisource

Năm 2012, chúng ta số hóa Từ điển Việt–Bồ–La của Đắc Lộ tại dây, nhờ các đóng góp hay dễ sợ của LMQ2401. Khác với một số ấn bản về trước, chúng ta cố gắng phân biệt các chữ và dấu đặc biệt trong bảng chữ cái quốc ngữ thời đó, nhất là chữ ꞗ mới được mã hóa trong Unicode và dấu sóng (hay bị nhầm lẫn với dấu ngã). Rất tiếc, dấu sóng ít được biết đến và vẫn chưa được Unicode hỗ trợ, nên chúng ta lạm dụng dấu ◌᷄ của bảng phiên âm quốc tế (có nghĩa thanh ngang và sắc) để khắc phục sự thiếu sót này.

dĕóu᷄
o᷄ u᷄́

Tôi đã chọn dấu này một cách sơ qua vì có vẻ giống dấu sóng chính xác miễn là không phóng to văn bản, nhưng tôi không ngờ rằng chúng ta vẫn cần phải sử dụng hack này đến năm 2024! Cách sử dụng không chuẩn này gây khó khăn khi nào muốn tìm kiếm hoặc trích dẫn nội dung từ cuốn từ điển quan trọng này. Ngoài ra, không có nhà phát triển nào, nhà lập phông chữ nào thèm chấp nhận bảng chữ cái nguyên mẫu của tiếng Việt vì chưa được chuẩn hóa. Tôi cố gắng tìm người có kinh nghiệm về Unicode để giúp nộp đơn đề xuất điểm mã, nhưng không ai trả lời.

Cách đây vài tháng, Kwamikagami tình cờ liên lạc với tôi và xin hỏi có muốn đề xuất thêm dấu sóng vào tiêu chuẩn Unicode. Nhờ LMQ2401 và nhà ngôn ngữ học tính toán Ngô Thanh Nhàn nghiên cứu các mẫu văn bản, chúng tôi biên soạn một bản đề xuất và Kwamikagami gửi yêu cầu đến Nhóm làm việc Mã hóa Hệ chữ (Script WG) của Ủy ban Kỹ thuật Unicode (UTC). Nhóm làm việc phản đối việc để giành một điểm mã cho dấu trung cổ này, thành thử chúng tôi sửa đổi đề xuất chỉ yêu cầu một lời ghi chú nhắc đến dấu sóng vào U+1DD1, một dấu Latinh cổ xưa rất hiếm. Đáng tiếc, trong cuộc họp của nhóm làm việc vào tháng 4, Sáng kiến Phông chữ Unicode Trung cổ phản đối đề xuất của chúng tôi.

Theo mặt lịch sử, dấu sóng bắt nguồn từ dấu tilde của tiếng Bồ Đào Nha, còn dấu ngã bắt nguồn từ dấu perispomeni của tiếng Hy Lạp. Tuy nhiên, ngày nay người ta thường coi tilde và dấu ngã là một, cho nên Unicode chỉ mã hóa một dấu là dấu ngã. Nếu Unicode mã hóa dấu sóng, là dấu cũng bắt nguồn từ tilde, thì đại khái chúng ta chia rẽ một dấu rất thông dụng trong các ngôn ngữ phương Tây, gây nhầm lẫn, dễ lạm dụng. Tuy Unicode đang cố gắng thêm các hệ chữ kỳ lạ từ khắp mọi nơi, các chữ rất hiếm của bảng chữ cái phương Tây cổ xưa, và các ký tự hài hước emoji, nhưng một dấu quan trọng của một bảng chữ cái quan trọng thì khá nguy hiểm. Thế với chết!

Mặt khác, Hiệp hội Unicode có lý do sợ chữ quốc ngữ một chút: ban đầu tiêu chuẩn Unicode có điểm mã riêng cho các dấu sắc huyền của quốc ngữ, chủ yếu vì các phông chữ cần phải chệch các dấu này về một bên. Tuy nhiên, năm 2002, các điểm mã này bị phản đối (deprecated) vì trùng lập với các dấu acutegrave của Latinh. Có lẽ họ sợ vội vàng chấp nhận thêm dấu Việt rồi phải quay lại phản đối nó. Rất khó thay đổi các ký tự đã được mã hóa trong Unicode, ngay cả khi mọi người đều phải chấp nhận nó là lỗi rõ ràng.

Chúng ta vẫn muốn vận động để thêm một điểm mã dấu sóng đúng đắn vào tiêu chuẩn, nhưng quá trình này có thể kéo dài nhiều năm nữa. Trong thời gian chờ đợi, Hiệp hội Unicode bảo nên áp dụng lời ghi chú vào dấu ◌᷄, như vậy hợp pháp hóa cách lạm dụng tại Wikisource mấy năm nay. Chúng tôi đang tính đồng ý với lời gợi ý của họ, chỉ mong Hội Ngữ âm Quốc tế không phản đối thay đổi này…

Dù Unicode đồng ý thêm ghi chú vào dấu phiên âm này hay không, chúng tôi sẽ cần sự hỗ trợ của cộng đồng Wikimedia tiếng Việt và nhà chuyên môn khác để làm cho Unicode nhận thấy sự cần thiết của điểm mã dấu sóng.

 – Nguyễn Xuân Minh 💬 08:31, ngày 2 tháng 7 năm 2024 (UTC)[trả lời]

Bổ sung: Phép giảng tám ngày, Sách sổ sang chép các việc. Tranminh360 (thảo luận) 02:50, ngày 3 tháng 7 năm 2024 (UTC)[trả lời]
Sorry, I don't speak Vietnamese.
What should have happened is that the modern Vietnamese ngã diacritic should have been encoded as the Greek perispomeni. Then the Middle Vietnamese dấu sóng, which is actually the Portuguese tilde, could now have been encoded as a normal tilde. But because of the original error in encoding Vietnamese, the correct option is not available. We are therefore stuck with using some kind of substitute.
Kwamikagami (thảo luận) 15:15, ngày 3 tháng 7 năm 2024 (UTC)[trả lời]