30/09/2018, 20:32

Tuốt tuồn tuột về Unicode và Charset

Từ coder đến developer - Tôi đi code dạo – 21 Mar 16

Series Phản Phác Qui Chân – Tuốt tuồn tuột về Unicode và Charset

Chào mừng các bạn đã quay lại với series Phản Phác Quy Chân. Lần này series sẽ tập trung giải thích mổ xẻ tất tần tật về Unicode, encode và charset. Hầu hết các ngôn ngữ/framework đều hỗ trợ sẵn Un…

Phan Hoàng viết 22:32 ngày 30/09/2018

Bài này mình nghĩ nên thêm một số chủ đề sau:

  • Mối quan hệ với font (tại sao font hiển thị sai khi chọn bảng mã #, thế nào là glyph, …)
  • Các case hay gặp khi sử dụng encoding: lấy từ DB ra, save file dưới dạng # utf8, sử dụng escape trong các ngôn ngữ như Java, JS khi các ký tự này nằm ngoài bảng mã ASCII.
  • Một chút BOM và cách nhận diện encoding, đặc biệt là đầu trứng to và đầu trứng nhỏ ^^

p/s: ngoài ra, UTF16 không phải là 2 bytes mà còn có thể dài 4 bytes. UTF16 # UCS2 nhé.

Bài liên quan
0