鼎稔道學館
☯️ 概念✓ 品質審核

UTF-16

UTF-16 是一种以 16 位元(即两个字节)为单位对[[Unicode]]码点进行编码的方式。它能够覆盖整个 Unicode 范围,包括基本多语言平面(BMP)以及补充平面,因而在处理中文、日文、韩国等大量字符时不必像 [[UTF-8]] 那样使用多字节序列。相较于只能在 16 位元内部使用的 [[UCS-2]],UTF-16 引入了代理对(surrogate pair)机制,使最高平面之外的

⬇ Markdown / Obsidian🔗 v20260605

UTF-16 是一种以 16 位元(即两个字节)为单位对Unicode码点进行编码的方式。它能够覆盖整个 Unicode 范围,包括基本多语言平面(BMP)以及补充平面,因而在处理中文、日文、韩国等大量字符时不必像 UTF-8 那样使用多字节序列。相较于只能在 16 位元内部使用的 UCS-2,UTF-16 引入了代理对(surrogate pair)机制,使最高平面之外的码点得以用四个字节表示。由于其固定的两字节或四字节长度,在一些以 16 位元为基本单位的系统(如古老的 Java 或 Windows API)中读取和写入更为直接。可是,这也导致存储空间需求大约是 UTF-8 的两倍,尤其在以拉丁字母为主的文本中會浪费大量带宽。另一常见的问题是大小端(Big EndianLittle Endian)的选择,若不匹配会产生乱码。为解决这一问题,通常会在文件开头加入 BOM(Byte Order Mark)来指示字节序。总体而言,选择 UTF‑16 还是 UTF-8 应依据具体的应用场景、目标平台的兼容性以及对存储效率的要求来决定。

法緣留言(

載入中…

ID: forager:concept:5a9da893be5f · 最後更新:2026/6/5· 版本:20260605 · 版本歷史

其他資料:學術論文(個別著作權)、本派傳承(CC0 1.0)。