百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

你在电脑上看到的字到底是怎么显示出来的?

myzbx 2025-02-15 16:36 9 浏览

大家都知道计算机储存信息,本质上都是在储存 0 和 1,如果是数字比较容易理解,二进制转为十进制,或者用上科学计数法。但是到底计算机是怎么让一堆 0 和 1 显示成人类可读的文字呢?看完本文,大家应该就懂了

前置知识

与其说是前置知识不如说是一些提醒:

  • 1 bit 就是 1 个 1 或 0
  • 1 byte = 8 bit
  • 1 byte 的可能性就是 0b00000000 到 0b11111111
  • 于是 1 byte 可以表达 2 的 8 次方也就是 256 个数字
  • 十六进制是记录 byte 很好的格式
  • 与其用二进制,更常用 0x00 到 0xff 可以表示 1 byte 的内容

码表的起源

码表(Character Encoding Table)是很容易理解的概念,完全就是一个数值对应一个字符。暂时我们可以粗略地认为,你能在电脑看到的字符,就是这么从这么个表格规定的映射从一堆 0 和 1 转换成你能看到的文字。

最广为人知最原始的码表是 ASCII。

从发电报开始,ASCII 就初露头角。如你所见,最初 ASCII 只有 7 位(bit),当年为了节省带宽确实会用 7 位,但是这个数值对计算机来说不太友好,所以后来还是改成 8 位,也就是 1 字节(byte)。

既然多了 1 位,那就很有理由继续扩充 ASCII 表咯,于是产生了两种广泛传播的 8 位的扩展 ASCII 表:ISO-8859-1 和 Windows-1252。这两种扩展表的扩展部分不尽相同,但都是填充欧美使用的字母例如:? ? ? è é 等等。

计算机发源于美国,但最终走向全世界,如果只能显示英文,那怎么够呢?对使用表音文字的欧美各国,这个情况很好解决,但使用表意文字的中日韩(简称 CJK)就很成问题。于是各个国家都制定了适合本国文字的码表,这些码表都在兼容 ASCII 的基础上添加本国文字。例如中国的 GBK 和 Big5、日本的 Shift-JIS、韩国的 EUC-KR、越南的 VISCII 等等。

对于 ASCII,本身就只有 256 个码,1 个字节轻松表示,但是,各种扩展集都超过了 256,再就变成了 2 个字节表示 1 个字……这时候大家看出问题了吗?

如果仅仅按数字顺序排列的话,编码第 257 个值就会变成一个 0x00 和一个 0xff,那么系统就根本知道你这到底是 1 个字符还是 2 个字符。所以要编码大量文字就必须有一个明确标志告诉系统一个字的字节数。对于 GBK,会规定小于 0x7f 为单字节,再往上的均为双字节。有了这个规定,系统就知道 0x81 必不会单个字节成字符,会多读一个字节再找到码表对应的字符。

例如 GBK 的 A 是兼容 ASCII 的 0x41,而 我,是 0xce 0xd2,前面的字节大于 0x81,于是再读一个字节构成 我。同理可得,Shift-JIS 等其他国家的编码也是这个操作。

其实这么不同地区不同码表真不是办法,这会造成 21 世纪初网民很常见的一个问题:乱码。接收到其他地区的文件,在自己电脑打开看到一串看不懂的东西,这是当然的,一个来自日本的文本,本身编码使用的是 Shift-JIS,但是来到海的另一边,解码方式却是 GBK,这两个码表,能对上才怪。Shift-JIS 语一句 こんにちは 来到 GBK 的地盘变成了 偙傫偵偪偼,GBK 的一句 你好 到岛国变成 ?羲?,别说语言不通,这甚至是加密通话。

想体验上面描述的转码奇妙体验可以来这里玩玩,毕竟近 10 年已经基本上不会遇到这种问题了。但是为什么呢?

因为我们伟大的 Unicode 统一了所有编码,大一统的时代来啦!

Unicode

Unicode 是集合了地球上所有语言字符的一个表格,从此,我们不再需要分不同编码方式了,统一使用 Unicode 编码。

Unicode 有 10FFFF 个(也就是 1114111)码点(code point)。其中最重要的是前 0000 到 ffff 个码点,这个范围被称为基本多语言平面(Basic Multilingual Plane 缩写 BMP),后面也是每 65536 个点一个平面,共 17 个平面。占大头的还是 CJK 表意文字,并且整个码表现在其实还有大量空位。

偷大佬一个很直观的图,包含世界上所有常用文字的 BMP 仅仅是 Unicode 的第一小块:

最开始,我说可以粗略地认为“码”到“字”是不经过转换的简单的 1 对 1 关系,但是看到这里,是时候进阶了。Unicode 具有“码点”和“编码”两层概念。

简单来说,从 Unicode 编码到 UTF-8 的方法是把码点分成 4 个区间,不同区间采取不同的编码方式:

Code point

Byte 1

Byte 2

Byte 3

Byte 4

U+0000..007F

0xxxxxxx




U+0080..07FF

110xxxxx

10xxxxxx



U+0800..FFFF

1110xxxx

10xxxxxx

10xxxxxx


U+10000..10FFFF

11110xxx

10xxxxxx

10xxxxxx

10xxxxxx

0000..007F 也就是标准 ASCII,编码为 1 个字节,而最后面的部分 10000..10FFFF 会被拆开四份编码为 4 个字节。

同样的一套码点,Unicode 可以编码成 UTF-16。编码成 UTF-16 之后所有字符都稳定在 16 位,也就是最多可以表示 65536 个字符(也就是 BMP 范围)。UTF-16 最致命的一点是因为所有字符都被编码成 16 位,所以不支持最原始的 ASCII。

另外对 UTF-16 额外有代理对(surrogate pair)的概念,因为 Unicode 会超过 FFFF 所以再往上不能保证 2 字节定义一个字符,所以要根据一定规则转为 4 字节。虽然 UTF-16 不是常用文件的编码方式,但如果你使用 JavaScript,它的字符串在内存中就是 UTF-16 编码的,后面在编程部分会再细讲一下。

一个码表包含了所有字符,包括很多可爱的 Emoji,看起来很美好,但实际上 Unicode 有个很奇葩的地方:10FFFF 并不是 Unicode 能表示的字符的上限,Unicode 可以把多个码点组合成 1 个字符

例如这个 Emoji ???,如果使用 JavaScript 运行 '???'.length,结果会是惊人的 11,用 Emoji Spliter 拆开,会发现这看起来只有 1 个 Emoji,实际上却是由下面这一堆东西组成的:

其中 0x200d 被称为 Zero-width joiner(简称 ZWJ),ZWJ 可以把一些 Emoji 粘起来组合成一个,例如上面看起来一家四口的 ??? 实际上真就是包含了一家四口的 4 个 Emoji。除了 Emoji,有一些人类语言也会用到 ZWJ。

从编码到字体

从二进制编码到显示出一个字符,必不可少的当然还有字体(font)。电脑安装系统时会自带一些字体,这是必须的,否则渲染时找不到编码对应的字,就会显示一个白色长方形,被称为 Tohu“豆腐块”。谷歌的 Noto 字体其名称的一层含义就是让电脑不会出现 Tohu,虽然愿景很好,但是其实 Noto 并没支持 CJK Ext-B。

现在常见的字体有 ttf、otf、woff、woff2。

ttf(TrueType Font)和 otf(OpenType)主要区别是 otf 使用三次贝塞尔曲线,而 ttf 使用二次贝塞尔曲线。另外 ttf 的 hinting 会优秀一点,在分辨率低的机器上渲染起来会好看点。

woff(Web Open Font Format)其实就是 tff 的核心部分进行 zlib 压缩,woff2 也是类似,不过压缩算法更新为 Brotli。

因为系统需要从编码找到文字,所以很自然,字体必须维护编码到文字的映射。所以以前会有字体后面标注 gbk 的情况,就是 gbk 编码系统专用的字体,现在就不用说了,应该全是 Unicode 了吧。

对于 CJK 字符(以及部分西方字符),同一个码点在不同地区,拥有不同字形(glyph)。而不是为每种语言都编码一个相同含义的字(grapheme),这种情况被称为 Han unification,主要是为了节省编码空间。值得注意的是,基于中文的汉字繁体和简体没有被归到同一个码点,所以繁简转换并非更换字体而是存在一个繁简映射表。

虽然有资料表明单个字体可以按不同区域显示不同的字形,但是实际上字体提供者都会分语言打包字体,因为将所有语言所有字符塞到一起太大了,尤其是对于网页使用的字体,打开页面要等待几十兆的字体下载体验会非常难受。

举个例子,在下载 Noto-cjk 时,会推荐你按地区下载。如果非要下载 CJK 整个包,下载下来是一个 ttc 文件,实际上它也是多个 ttf 文件的集合,一个包整合了多个区域的异体字。

html

代码解读

复制代码

关 关 关 关 关

浏览器会遵循 lang 的指示使用各个语言的默认字体渲染这些文字,于是你就能看到不同语言间的字形差异了。不过注意,如果你的网页字体被设置为某一语言的字体,且字体命中了当前字符浏览器就不会回退到其他语言的默认字体,例如微软雅黑,是中文简体的默认字体,如果显式设置了 font-family: Microsoft YaHei,那么无论你 lang 设置为什么都会使用中文简体字形。

字体的其他能力

一天看谷歌文档发现了这种奇怪的 ICON,在复制他的时候会复制出原本的文字(也就是字符串 block)。事实上这是一款叫做 Material Symbols Outlined 的字体,他之所以能让一串字符显示出图标,是使用了一种被称为连字(ligature)的技术。简单来说就是匹配到一组字符的时候,会被自动替换为另一个字符。

我们可以借助 FontForge 查看到连字配置,在菜单找到 Ligatures:

就能看到详细配置:

谷歌文档这种 ICON 当连字不得不说是个非主流例子,更常见的连字是拉丁字母 fi、fl 等的连写,以及一些代码编辑器专用字体会把 !=、==、=> 等符号连写,使其看起来更美观。

类似的字体学问还有很多,再举一个例子:使用字体实现 JavaScript 高亮显示,无 JavaScript 代码,无多余元素和 CSS,纯粹的字体实现。原理应该是字体文件定义的 Chaining Contextual lookup,查出特定顺序的字符后替换为不同颜色的变体。

复杂编码与编程

在 Unicode 大一统之后,基本所有编程语言的字符串都是 Unicode 编码,JavaScript 也是如此。但之前也说过,一套 Unicode 码表可以编码成 UTF-8、UTF-16、UTF-32,而 JavaScript 在内存中使用的是 UTF-16。

charAt 大家最早接触到的情况应该是获取字符串里的第 N 个字符本身

charCodeAt 和 codePointAt 都返回字符的码点(也就是 code point)。但是 codePointAt 会返回完整的 Unicode 码点,charCodeAt 会返回那个位置的单个 code unit(不是码点!)的十进制值。不过在 0xffff 内的话 codePointAt 和 charCodeAt 是一样的,因为没有代理对的干扰。

上例子,先看最普通的码点 0xffff 以下的字符:

js

代码解读

复制代码

"天".charAt(); // '天' "天".charCodeAt().toString(16); // '5929' "天".codePointAt().toString(16); // '5929'

一切正常。

然后看看奇葩的代理对:

js

代码解读

复制代码

"".charAt(); // '\uD869' "".charCodeAt().toString(16); // 'd869' "".codePointAt().toString(16); // '2a739'

码点值 0x2a739,超过 0xffff,使用了代理对,于是单个 charAt 和 charCodeAt 都失效了,只返回了 UTF-16 代理对中的其中一组,必须用 "".charCodeAt(1).toString(16) 才能把下一位读出来。不过真想吐槽一句,把代理对的一半读出来到底有什么意义

不过还好,codePointAt 都还是正确的。

最后看看上面提到的更奇葩的组合 Emoji:

js

代码解读

复制代码

"???".charAt(); // '\uD83D' "???".charCodeAt().toString(16); // 'd83d' "???".codePointAt().toString(16); // '1f468'

只能用 buff 叠满来形容。codePointAt 是对的但也没全对,只能返回组合中的第一个字符()的码点,charAt 和 charCodeAt 也就返回第一代理对。

再来回顾一下上面的 table:

Char

Code point

UTF-16

UTF-8

1f468

d8 3d dc 68

f0 9f 91 a8

?

200d

20 0d

e2 80 8d

1f469

d8 3d dc 69

f0 9f 91 a9

?

200d

20 0d

e2 80 8d

1f467

d8 3d dc 67

f0 9f 91 a7

?

200d

20 0d

e2 80 8d

1f466

d8 3d dc 66

f0 9f 91 a6

看起来 JavaScript 的 char 操作就是以 code unit 为单位(而不是以字节为单位)计算。(UTF-16 的 code unit 是 16 bit,UTF-8 是 8,UTF-32 自然是 32,这其实就是组成一个字符的最小组合的长度)

所以呢,'???'.length 是 11 的原因就是有 11 组 UTF-16 码。如果一个编程语言字符串在内存中使用的是 UTF-8 的话,例如 Rust,那长度就是更变态的 25……

不过好消息是,看起来 CJK 字符很多,但是其实常用字也都在 BMP 内,很少发生上面提到的情况,至于 Emoji……一般也不涉及什么严谨的操作吧。总之拜代理对组合字符所赐在这些字符操作上会有很多反直觉的结果,谨此提醒。

还有 CSS 和 HTML 与 Unicode 编码相关的小知识可以看多年前一篇老文。

名词

  • code point:码点、编码点、代码点
  • code unit:代码单元
  • surrogate pair:代理对,用于辅助 UTF-16 编码
  • grapheme:字素,代表一个含义的字
  • glyph:字形


原文链接:
https://juejin.cn/post/7413941576941371431

相关推荐

攀升战境S5电竞主机评测:NVIDIA RTX 3060实力助阵,光追游戏走起

此次笔者将为玩家们推荐一款游戏主机——攀升战境S5。该主机是攀升电脑今年力推的游戏装备,主机采用一线品牌配件,特别是在显卡选用上严苛把关,精选GeForceRTX30系列显卡,玩家们大可以放心选购...

慎买-神牛闪光灯兼容性问题:神牛V350&松下S5M2

神牛V350和松下S5M2的兼容性问题。大家好,我是向往闪光灯人像的Fish。国庆期间,我购买了神牛V350闪光灯和神牛X2T引闪器,但这成为了我的噩梦。我原以为客服和松友们说这款闪光灯在松下S5M2...

Acer蜂鸟持续办公一整天(acer 蜂鸟s5)

移动办公在工作节奏日益加快的今天越来越普遍,目前大部分工作无法在手持设备上完成,笔记本依然是移动办公最明智的选择。为了实现移动办公,很多笔记本越做越轻薄,性能也越来越强,而续航却一直没有很大提升。笔者...

职业车手明年会骑什么?2021赛季各大世巡赛车队使用器材一览

新年的钟声即将敲响,意味着充满魔幻色彩的2020年即将过去。受新冠肺炎的影响,2020年的赛季非常不同寻常。因这一原因不得不延迟举行的各种比赛导致许多车队的赞助商无法得到足够曝光,这也间接导致了许多车...

三星部分手机系统升级路线图流出(三星系统在哪升级)

三星包括Note3和S5在内的手机在升级到4.4.2系统之后一直没有什么系统升级的消息,而最近流出的一张三星的系统升级路线图中出现了一共13台手机升级KTU84P(也就是Android4.4.4)...

索尼Xperia Z3配置大曝光:升级并不大

IT之家(www.ithome.com):索尼XperiaZ3配置大曝光:升级并不大索尼明天就会在IFA2014大会上发布其下代旗舰XperiaZ3智能手机,目前网上曝光了其原型机,并且机身背后...

不进反退 三星Exynos 5433只能运行32位模式?

三星GalaxyNote4将带有两个版本,除了国行使用的骁龙805以外,还有三星自家的Exynos5433版本。而这颗SoC的详细信息三星并没有公布,据外媒Anandtech称,他们从源码中确认...

尼康Z6III测评:对比EOS R6 II、A7M4、S5IIX

摄影器材测评网站DPReview刚刚发布了尼康Z6III的完整图文测评,该机获得金奖评级,得分达到91%。以下是该文章的摘录——尼康Z6III核心规格:2400万像素“部分堆栈式”传感器RAW连拍:机...

赛默飞Ion S5首批数据公布,玩爆前任PGMTM系列

北美时间9月1日,赛默飞发布了两款最新的NGS系统IonS5和IonS5XL,旨在提供更加简捷的靶向测序流程。10月29日IonS5测序仪的首批实验数据产生于阜外医院。阜外医院研究人员选用了主...

Excel技巧:快速制作批量文件夹,省时省力,加强工作效率

大家好,如果公司领导要求按人员姓名制作文件夹,以一人一档的形式呈现人员档案,办公人员一个一个制作费时费力,而且效力低下,今天为大家介绍快捷制作批量文件夹的方法下面我们用图片来进行演示操作打开表格,选...

国行、港版、美版Apple watch各版本售价一览

今天凌晨,苹果牌手表正式发布,苹果开始正式进入可穿戴设备领域,除了功能和外观,我相信大家更关心的是价格问题了,小编就将国行、港版、美版的Applewatch售价做一总结,以供参考。国行:美版:港版:...

松下全画幅微单S5和S1到底哪里不一样?

Hello,我是ET,欢迎大家来到我的“相机笔记”。————9月2日晚,松下正式发布了第4款全画幅微单LUMIXS5。这一篇,我们主要来说松下LUMIXS5和LUMIXS1到底有哪些区别...

融会贯通之典范 神舟S7-2021S5评测

便携、性能、续航,这简简单单的六个字道出了这么些年来笔记本电脑的设计方向,可是由于底层技术、模具设计等等原因,这三点并不能很好的融合在一起。虽说闻道有先后,术业有专攻,但能够有一台融会贯通的产品,不是...

三国志战略版:S5赛季装X指南,开荒不是一成不变,需要因地制宜

大家好我是零氪玩家花席,S5赛季已经开始,因为S5赛季的野地阵容和S4赛季没有区别,所以S5赛季开荒相对不难。你在S4有经验,并且多了很多武将和战法,还能用150赛季功勋兑换7500战法点。S5赛季新...

聊聊松下S5M2和S5M2X的区别(松下s5k和s5c有什么区别)

先简单说下哪里不同:12bitRAWHDMI外录支持直接将视频录制到USB-SSD上多了All-Intra和ProRes编码支持有线/无线IP推流,USB网络连接黑化的机身不过要特别强调一下,S5...