学习目标:
讲解计算机中一些必备的常识知识,让同学们了解一些常见名词背后的含义(重在理解)。
本节概要:
- 进制
- 单位
- 编码
- 小结
一、进制
计算机中底层所有的数据都是以 010101
的形式存在(图片、文本、视频等)。
1. 进制介绍
二进制:0、1、10
八进制:逢8进1
十进制:逢10进1
十六进制:逢16进1

2.进制转换

1 | v1 = bin(25) # 十进制转换为二进制 |
1 | i1 = int("0b11001",base=2) # 25 |
1 | """ 十进制转换成其他进制 """ |
二、单位
由于计算机中本质上所有的东西以为二进制存储和操作的,为了方便对于二进制值大小的表示,所以就搞了一些单位。
b(bit),位
1
2
3
41,1位
10,2位
111,3位
1001,4位B(byte),字节
1
2
3
48位是一个字节。
10010110,1个字节
10010110 10010110,2个字节KB(kilobyte),千字节
1
2
3
41024个字节就是1个千字节。
10010110 11010110 10010111 .. ,1KB
1KB = 1024B= 1024 * 8 bM(Megabyte),兆
1
21024KB就是1M
1M= 1024KB = 1024 * 1024 B = 1024 * 1024 * 8 bG(Gigabyte),千兆
1
21024M就是1G
1 G= 1024 M= 1024 *1024KB = 1024 * 1024 * 1024 B = 1024 * 1024 * 1024 * 8 bT(Terabyte),万亿字节
1
1024个G就是1T
其他更大单位 PB/EB/ZB/YB/BB/NB/DB 不再赘述。
做个小练习:
假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么1G流量可以通过网络传输多少汉字呢?(计算机传输本质上也是二进制)
1
21G = 1024M = 1024 * 1024 KB = 1024 * 1024 * 1024 / 2 B
1024 * 1024 * 1024 / 2 = ?假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么500G硬盘可以存储多少个汉字?
1
2500G = 500 * 1024M = 500 * 1024 * 1024 KB = 500 * 1024 * 1024 * 1024 / 2 B
500 * 1024 * 1024 * 1024 / 2 = ?
三、编码
编码,文字和二进制之间的一个对照表。
1. ASCII编码
- ASCII(American Standard Code for Information Interchange,美国信息互换标准代码,ASCⅡ)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。
- ASCII规定使用1个字节来表示字母与二进制的对应关系。
1 | 00000000 |
2. gb-2312编码
gb-2312
编码,由国家信息标准委员会制作(1980年)。gbk
编码,对gb2312进行扩展,包含了中日韩等文字(1995年)。在与二进制做对应关系时,由如下逻辑:
- 单字节表示,用一个字节表示对应关系。2**8 = 256
- 双字节表示,用两个字节表示对应关系。2**16 = 65536中可能性,目前只用了2万多。
问题:如果我用
gbk
编码来编写一个中文,转换成二进制的话用几个字节表示?答:2个字节
3. unicode
unicode
也被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)。ucs2
1
2
3
4
5
6用固定的2个字节去表示一个文字。
00000000 00000000 我
...
2**16 = 65535ucs4
1
2
3
4用固定的4个字节去表示一个文字。
00000000 00000000 00000000 00000000 我
...
2**32 = 4294967296unicode
官网:http://www.unicode.org/charts/
1 | 文字 十六进制 二进制 |
无论是ucs2和ucs4都有缺点:浪费空间?
1 | 文字 十六进制 二进制 |
unicode
的应用:在文件存储和网络传输时,不会直接使用unicode
,而在内存中会unicode
。
4. utf-8编码
包含所有文字和二进制的对应关系,全球应用最为广泛的一种编码(站在巨人的肩膀上功成名就)。
本质上:
utf-8
是对unicode
的压缩,用尽量少的二进制去与文字进行对应。
1 | unicode码位范围 utf-8 |
具体压缩的流程:
第一步:选择转换模板
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17码位范围(十六进制) 转换模板
0000 ~ 007F 0XXXXXXX
0080 ~ 07FF 110XXXXX 10XXXXXX
0800 ~ FFFF 1110XXXX 10XXXXXX 10XXXXXX
10000 ~ 10FFFF 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
例如:
"B" 对应的unicode码位为 0042,那么他应该选择的一个模板。
0XXXXXXX 1000010
01000010
"ǣ" 对应的unicode码位为 01E3,则应该选择第二个模板。
"张" 对应的unicode码位为 5F20,则应该选择第三个模板。
"亚" 对应的unicode码位为 4E9A,则应该选择第三个模板。
"飞" 对应的unicode码位为 98DE,则应该选择第三个模板。
😆 对应的unicode码位为 1F606,则应该选择第四个模板。
注意:一般中文都使用第三个模板(3个字节),这也就是平时大家说中文在utf-8中会占3个字节的原因了。第二步:在模板中填入数据
1
2
3
4
5
6
7
8
9
10
11- "张" -> 5F20 -> 101 111100 100000
- 根据模板去套入数据
1110XXXX 10XXXXXX 10XXXXXX
1110XXXX 10XXXXXX 10100000
1110XXXX 10111100 10100110
11100101 10101101 10100110
在UTF-8编码中 ”张“ 11100101 10101101 10100110
- 😆 -> 1F606 -> 11111 011000 000110
- 根据模板去套入数据
11110000 10011111 10011000 10000110
5. Python相关编码
1 | 字符串(str) "夫轻诺必寡信" unicode处理 一般在内存 |
1 | """ utf-8和gbk """ |
将一个字符串写入到一个文件中。
1 | text = "功高不自居,名高不自誉,位高不自傲" |
四、小结
本章的知识点属于理解为主,了解这些基础之后有利于后面知识点的学习,接下来对本节所有的知识点进行归纳总结:
计算机上所有的东西最终都会转换成为二进制再去运行。
ascii编码、
unicode
字符集、utf-8
编码本质上都是字符与二进制的关系。ascii
,字符和二进制的对照表。unicode
,字符和二进制(码位)的对照表。utf-8
,对unicode
字符集的码位进行压缩处理,间接也维护了字符和二进制的对照表。
ucs2和ucs4指的是使用多少个字节来表示
unicode
字符集的码位。目前最广泛的编码为:
utf-8
,他可以表示所有的字符且存储或网络传输也不会浪费资源(对码位进行压缩了)。二进制、八进制、十进制、十六进制其实就是进位的时机不同。
基于Python实现二进制、八进制、十进制、十六进制之间的转换。
一个字节8位
计算机中常见单位b/B/KB/M/G的关系。
汉字,用
gbk
编码需要用2个字节;用utf-8
编码需要用3个字节。基于Python实现将字符串转换为字节(
utf-8
编码)1
2
3
4
5
6
7
8
9
10
11# 字符串类型
name = "张亚飞"
print(name) # 张亚飞
# 字符串转换为字节类型
data = name.encode("utf-8")
print(data) # b'\xe5\xbc\xa0\xe4\xba\x9a\xe9\xa3\x9e'
# 把字节转换为字符串
old = data.decode("utf-8")
print(old)基于Python实现将字符串转换为字节(
gbk
编码)1
2
3
4
5
6
7
8
9
10
11# 字符串类型
name = "张亚飞"
print(name) # 张亚飞
# 字符串转换为字节类型
data = name.encode("gbk")
# print(data) # b'\xe5\xbc\xa0\xe4\xba\x9a\xe9\xa3\x9e' utf8,中文3个字节
print(data) # b'\xd5\xc5\xd1\xc7\xb7\xc9' gbk,中文2个字节
# 把字节转换为字符串
old = data.decode("gbk")
print(old)