学习目标：

讲解计算机中一些必备的常识知识，让同学们了解一些常见名词背后的含义（重在理解）。

本节概要：

进制
单位
编码
小结

一、进制

计算机中底层所有的数据都是以 010101的形式存在（图片、文本、视频等）。

1. 进制介绍

二进制：0、1、10
八进制：逢8进1
十进制：逢10进1
十六进制：逢16进1

2.进制转换

v1 = bin(25) # 十进制转换为二进制
print(v1) # "0b11001"

v2 = oct(23) # 十进制转换为八进制
print(v2) # "0o27"

v3 = hex(28) # 十进制转换为十六进制
print(v3) # "0x1c"

i1 = int("0b11001",base=2) # 25

i2 = int("0o27",base=8) # 23 

i3 = int("0x1c",base=16) # 28

""" 十进制转换成其他进制 """
print('十进制：',4)
print('二进制:', bin(4)) #  100
print('八进制:', oct(9))  # 11
print('十六进制:', hex(10))  # a

""" 其他进制转换成十进制 """
print(int('0b10', base=2))  # 2
print(int('11', base=8)) # 9
print(int('11', base=16)) # 17

""" 二进制转换成八进制 """
print(oct(int('100', base=2)))  # 0o4
""" 二进制转换成十六进制 """
print(hex(int('100', base=2)))  # 0x4
""" 八进制转换成二进制 """
print(bin(int('10', base=8)))  # 0b1000
""" 八进制转换成十六进制 """
print(hex(int('10', base=8)))  # 0x4
""" 十六进制转换成二进制 """
print(bin(int('10', base=16)))  # 0b10000
""" 十六进制转换成八进制 """
print(hex(int('10', base=16)))  # 0x10

二、单位

由于计算机中本质上所有的东西以为二进制存储和操作的，为了方便对于二进制值大小的表示，所以就搞了一些单位。

b（bit），位

1，1位
10，2位
111，3位
1001，4位

B（byte），字节

8位是一个字节。

10010110，1个字节
10010110 10010110，2个字节

KB（kilobyte），千字节

1024个字节就是1个千字节。

10010110 11010110  10010111 .. ，1KB
1KB = 1024B= 1024 * 8 b

M（Megabyte），兆

1 2	1024KB就是1M 1M= 1024KB = 1024 * 1024 B = 1024 * 1024 * 8 b

G（Gigabyte），千兆

1 2	1024M就是1G 1 G= 1024 M= 1024 1024KB = 1024 1024 * 1024 B = 1024 * 1024 * 1024 * 8 b

T（Terabyte），万亿字节
1
1024个G就是1T
其他更大单位 PB/EB/ZB/YB/BB/NB/DB 不再赘述。

做个小练习：

假设1个汉字需要2个字节(2B=16位来表示，如：1000101011001100)，那么1G流量可以通过网络传输多少汉字呢？（计算机传输本质上也是二进制）
1
2
1G = 1024M = 1024 * 1024 KB = 1024 * 1024 * 1024 / 2 B
1024 * 1024 * 1024 / 2 = ?

假设1个汉字需要2个字节(2B=16位来表示，如：1000101011001100)，那么500G硬盘可以存储多少个汉字？

1 2	500G = 500 * 1024M = 500 * 1024 * 1024 KB = 500 * 1024 * 1024 * 1024 / 2 B 500 * 1024 * 1024 * 1024 / 2 = ?

三、编码

编码，文字和二进制之间的一个对照表。

1. ASCII编码

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码，ASCⅡ）是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC 646。
ASCII规定使用1个字节来表示字母与二进制的对应关系。

00000000
00000001    w
00000010    B
00000011    a
...
11111111

2**8 = 256

ASCII对照表

http://ascii.911cha.com/

2. gb-2312编码

gb-2312编码，由国家信息标准委员会制作（1980年）。
gbk编码，对gb2312进行扩展，包含了中日韩等文字（1995年）。
在与二进制做对应关系时，由如下逻辑：
- 单字节表示，用一个字节表示对应关系。2**8 = 256
- 双字节表示，用两个字节表示对应关系。2**16 = 65536中可能性，目前只用了2万多。
问题：如果我用gbk编码来编写一个中文，转换成二进制的话用几个字节表示？答：2个字节

3. unicode

unicode也被称为万国码，为全球的每个文字都分配了一个码位（二进制表示）。

ucs2

用固定的2个字节去表示一个文字。

00000000 00000000     我
...

2**16 = 65535

ucs4

用固定的4个字节去表示一个文字。
00000000 00000000 00000000 00000000  我
...
2**32 = 4294967296

unicode官网：http://www.unicode.org/charts/
- 中文：https://unicode-table.com/en/#cjk-unified-ideographs
- 表情：https://unicode-table.com/en/#emoticons
  
  https://emojipedia.org/

文字     十六进制            二进制 
 ˂		 02C2 		    1011000010
 ȧ        0227           1000100111
 ȧ        0227         00000010 00100111                       ucs2
 ȧ        0227         00000000 00000000 00000010 00100111     ucs4
 
 乐	     4E50		   1001110 01010000
 乔       4E54           1001110 01010100
 乔       4E54         01001110 01010100                       ucs2
 乔       4E54         00000000 00000000 01001110 01010100     ucs4
 王       738b           1110011 10001011
 
 😆      1F606        11111011000000110
 😆      1F606        00000000 00000001 11110110 00000110      ucs4
 😂      1F602        1 11110110 00000010

无论是ucs2和ucs4都有缺点：浪费空间？

文字     十六进制     二进制
A        0041      01000001
A        0041      00000000 01000001
A        0041      00000000 00000000 00000000 01000001

unicode的应用：在文件存储和网络传输时，不会直接使用unicode，而在内存中会unicode。

4. utf-8编码

包含所有文字和二进制的对应关系，全球应用最为广泛的一种编码（站在巨人的肩膀上功成名就）。
本质上：utf-8是对unicode的压缩，用尽量少的二进制去与文字进行对应。

unicode码位范围            utf-8      
 0000 ~ 007F              用1个字节表示
 0080 ~ 07FF              用2个字节表示
 0800 ~ FFFF              用3个字节表示
10000 ~ 10FFFF            用4个字节表示

具体压缩的流程：

第一步：选择转换模板

  码位范围（十六进制）                转换模板
   0000 ~ 007F              0XXXXXXX
   0080 ~ 07FF              110XXXXX 10XXXXXX
   0800 ~ FFFF              1110XXXX 10XXXXXX 10XXXXXX
  10000 ~ 10FFFF            11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
  
  例如：
      "B"  对应的unicode码位为 0042，那么他应该选择的一个模板。
           0XXXXXXX    1000010
           01000010
      "ǣ"  对应的unicode码位为 01E3，则应该选择第二个模板。
      "张" 对应的unicode码位为 5F20，则应该选择第三个模板。
      "亚" 对应的unicode码位为 4E9A，则应该选择第三个模板。
      "飞" 对应的unicode码位为 98DE，则应该选择第三个模板。
      😆  对应的unicode码位为 1F606，则应该选择第四个模板。            

注意：一般中文都使用第三个模板（3个字节），这也就是平时大家说中文在utf-8中会占3个字节的原因了。

第二步：在模板中填入数据

- "张"  ->  5F20  ->  101 111100 100000
- 根据模板去套入数据
	1110XXXX 10XXXXXX 10XXXXXX
	1110XXXX 10XXXXXX 10100000
	1110XXXX 10111100 10100110
	11100101 10101101 10100110
在UTF-8编码中 ”张“  11100101 10101101 10100110

- 😆  ->  1F606  ->  11111 011000 000110
- 根据模板去套入数据
	11110000 10011111 10011000 10000110

5. Python相关编码

1 2	字符串（str） "夫轻诺必寡信" unicode处理一般在内存字节（byte） b"\xe5\xa4\xab\..." utf-8编码 or gbk编码一般用于文件或网络处理

""" utf-8和gbk """
v1 = "张"

v2 = "张".encode("utf-8")
v2 = "张".encode("gbk")
name = '陈月'

# 字符串编码为二进制
name_utf8 = name.encode(encoding='utf-8')
print(name_utf8) # \xe9\x99\x88
name_gbk = name.encode(encoding='gbk')
print(name_gbk)
# 二进制解码为字符串
print(name_utf8.decode(encoding='utf-8'))
print(name_gbk.decode(encoding='gbk'))

将一个字符串写入到一个文件中。

text = "功高不自居，名高不自誉，位高不自傲"
data = text.encode("utf-8")

# 打开一个文件
file_object = open("log.txt",mode="wb")
# 在文件中写内容
file_object.write(data)
# 关闭文件
file_object.close()

四、小结

本章的知识点属于理解为主，了解这些基础之后有利于后面知识点的学习，接下来对本节所有的知识点进行归纳总结：

计算机上所有的东西最终都会转换成为二进制再去运行。
ascii编码、unicode字符集、utf-8编码本质上都是字符与二进制的关系。
- ascii，字符和二进制的对照表。
- unicode，字符和二进制（码位）的对照表。
- utf-8，对unicode字符集的码位进行压缩处理，间接也维护了字符和二进制的对照表。
ucs2和ucs4指的是使用多少个字节来表示unicode字符集的码位。
目前最广泛的编码为：utf-8，他可以表示所有的字符且存储或网络传输也不会浪费资源（对码位进行压缩了）。
二进制、八进制、十进制、十六进制其实就是进位的时机不同。
基于Python实现二进制、八进制、十进制、十六进制之间的转换。
一个字节8位
计算机中常见单位b/B/KB/M/G的关系。
汉字，用gbk编码需要用2个字节；用utf-8编码需要用3个字节。

基于Python实现将字符串转换为字节（utf-8编码）

# 字符串类型
name = "张亚飞"

print(name) # 张亚飞
# 字符串转换为字节类型
data = name.encode("utf-8")
print(data) # b'\xe5\xbc\xa0\xe4\xba\x9a\xe9\xa3\x9e'

# 把字节转换为字符串
old = data.decode("utf-8")
print(old)

基于Python实现将字符串转换为字节（gbk编码）

# 字符串类型
name = "张亚飞"
print(name) # 张亚飞
# 字符串转换为字节类型
data = name.encode("gbk")
# print(data) # b'\xe5\xbc\xa0\xe4\xba\x9a\xe9\xa3\x9e'  utf8，中文3个字节 
print(data) # b'\xd5\xc5\xd1\xc7\xb7\xc9'                gbk，中文2个字节

# 把字节转换为字符串
old = data.decode("gbk")
print(old)

tongsiying

第6篇：进制和编码