1.字节的概念
计算机存储的信息,实际上都是二进制数据
字节,是二进制的单位,8个二进制位(bit)表示一个字节(B)
所有的数据,都可以表示为字节,即一切皆字节
字节,都是二进制,一般用作计量单位,文件属性中通常显示包含 xxx字节
2.字符的概念
字符指类字形单位或符号,包括字母、数字、运算符号、标点符号…等功能性符号
字符是电子计算机或无线电通信中字母、数字、符号的统称
字符是二进制的另一种表现形式
简单点说,字符表示人用来看的东西,如各种符号,包括文字,数字,表情符号等
3.字符编码
1.字符和字节的对应关系
发明计算机的人,是使用英语,操作系统也是英语写的,
故操心系统默认只有英文字母和数字等少量符号,
字符编码,是指二进制和字符之间的关系,通常8个二进制位表示一个字符
因为字节是8个二进制位,所以字符和字节之间,也有一个转换关系
通常一个字节一个字符,有的是2个字节一个字符,有的是3个,4个…等
那么怎么知道哪些字符一个字节,哪些2个字节,3个,4个字节?
2.字符的编码
对于二进制数据,可以采取不同的方式 “加工”
当二进制数据”加工”后,就可以产生字符,如何”加工”,我们不需要关心
即,字符的产生,需要 2 个条件,一个是二进制数据,一个是”加工方式”
我们把这种”加工方式”,称为编码
4.字符集
1.字符集的概念
不同的编码方式,包含的字符,称为字符集
即,一种编码方式对应一个字符集
2.常见的编码方式 和 字符集
ASCII字符集 :操作系统本身带有的符号,1字节1字符,符号较少
其他编码均兼容 ASCII,即对于 ASCII 所包含的字符集,均使用1字节编码
- ANSI字符集 –> 一个最早的编码方式,广泛使用,通常2字节一个中文
- ISO-8859-1:依赖于ANSI的欧洲文字
- GB2312:GB是国标的意思,GB2312是简体中文编码
- GBK:最常见的中文编码,
- GB18013:最新的中文码表,包含大量繁体和日韩汉字等
- Unicode字符集 –> 互联网规范使用的一种编码方式,通常3字节一个中文
- utf-8:最常用的编码方式,互联网协议均支持utf-8,中文使用1-4字节
- utf-16:16个序列的编码方式,总之比utf-8占用更大
- utf-32:32个序列的编码方式,总之比utf-16占用更大
3.下面是完整的 ASCII 编码表
ASCII值 | 控制字符 | ASCII值 | 控制字符 | ASCII值 | 控制字符 | ASCII值 | 控制字符 |
0 | NUT | 32 | (space) | 64 | @ | 96 | 、 |
1 | SOH | 33 | ! | 65 | A | 97 | a |
2 | STX | 34 | ” | 66 | B | 98 | b |
3 | ETX | 35 | # | 67 | C | 99 | c |
4 | EOT | 36 | $ | 68 | D | 100 | d |
5 | ENQ | 37 | % | 69 | E | 101 | e |
6 | ACK | 38 | & | 70 | F | 102 | f |
7 | BEL | 39 | , | 71 | G | 103 | g |
8 | BS | 40 | ( | 72 | H | 104 | h |
9 | HT | 41 | ) | 73 | I | 105 | i |
10 | LF | 42 | * | 74 | J | 106 | j |
11 | VT | 43 | + | 75 | K | 107 | k |
12 | FF | 44 | , | 76 | L | 108 | l |
13 | CR | 45 | – | 77 | M | 109 | m |
14 | SO | 46 | . | 78 | N | 110 | n |
15 | SI | 47 | / | 79 | O | 111 | o |
16 | DLE | 48 | 0 | 80 | P | 112 | p |
17 | DCI | 49 | 1 | 81 | Q | 113 | q |
18 | DC2 | 50 | 2 | 82 | R | 114 | r |
19 | DC3 | 51 | 3 | 83 | X | 115 | s |
20 | DC4 | 52 | 4 | 84 | T | 116 | t |
21 | NAK | 53 | 5 | 85 | U | 117 | u |
22 | SYN | 54 | 6 | 86 | V | 118 | v |
23 | TB | 55 | 7 | 87 | W | 119 | w |
24 | CAN | 56 | 8 | 88 | X | 120 | x |
25 | EM | 57 | 9 | 89 | Y | 121 | y |
26 | SUB | 58 | : | 90 | Z | 122 | z |
27 | ESC | 59 | ; | 91 | [ | 123 | { |
28 | FS | 60 | < | 92 | / | 124 | | |
29 | GS | 61 | = | 93 | ] | 125 | } |
30 | RS | 62 | > | 94 | ^ | 126 | ~ |
31 | US | 63 | ? | 95 | — | 127 | DEL |
NUL 空 | VT 垂直制表 | SYN 空转同步 |
SOH 标题开始 | FF 走纸控制 | ETB 信息组传送结束 |
STX 正文开始 | CR 回车 | CAN 作废 |
ETX 正文结束 | SO 移位输出 | EM 纸尽 |
EOY 传输结束 | SI 移位输入 | SUB 换置 |
ENQ 询问字符 | DLE 空格 | ESC 换码 |
ACK 承认 | DC1 设备控制1 | FS 文字分隔符 |
BEL 报警 | DC2 设备控制2 | GS 组分隔符 |
BS 退一格 | DC3 设备控制3 | RS 记录分隔符 |
HT 横向列表 | DC4 设备控制4 | US 单元分隔符 |
LF 换行 | NAK 否定 | DEL 删除 |