Python之字符编码相关介绍
发布时间:2025-10-10 17:48:12

Python 字符编码简记

可简单理解为:
ASCIII码是为了处理英文字符而生成的。
GB2312是为了处理中文字符而产生的。
3.Unicode是为了处理各国的字符而产生的。
4.为了提高Unicode的存储和传输性能,UTF-8是Unicode的一种实现形式。
注意:
Python2.x 默认编码是 ASCII
Python3.x 默认编码是 unicode,所以 Python3.x 不需要二次处理就可以直接支持中文。
相关推荐:Python视频教程
GBK转换成 UTF-8 的流程:
1.通过解码 (decode) 转换成 Unicode
2.通过编码 (encode) 转成成 GBK

乱码是由于系统编码与提供的字符编码不一致造成的。因此,当我们需要操作系统正确输出字符时,我们不仅要知道字符的字符编码,还要知道系统中使用的字符编码。
Linux 大多数系统都使用它 UTF-8 编码,Windoors 系统使用的编码是 GB2312。
可以通过 chardet 判断字符的编码
安装步骤:
1.下载chardet-3.00.4.tar.gz 地址:https://pypi.python.org/pypi/chardet/3.0.4#downloads 2.解压至安装目录 我的电脑是D:\software\Python2.7\Lib\site-packages\chardet-3.0.4 3.打开Windows命令行窗口安装
进入源码目录

使用 python setup.py install 安装

测试
#-*-encoding:utf-8-*- importchardet name='你好' print(chardet.detect(name))
运行结果:

在py2中
#-*-coding:UTF-8-*-
声明这句话就是告诉 python2.7 解释器 (默认ACSII编码方法)解释 .py 根据文件声明以下内容,根据文件声明以下内容 utf8 编码就是编码(编码成字节串,最后转换成0101,让机器执行)
