Python2中文处理纪要-原创极客博文

月色的部落格

Tags

HOME

Tags

HOME

python2不是以unicode作为基本代码字符类型，碰到乱码的几率是远远高于python3，但即便如此，相信很多人，也不想随意的迁移到python3，这里就总结几个我平常碰到的问题及解法。

文件中无法使用中文注释
处理方法：
在代码中增加# -*- coding=UTF-8 -*-，一般加在文件头部第一行，如果第一行是脚本标志，则放在第二行（实际仍然是python正本的第一行）。
随后将文件另存为UTF-8格式。
此方法可以解决注释中有中文，及字符串立即数中包含中文的问题。
unicode中文变量打印出来是乱码
处理方法：
文件开始引入扩展库的部分加入以下3行代码。
```
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
```

utf-8 及 gbk互相转换
直接看代码：

#utf-8字符串转换成GBK（GB2312及其它编码也是这样用）
print str.decode('UTF-8').encode('GBK')
#gbk转换成utf-8
print str.decode('GBK').encode('UTF-8')

参数中的utf-8是用大写还是小写？
通常大小写都可以，这不是python决定的，是系统的语言代码设定决定的。
打开utf-8的文本文件经过1、2的设置，正常直接打开就可以，文件是什么编码，读出来就是什么编码，个别仍有不行的可以使用扩展库codecs：
```
import codecs
...
with codecs.open(poetry_file, "r","utf-8") as f:
```
print打印出来的结构中的汉字是乱码
print仅打印一个utf-8的变量是不会有问题的，比如
```
a="汉字"
print a
#会正常显示
```
但是如果用了接续显示，比如：
```
print a,
#将会显示乱码
```
如果是其它结构，诸如dict / list / class等，都会出现乱码。
```
a = ["中文"，"测试"]
print a
#将会显示乱码
```
这种情况使用基本库没有什么好办法，只能循环逐个打印内容，比如：
```
...
for item in items:
 print item
```
或者整合输出，比如：print ', '.join(a)
还可以使用第三方的包，比如：
```
import uniout
...
listnine = ['梨', '橘子', '苹果', '香蕉']
print 'listnine list: %s' % listnine
```
变量本身显示正常，循环遍历出来的单个字符乱码
大多情况是因为字符串不是unicode编码。声明字符串的时候使用a = u'汉字'这样方式赋值的变量都是Unicode字符串，不会有问题。
如果是从外部传入的变量，源头情况又不知道，可以尝试转换成Unicode字符串：
```
str=unicode(str,"utf-8");
```

嗯，差不多就这些，想到再补充。

RELATED ARTICLES

从锅炉工到AI专家(9)

无监督学习前面已经说过了无监督学习的概念。无监督学习在实际的工作中应用还是比较多见的。从典型的应用上说，监督学习比较多用在“分类”上，利用给定的数据，做出一个决策，这个决策在有限的给定可能性中选择其中一种。各类识别、自动驾驶等都属于这一类。无监督学习则是“聚类”，算法自行寻找输入数据集的规律，并把它们按照规律分别组合，同样特征的放到一个类群。像自然语言理解、推荐算法、数据画像等，都属于这类（...

从锅炉工到AI专家(10)

#### RNN循环神经网络(Recurrent Neural Network)如同word2vec中提到的，很多数据的原型，前后之间是存在关联性的。关联性的打破必然造成关键指征的丢失，从而在后续的训练和预测流程中降低准确率。除了提过的自然语言处理(NLP)领域，自动驾驶前一时间点的雷达扫描数据跟后一时间点的扫描数据、音乐旋律的时间性、股票前一天跟后一天的数据，都属于这类的典型案例。 ...