查看: 11125|回复: 0

[原创] open和codecs.open区别

[复制链接]
论坛徽章:
5
Hadoop研习者初级
日期:2012-11-18 23:09:43Oracle研习者高级
日期:2013-08-25 14:23:53R研习者初级
日期:2013-11-03 10:13:41python徽章
日期:2014-01-19 17:47:42机器学习徽章
日期:2015-03-02 18:03:11
发表于 2014-1-29 11:29 | 显示全部楼层 |阅读模式
最近老被编码困扰,多次折腾之后,感觉python的编解码做得挺好的,只要了解下边的流程,一般都能解决

input文件(gbk, utf-8...)   ----decode----->   unicode  -------encode------> output文件(gbk, utf-8...)
很多文本挖掘的package是在unicode上边做事的,比如nltk. 所以开始读入文件后要decode为unicode格式,可以通过下边两步:
f=open('XXXXX', 'r')
content=f.read().decode('utf-8')

更好的方法是使用codecs.open读入时直接解码:
f=codecs.open(XXX, encoding='utf-8')
content=f.read()
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-11-14 05:57 , Processed in 0.103918 second(s), 29 queries .

关闭

扫一扫加入
本版微信群