python2的编码错误让很多工程师头疼,编码处理特别能显示工程师的文本处理经验。
牢记几点就能帮助你解决大多数的问题
1)Unicode是一种字符集和,即每个字符都对应一个唯一编号;UTF-8是一种编码,用于将字符转成二进制;
2)无论何时,尽量保证所有变量是Unicode;
3)print repr() 帮助你查看当前的变量格式
4)import codecs ; 永远通过codecs模块帮助你处理文本的读入和输出;
import codecs;
标准输入:sys.stdin = codecs.getreader(\’utf8\’)(sys.stdin)
标准输出:sys.stdout = codecs.getwriter(\’utf8\’)(sys.stdout)
文件读入:with codecs.open(file_name, encoding=\’utf8\’) as fp
文件输出:with codecs.open(file_name, \’w\’, encoding=\’utf8\’) as fp
上一篇:爬虫爬取百度贴吧图片