Python乱码解码为中文 您所在的位置:网站首页 临床上ar指的是什么意思 Python乱码解码为中文

Python乱码解码为中文

2023-12-26 03:00| 来源: 网络整理| 查看: 265

Python乱码解码为中文 Python 2021/06/13 requests.get(url,headers = headers).text解码为中文

今天在使用python3爬虫时,遇到一个关于字符编码的问题,经过网上查找,终于解决了问题,下面记录下来。

1,用requests.get(url)爬取的到数据,中文显示则是乱码,如:

æä¾›çš„å†…å®¹ä»…ç”¨äºŽå­¦ä¹ ï¼Œæµ‹è¯•å’ŒåŸ¹è®­ã€‚å®žä¾‹å¯èƒ½ä¸ºäº†æ›´å®¹æ˜“ç†è§£è€Œç®€åŒ–ã€‚æˆ‘ä»¬ä¸€ç›´å¯¹æ•™ç¨‹ï¼Œå‚è€ƒæ‰‹å†Œï¼Œåœ¨çº¿å®žä¾‹ä¿æŒä¿®è®¢ï¼Œä½†æ˜¯æˆ‘ä»¬ä¸èƒ½ä¿è¯æ‰€æœ‰å†…å®¹å…¨éƒ¨æ­£ç¡®ã€‚é€šè¿‡ä½¿ç”¨æœ¬ç«™è¿›è¡Œå­¦ä¹ éšä¹‹è€Œæ¥çš„é£Žé™©ä¸Žæœ¬ç«™æ— å…³ã€‚å½“ä½¿ç”¨æœ¬ç«™æ—¶ï¼Œä»£è¡¨æ‚¨å·²æŽ¥å—äº†æœ¬ç«™çš„ä½¿ç”¨æ¡æ¬¾å’Œé,那么,使用content.encode(‘raw_unicode_escape’).decode()就可以用print查看汉字了。

import requestsurl = ‘http://www.python-china.com/'headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36’ }contents = requests.get(url,headers = headers).textcn_contents = contents.encode(‘raw_unicode_escape’).decode()print(cn_contents) # 输出了正常的中文文字2,爬到的数据通常是bytes类型,如requests.get的content属性。这时候,我们使用str(content, ‘utf8’)就可以把\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e这样的内容转化成汉字了。

安卓学习教程公众号

微信打赏

祝你事业顺心,富贵吉祥,赞赏鼓励

转载声明: 商业转载请联系作者获得授权,非商业转载请注明出处 © 清风明月


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有