博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个解决python抓取中文网页乱码的办法
阅读量:6333 次
发布时间:2019-06-22

本文共 450 字,大约阅读时间需要 1 分钟。

import urllib2

import sys
import chardet
req = urllib2.Request("http://www.163.com/")##这里可以换成http://www.baidu.com,http://www.sohu.com
content = urllib2.urlopen(req).read()
typeEncode = sys.getfilesystemencoding()##系统默认编码
infoencode = chardet.detect(content).get('encoding','utf-8')##通过第3方模块来自动提取网页的编码
html = content.decode(infoencode,'ignore').encode(typeEncode)##先转换成unicode编码,然后转换系统编码输出
print html

转载于:https://www.cnblogs.com/thouger/p/5115460.html

你可能感兴趣的文章
Oracle-数据字典统计信息
查看>>
比原链合约入门教程
查看>>
剥开比原看代码16:比原是如何通过/list-transactions显示交易信息的
查看>>
网站跳转劫持漏洞的发现与修复建议
查看>>
Watchdogs利用Redis实施大规模挖矿,常见数据库蠕虫如何破?
查看>>
Springboot配置文件读取报错Configuration property name 'projectUrl' is not valid:
查看>>
HTTP状态码
查看>>
今天的学习
查看>>
面试必问之JVM原理
查看>>
配置Tomcat监听80端口...
查看>>
ppwjs之bootstrap网格系统:添加行和单元格
查看>>
做社交电商,你还没有用小程序?
查看>>
使用C语言的struct来实现C++的class
查看>>
PHP 数组排序
查看>>
Java第十二天
查看>>
UBUNTU SERVER 9.04 配置 RED5 开机启动
查看>>
android xml tools 介绍(一)
查看>>
OSChina 周五乱弹 —— 听说富婆需要我这个快乐球
查看>>
OSChina 周四乱弹 —— 你再光玩电脑,咱俩就算掰了
查看>>
分配内存对齐的内存空间
查看>>