unknown问题解决方法 这个链接上的方法挺好的,直接是抓取电脑上的包,关于手机客户端的网上有很多文章。
遇到问题时搜索语句的描述很重要。比如我使用Charles抓包出现问题,并没有复现博客中的内容,看的时候发现很多网址下面的解析显示的都是unknown。而我要抓取的通过电脑端,而不是手机移动端。 代码运行后的报错信息也要多观察,看那一句是重要的,问题出在具体哪一行上,在这一行附近查找。常见的报错语句和找到的原因尽量写到一个文档里,方便日后查看。一些经常用到的环境配置,安装位置都最好记一下。
关于unknown的重要点:
1.Charles安装证书
要选择受信任的根证书颁发机构,或按那篇文章说的 在证书上右键 - 显示详情 ,展开信任 选择 始终信任,然后点击左上角的关闭,系统会弹出授权提示框,授权同意修改,回到列表,稍等,证书就刷新了。
安装完成后保证该证书是没有问题的,如果没能成功安装上,上面会有提示。
2.浏览器安装证书
浏览器中输入这个地址后,会自动弹出一个下载框,下载相应的证书。
我选的还是受信任的根证书颁发机构,之前导入了,没注意,再次查看发现没有导入成功。忘记后来是选择了这个,还是关闭了防火墙的原因,再次下载就好了。 可以直接在 “设置” 里面搜索 “防火墙”
3.
最后一步直接按那篇文章来。
我是用Charles爬取微信公众号上某一家公众号的文章,参考代码 这种方法不能批量获取很多家公众号的文章,而且也爬不全,差不多一百多条就jj了。每次爬取,都需要使用抓包工具,更换四个参数。很神奇的一件事是,在程序运行前要关闭Charles,不然会报错,咱也不知道是为啥。上面爬取的时间需要更改一下,10位的时间戳改一下格式
date = i["comm_msg_info"]["datetime"]
tupTime = time.localtime(date)
stadardTime = time.strftime("%Y-%m-%d %H:%M:%S", tupTime)
用微信公众平台爬取也会爬不全,我爬取两百多条就不行了。不知道为啥用代理ip似乎也不行,可能是我使用错误了吧。一开始用的熊猫代理,花两块钱买的ip地址,但都用不成。 快代理 这个网站可以注册后有四小时的测试期,而且电脑ip确实是换了,但人工手动登录微信公众号用超链接的方式搜索其他公众号文章还是会报错,返回的结果是自己公众号的内容。但快代理这个网站的ip还是比较好用的,隧道ip可以按小时购买,拿来练手挺好的,一天大概是10元。而且现在使用代理ip网站后,都需要身份证号验证和支付宝人脸识别。 python爬取微信公众号文章,通过微信公众平台
|