[Python知识库] python爬取网站的一些技巧总结

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python爬取网站的一些技巧总结 -> 正文阅读

[Python知识库]python爬取网站的一些技巧总结

学习python也有一段时间了，今天整理了一份爬取网站数据的基本步骤分享给大家，对于很多爬虫高手来说可能没有什么意义，但是对新学爬虫的小伙伴来说可以参考下。爬取一个网站的数据整体是比较简单的，难度大小跟这个网站有关。以下就是一些小编整理的步骤：
1、设定爬取目标，
目标网站：微博 https://weibo.com/
目标数据每天更新的热搜关键词的链接、标题、标签。
2、分析目标网站
爬取页面：https://s.weibo.com/weibo?q=%E4%BF%9D%E7%A0%94&topic_ad=
待爬取数据：网页下的超链接的标题和链接，标签列表
目标网站反爬：网站反爬的方式有很多，都有应对策略，比如遇到网站限制IP访问次数时，只需要加上代理IP就可以轻松解决。代理IP的选择有很多，比如这里我们给大家示例代理使用方式的亿牛云代理。代理如何在程序里面添加，示例代码如下：
Plain Text
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
// 要访问的目标页面
string targetUrl = “http://httpbin.org/ip”;

// 代理服务器(产品官网 www.16yun.cn)
string proxyHost = “http://t.16yun.cn”;
string proxyPort = “31111”;

// 代理验证信息
string proxyUser = “username”;
string proxyPass = “password”;

// 设置代理服务器
WebProxy proxy = new WebProxy(string.Format(“{0}:{1}”, proxyHost, proxyPort), true);

ServicePointManager.Expect100Continue = false;

var request = WebRequest.Create(targetUrl) as HttpWebRequest;

request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method = “GET”;
request.Proxy = proxy;

//request.Proxy.Credentials = CredentialCache.DefaultCredentials;

request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);

// 设置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add(“Proxy-Tunnel”, String.valueOf(tunnel));

//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = “Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36”;
//request.Headers.Add(“Cache-Control”, “max-age=0”);
//request.Headers.Add(“DNT”, “1”);

//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding(“ISO-8859-1”).GetBytes(proxyUser + “:” + proxyPass));
//request.Headers.Add(“Proxy-Authorization”, "Basic " + encoded);

using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
string htmlStr = sr.ReadToEnd();
}
3、实现HTML解析，得到目标数据。获取数据需要进行清洗整理才能得到一份干净有效的数据。
4、将结果数据存储
这只是其的一些必要步骤，细分还有很多的步骤需要学习，但是我们只要掌握了整体框架，把这些都学透了那么爬虫就没有那么难了。

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2022-09-30 00:49:11 更:2022-09-30 00:52:46

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/6 14:28:04-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码