[开发工具] Pycharm学习记录（一）—

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 开发工具 -> Pycharm学习记录（一）——爬虫与反爬 -> 正文阅读

[开发工具]Pycharm学习记录（一）——爬虫与反爬

爬虫是好久前学的，然后已经忘得差不多了。简单回顾一下。

1.确定目标网址

baseurl = '目标网址'

2.爬取网页与解析网页（就是边爬边解）

#1.爬取网页
def getData(baseurl):
    datalist = []
    for i in range(0,1):
        url = baseurl + str(i*20)  #调用获取页面信息的函数，10次
        html = askURL(url)
        #2.主逐一解析网页
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            print(item)

3.爬取时要适当伪装一下，即代码段中的askURL

def askURL(url):
    #代理池，这里的IP可换
    proxy_list = [
        '202.106.169.142:80',
        '220.181.35.109:8080',
    ]

    #绑定某个IP
    proxy = random.choice(proxy_list)
    urlhandle = urllib.request.ProxyHandler({'http': proxy})
    opener = urllib.request.build_opener(urlhandle)
    urllib.request.install_opener(opener)

    #伪装头，在network中找
    headers = {
        'user-agent': '',
        'referer': '',
        'cookie': '',
    }
    
    #用户代理，模拟头部信息，以及异常处理
    req = urllib.request.Request(url,headers = headers)
    html = ""
    try:
        response = urllib.request.urlopen(req)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

4.解析完成后得到网页信息，找到想要的片段数据，比如想爬取‘链接’

findLink = re.compile(r'<a href="(.*?)">')#这里需要结合网页来编写

link = re.findall(findLink,item)[0]
data.append(link)
datalist.append(data)

5.保存在excel表格当中

#3.保存
def saveData(datalist,savepath):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  # 创建
    sheet = book.add_sheet('sheet1',cell_overwrite_ok=True)
    col = ("链接")

    #这里原本爬了好几类信息，所以用的循环，如果只有一个的话就不需要
    for i in range(0,1):
        sheet.write(0,i,col[i])
    for m in range(0,250):
        print("第%d条"%(m+1))
        data = datalist[m]
        for j in range(0,1):
            sheet.write(m+1,j,data[j])
    book.save(savepath)

目前困境：

我的研究对象是民宿，但是Airbnb网站反爬太厉害了，我一进去就是403；途家是个APP，爬取途家的话要学习新的爬取APP数据的技术；携程就是分不清民宿与酒店，在写文章的时候就挺蒙的，还没试过爬取它上面的数据。

解决思路：

首先，先尝试找到Airbnb的403的解决办法，时限大概两天，如果实在不行就暂时先放弃；

其次，对APP数据进行爬虫，一些博主说APP可能会好爬取一些，但是要下载一些软件，还有我也不知道我那老年机是否能成功被爬

最后，考虑下携程的数据，这个未知风险确实有点大了，还是争取突破前面那俩吧。

关于Airbnb反爬。目前采取的措施有：增加头部信息、代理IP池。但是依然没有成功。