[Python知识库] python 爬取诗词名句网（包含页面跳转）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python 爬取诗词名句网（包含页面跳转） -> 正文阅读

[Python知识库]python 爬取诗词名句网（包含页面跳转）

代码，之前一直乱码，经过多番尝试
使用了.encode(‘ISO-8859-1’).decode(‘utf-8’)这个方法

from bs4 import BeautifulSoup
import requests

if __name__ == '__main__':
    url='https://m.shicimingju.com/book/sanguoyanyi.html'
    headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36'}
    page_text=requests.get(url=url,headers=headers)
    #page_text.encoding = 'utf-8'
    soup=BeautifulSoup(page_text.text.encode('ISO-8859-1').decode('utf-8'),'lxml')
    li=soup.select('.book-mulu > ul > li')
    f=open('sanguo.txt','w',encoding='utf-8')
    for list in li:
        title=list.a.string
        #t=title.encode('utf-8').decode('gbk')
        href='https://m.shicimingju.com'+list.a['href']
        detail_text=requests.get(href,headers=headers)
        #detail_text.encoding='utf-8'
        content=BeautifulSoup(detail_text.text.encode('ISO-8859-1').decode('utf-8'),'lxml')
        con=content.find('div',class_='card')
        p=con.text
        #p=p.encode('utf-8').decode('gbk')
        f.write(title+':'+p+'\n')
        print(title,'爬取成功')

图片

在这里插入图片描述
但是这个爬出来的txt含有NSBP

根据此方法：
\xa0 是不间断空白符
str.replace(u’\xa0’, u’ ‘)

\u3000 是全角的空白符
str.replace(u’\u3000’,u’ ‘)

title.strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)
content.strip(“”).strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)

进行修改：

在这里插入图片描述
这个txt文件就没有NSBP了，而且格式也规范许多。
最终代码：

from bs4 import BeautifulSoup
import requests

if __name__ == '__main__':
    url='https://m.shicimingju.com/book/sanguoyanyi.html'
    headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36'}
    page_text=requests.get(url=url,headers=headers)
    #page_text.encoding = 'utf-8'
    soup=BeautifulSoup(page_text.text.encode('ISO-8859-1').decode('utf-8'),'lxml')
    li=soup.select('.book-mulu > ul > li')
    f=open('sanguo.txt','w',encoding='utf-8')
    for list in li:
        title=list.a.string
        t=title.strip('\r\n').replace(u'\u3000', u'').replace(u'\xa0', u'')
        href='https://m.shicimingju.com'+list.a['href']
        detail_text=requests.get(href,headers=headers)
        #detail_text.encoding='utf-8'
        content=BeautifulSoup(detail_text.text.encode('ISO-8859-1').decode('utf-8'),'lxml')
        con=content.find('div',class_='chapter_content')
        p=con.text
        p=p.strip('\r\n').replace(u'\u3000', u'').replace(u'\xa0', u'')
        f.write(t+':'+p+'\n')
        print(t,'爬取成功')

之前错误的代码示范

from bs4 import BeautifulSoup
import requests

if __name__ == '__main__':
    url='https://m.shicimingju.com/book/sanguoyanyi.html'
    headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36'}
    page_text=requests.get(url=url,headers=headers).text
    soup=BeautifulSoup(page_text,'lxml')
    li=soup.select('.book-mulu > ul > li')
    f=open('sanguo.txt','w',encoding='utf-8')
    for list in li:
        title=list.a.string
        t=title.encode('utf-8').decode('gbk')
        href='https://m.shicimingju.com'+list.a['href']
        detail_text=requests.get(href,headers=headers).text
        #detail_text.encoding='utf-8'
        content=BeautifulSoup(detail_text,'lxml')
        con=content.find('div',class_='card')
        p=con.text
        p=p.encode('utf-8').decode('gbk')
        f.write(t+':'+p+'\n')
        print(t,'爬取成功')