IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> scrapy -> 正文阅读

[Python知识库]scrapy

# 爬虫部分
import scrapy
from lxml import etree
from ..items import SssItem

class TianQiSpider(scrapy.Spider):
    name='TianQi'
    allowed_domains=['www.tianqijun.com']
    start_urls=[]
    for i in range(1,47):
        url='https://www.tianqijun.com/lvyou/index_'+str(i)+'.html'
        start_urls.append(url)
    def parse(self,response,**kwargs):
        dom=etree.HTML(response.text)
        xp=dom.xpath("//div[@class='list']/a/@title")
        xp_href=dom.xpath("//div[@class='list']/a/@href")
        for x in range(len(xp)):
            item=SssItem()
            item['title']=xp[x]
            item['href']=xp_href[x]
            print(item['title'])
            with open('天奇生活测试.txt','a+') as f:
                f.write(item['title']+'\n')
            yield item
            yield scrapy.Request(url='https://www.tianqijun.com/'+item['href'],callback=self.parser_1)
    def parser_1(self,response):
        dom_1=etree.HTML(response.text)
        xp_1=dom_1.xpath("//div[@class='detailTitle']/h2/text()")
        for i in xp_1:
            item=SssItem()
            item['title_z']=i
            print(item['title_z'])
            with open('天奇生活子链接测试.txt','a+') as f1:
                f1.write(item['title_z']+'\n')
            yield item
# items.py文件配置

import scrapy

class SssItem(scrapy.Item):
    title=scrapy.Field()
    href=scrapy.Field()
    title_z=scrapy.Field()

# pipelines.py文件配置

from itemadapter import ItemAdapter


class SssPipeline:
    def process_item(self,item,spider):
        return item

# settings.py文件配置
BOT_NAME = 'SSS'
SPIDER_MODULES = ['SSS.spiders']
NEWSPIDER_MODULE = 'SSS.spiders'

USER_AGENT='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

ROBOTSTXT_OBEY=False

CONCURRENT_REQUESTS = 2

# 启动函数配置
from scrapy import cmdline
cmdline.execute(['scrapy','crawl','TianQi'])

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-11-18 11:09:13  更:2021-11-18 11:11:06 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 1:49:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码