[Python知识库] scrapy

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> scrapy -> 正文阅读

[Python知识库]scrapy

# 爬虫部分
import scrapy
from lxml import etree
from ..items import SssItem

class TianQiSpider(scrapy.Spider):
    name='TianQi'
    allowed_domains=['www.tianqijun.com']
    start_urls=[]
    for i in range(1,47):
        url='https://www.tianqijun.com/lvyou/index_'+str(i)+'.html'
        start_urls.append(url)
    def parse(self,response,**kwargs):
        dom=etree.HTML(response.text)
        xp=dom.xpath("//div[@class='list']/a/@title")
        xp_href=dom.xpath("//div[@class='list']/a/@href")
        for x in range(len(xp)):
            item=SssItem()
            item['title']=xp[x]
            item['href']=xp_href[x]
            print(item['title'])
            with open('天奇生活测试.txt','a+') as f:
                f.write(item['title']+'\n')
            yield item
            yield scrapy.Request(url='https://www.tianqijun.com/'+item['href'],callback=self.parser_1)
    def parser_1(self,response):
        dom_1=etree.HTML(response.text)
        xp_1=dom_1.xpath("//div[@class='detailTitle']/h2/text()")
        for i in xp_1:
            item=SssItem()
            item['title_z']=i
            print(item['title_z'])
            with open('天奇生活子链接测试.txt','a+') as f1:
                f1.write(item['title_z']+'\n')
            yield item
# items.py文件配置

import scrapy

class SssItem(scrapy.Item):
    title=scrapy.Field()
    href=scrapy.Field()
    title_z=scrapy.Field()

# pipelines.py文件配置

from itemadapter import ItemAdapter


class SssPipeline:
    def process_item(self,item,spider):
        return item

# settings.py文件配置
BOT_NAME = 'SSS'
SPIDER_MODULES = ['SSS.spiders']
NEWSPIDER_MODULE = 'SSS.spiders'

USER_AGENT='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

ROBOTSTXT_OBEY=False

CONCURRENT_REQUESTS = 2

# 启动函数配置
from scrapy import cmdline
cmdline.execute(['scrapy','crawl','TianQi'])

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-11-18 11:09:13 更:2021-11-18 11:11:06

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/1 21:30:45-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码