IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> scrapy-pipline -> 正文阅读

[大数据]scrapy-pipline

pipline

  • Image Pipline(爬取图片)

    # settings.py
    IMAGES_STORE = './images'
    
    # piplines.py
    from scrapy import Request
    from scrapy.exceptions import DropItem
    from scrapy.piplines.images import ImagesPipline
    class ImagePipline(ImagesPipline):
    	# 接收spider生成的item,取出url生成Request对象
    	def get_media_requests(self,item,info):
    		yield Requests(item['url'])
    	
    	# 返回保存的文件名
    	def file_path(self,request,response=None,info=None):
    		url = request.url
    		file_name = url.split('/')[-1]
    		return file_name
    	
    	# item下载完成时的处理方法
    	# results为该item对应的下载结果
    	def item_completed(self,results,item,info):
    		image_paths = [x['path'] for ok,x in results if ok]
    		if not image_paths:
    			raise DropItem('Image Download Failed')
    		return item
    
  • MysqlPipline(Mysql数据库)

    # settings.py
    MYSQL_HOST='localhost'
    MYSQL_DATABASE= 'database'
    MYSQL_PORT = 3306
    MYSQL_USER  = 'root'
    MYSQL_PASSWORD = 'root'
    
    # piplines.py
    import pymysql
    
    class MysqlPipline():
    	def __init__(self,host,database,user,password,port):
    		self.host = host
    		self.database = database
    		self.user = user
    		self.password = password
    		self.port = port
    	
    	# 拿去到settings.py中与mysql相关的参数
    	@classmethod
    	def from_crawler(cls,crawler):
    		return cls(
    			host = crawler.settings.get('MYSQL_HOST'),
    			database = crawler.settings.get('MYSQL_DATABASE'),
    			user = crawler.settings.get('MYSQL_USER'),
    			password = crawler.settings.get('MYSQL_PASSWORD'),
    			port = crawler.settings.get('MYSQL_PORT'),
    		)
    	
    	# spider开启时被自动调用
    	def open_spider(self,spider):
    		self.db = pymysql.connect(self.host,self.user,self.password,self.database,charset='utf-8',port=self.port)
    		self.cursor= self.db.cursor()
    		
    	# spider关闭时被自动调用
    	def close_spider(self,spider):
    		self.db.close()
    		
    	# process_item是必须要实现的方法,pipline会默认用这个方法对item进行处理
    	def process_item(self,item,spider):
    		data = dict(item)
    		keys = ','.join(data.keys())
    		values = ','.join(['%s']*len(data))
    		sql = ''
    		self.cursor.execute(sql,tuple(data.vaules()))
    		self.db.commit()
    		return item
    
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-09-13 09:20:26  更:2021-09-13 09:21:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 13:52:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码