IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python爬虫学习36 -> 正文阅读

[Python知识库]python爬虫学习36

python爬虫学习36

数据存储篇——TXT

在学习完数据的获取、数据的解析后我们下一步的动作就是要进行数据的存储,数据如何进行存储呢?有多种方法可供选择:

一、TXT文本文件存储

将数据保存为txt文件就要使用到Python的文件操作了,正好这里连带巩固一下python的基础操作:

将数据保存为txt的优势是操作简单、兼容性好,但是随之而来的缺点就是不利检索。在对数据检索和数据结构要求不高,不过如果偷懒也没关系(非必要使用其他存储方式)的话,txt存储yyds!

1-1 txt存储实例

实例网站

通过分析网站找到名称等信息存放的节点,为在信息提取的时候提供依据

在这里插入图片描述

我要吐了。。。书上用的是pyquery库而我只会parsel。不过啊,让我研究出来了

最后示例如下:

import requests
from parsel import Selector


url = "https://ssr1.scrape.center/"
html = requests.get(url).text
ini_selector = Selector(text=html)


# 使用Python文件操作 创建一个txt文件 之后的信息将保存在里面
with open ("movies.txt", 'w', encoding="utf-8") as file:
    # 经过分析 电影的名称信息都存储在 class属性为 “el-card” 的节点内
    count = 0
    for item in ini_selector.xpath('//div[@class="el-card item m-t is-hover-shadow"]').getall():
        count += 1
        file.write("--"*20)
        file.write("\n")
        ini_item = Selector(text= item)

        # 标记电影特征的属性 为 href
        info_movies_name = ini_item.xpath(f'//a[contains(@href, "detail/{str(count)}" )]/h2/text()')
        # 电影名称

        file.write(f'名称 :{info_movies_name.get()}\n')
        # 标记电影类型的特征属性 为 class
        info_movies_kind = ini_item.xpath('//div[@class = "categories"]/button/span/text()').getall()
        file.write(f'电影类型 :{info_movies_kind}\n')
        # 标记评分的特征属性为 class
        info_movies_score = ini_item.xpath('//div/p[@class = "score m-t-md m-b-n-sm"]/text()')
        file.write(f'评分 :{info_movies_score.get()}\n')
    print('录入成功!')

运行结果:

在这里插入图片描述

运行成功后,在我们当前的文件夹下,出现了一个神秘的文档:

在这里插入图片描述

最后文档中的信息被存储如下:

在这里插入图片描述

以上就是保存为txt的方法,是不是贼简单

今日结束,明日继续!

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-05-09 12:36:21  更:2022-05-09 12:38:12 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 14:51:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码