[Python知识库] python爬虫学习36

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python爬虫学习36 -> 正文阅读

[Python知识库]python爬虫学习36

python爬虫学习36

数据存储篇——TXT

在学习完数据的获取、数据的解析后我们下一步的动作就是要进行数据的存储，数据如何进行存储呢？有多种方法可供选择：

一、TXT文本文件存储

将数据保存为txt文件就要使用到Python的文件操作了，正好这里连带巩固一下python的基础操作：

将数据保存为txt的优势是操作简单、兼容性好，但是随之而来的缺点就是不利检索。在对数据检索和数据结构要求不高，不过如果偷懒也没关系（非必要使用其他存储方式）的话，txt存储yyds！

1-1 txt存储实例

实例网站

通过分析网站找到名称等信息存放的节点，为在信息提取的时候提供依据

在这里插入图片描述

我要吐了。。。书上用的是pyquery库而我只会parsel。不过啊，让我研究出来了

最后示例如下：

import requests
from parsel import Selector


url = "https://ssr1.scrape.center/"
html = requests.get(url).text
ini_selector = Selector(text=html)


# 使用Python文件操作 创建一个txt文件 之后的信息将保存在里面
with open ("movies.txt", 'w', encoding="utf-8") as file:
    # 经过分析 电影的名称信息都存储在 class属性为 “el-card” 的节点内
    count = 0
    for item in ini_selector.xpath('//div[@class="el-card item m-t is-hover-shadow"]').getall():
        count += 1
        file.write("--"*20)
        file.write("\n")
        ini_item = Selector(text= item)

        # 标记电影特征的属性 为 href
        info_movies_name = ini_item.xpath(f'//a[contains(@href, "detail/{str(count)}" )]/h2/text()')
        # 电影名称

        file.write(f'名称 ：{info_movies_name.get()}\n')
        # 标记电影类型的特征属性 为 class
        info_movies_kind = ini_item.xpath('//div[@class = "categories"]/button/span/text()').getall()
        file.write(f'电影类型 ：{info_movies_kind}\n')
        # 标记评分的特征属性为 class
        info_movies_score = ini_item.xpath('//div/p[@class = "score m-t-md m-b-n-sm"]/text()')
        file.write(f'评分 ：{info_movies_score.get()}\n')
    print('录入成功！')