IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Java知识库 -> java整合Mybatis-plus获取省市区街道社区信息进行存储 -> 正文阅读

[Java知识库]java整合Mybatis-plus获取省市区街道社区信息进行存储

java整合Mybatis-plus爬取国家统计局省市区街道社区信息进行存储

国家统计局:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/
通过链接进入查询,选择对应的年份,查询各省市区信息。那如何通过java代码进行爬取信息进行数据存储呢?之前有类似需求,并进行了一个笔记整理,如下:
- 引入Jsoup pom依赖
        <!-- JSOUP 解析-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.12.1</version>
        </dependency>
- 创建数据库-实体类(根据需要我只存储街道编号和名字)
SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for t_street
-- ----------------------------
DROP TABLE IF EXISTS `t_street`;
CREATE TABLE `t_street` (
  `code` varchar(255) NOT NULL,
  `name` varchar(255) DEFAULT NULL,
  `areaCode` varchar(255) DEFAULT NULL COMMENT '区编号',
  `provinceCode` varchar(255) DEFAULT NULL COMMENT '省编号',
  `cityCode` varchar(255) DEFAULT NULL COMMENT '市编号',
  PRIMARY KEY (`code`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
- 实体类
@Data
@EqualsAndHashCode(callSuper = false)
@Accessors(chain = true)
@TableName("t_street")
@ApiModel(value="TStreet", description="")
public class TStreet  implements Serializable {

    private static final long serialVersionUID=1L;

    private String code;

    private String name;

    @TableField(value = "areaCode")
    private String areaCode;

    @TableField(value = "provinceCode")
    private String provinceCode;

    @TableField(value = "cityCode")
    private String cityCode;


}

@TableField(Mybatis-plus默认设置了驼峰形式,此注解value对应数据库字段)
- 代码实现
package com.carshow.admin.controller.test;

import com.carshow.admin.pojo.model.TStreet;
import com.carshow.admin.service.IStreetService;
import com.carshow.common.web.utils.StringUtils;
import io.swagger.annotations.Api;
import io.swagger.annotations.ApiOperation;
import lombok.AllArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * @author xw
 * @description
 * @date 2022/3/21 16:18
 */
@Api(tags = "街道接口")
@RestController
@RequestMapping("/api/v1/street")
@Slf4j
@AllArgsConstructor
public class StreetController {

    private IStreetService streetService;
    
    // 固定写法:国家统计局的首页链接
    private static final String link = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/";

    @ApiOperation(value = "获取街道信息")
    @GetMapping("query")
    public void query() throws IOException {

        // 爬取省份
        Document document = Jsoup.connect(link).get();

        Elements provincetrAll = document.select(".provincetr");
        for(Element provincetr : provincetrAll){
            for(Element td:provincetr.children()){
                Elements a = td.select("a");
                String href = a.attr("href");
                // 省名
                String name = a.text();           

               /**
                 * 可进行省信息存储操作,测试只查询广东省
                 */
                if(name.equals("广东省")){
                    getShi(href);
                }
            }
        }

    }

    // 爬取市
    private void getShi(String shiHref) throws IOException {

        Document document = Jsoup.connect(link+shiHref).get();

        Elements citytrAll = document.select(".citytr");
        for(Element citytr:citytrAll){
            Element codetd = citytr.child(0);
            Element nametd = citytr.child(1);

            String href = codetd.select("a").attr("href");
            String code = codetd.select("a").text();
            String name = nametd.select("a").text();

            /**
             * 可进行市区信息存储操作,测试只查询深圳市
             */
            if(name.equals("深圳市")){

                getQu(href,code);
            }
        }
    }

    // 爬取区
    private void getQu(String countryHref,String cityCode) throws IOException {
        Document document = Jsoup.connect(link+countryHref).get();
        Elements countryAll = document.select(".countytr");

        // 这里的sort没有从0开始增加,是因为市下的第一级为市辖区,该级下无子级,用不着采集。所以直接跳过。
        long sort = -1 ;

        for(Element countrytr:countryAll){
            sort++;

            if(sort>0){
                Element codetd = countrytr.child(0);
                Element nametd = countrytr.child(1);

                String href = codetd.select("a").attr("href");
                String code = codetd.select("a").text();
                String name = nametd.select("a").text();

                /**
                 * 可进行区信息存储操作
                 */

                getJiedao(href,code);
            }


        }
    }

    // 爬取乡镇(街道)
    private void getJiedao(String jiedaoHref,String countryCode) throws IOException {


        Document document = Jsoup.connect(link+countryCode.substring(0,2)+"/"+jiedaoHref).get();

        Elements townAll = document.select(".towntr");

        long sort = 0 ;

        for(Element towntr:townAll){
            Element codetd = towntr.child(0);
            Element nametd = towntr.child(1);

            String href = codetd.select("a").attr("href");
            String code = codetd.select("a").text();
            String name = nametd.select("a").text();

            /**
             * 可进行街道信息存储操作
             */
            TStreet street = new TStreet();
            street.setCode(code);
            street.setName(name);
            street.setAreaCode(StringUtils.substring(code,0,6));
            street.setProvinceCode(StringUtils.substring(code,0,2));
            street.setCityCode(StringUtils.substring(code,0,4));
            
             //也可使用批量插入操作
            streetService.save(street);
//            getShequ(href,code);

        }

    }

    // 爬取村(社区)
    private static void getShequ(String shequHref,String townCode) throws IOException {
        String a = townCode.substring(0,2);
        String b = townCode.substring(2,4);
        Document document = Jsoup.connect(link+a+"/"+b+"/"+shequHref).get();

        Elements villagetrAll = document.select(".villagetr");

        long sort = 0;

        for(Element villagetr:villagetrAll){
            Element codetd = villagetr.child(0);
            Element nametd = villagetr.child(2);

            String code = codetd.text();
            String name = nametd.text();

            /**
             * 可进行社区信息存储操作
             */

        }

    }


}

所对应的service和mapper为mybatis-plus自动构建
- 测试(因为我只进行存储了街道信息,所以访问测试以及结果如下)

在这里插入图片描述

- 请求的时间会比较长,需要耐心等待
  • 结果
    在这里插入图片描述
  Java知识库 最新文章
计算距离春节还有多长时间
系统开发系列 之WebService(spring框架+ma
springBoot+Cache(自定义有效时间配置)
SpringBoot整合mybatis实现增删改查、分页查
spring教程
SpringBoot+Vue实现美食交流网站的设计与实
虚拟机内存结构以及虚拟机中销毁和新建对象
SpringMVC---原理
小李同学: Java如何按多个字段分组
打印票据--java
上一篇文章      下一篇文章      查看所有文章
加:2022-03-24 00:21:20  更:2022-03-24 00:24:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 6:53:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码