[Python知识库] 如何爬取双色球历史开奖记录

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> 如何爬取双色球历史开奖记录 -> 正文阅读

[Python知识库]如何爬取双色球历史开奖记录

1. 背景及目的

双色球开奖有没有什么规律？历史开奖的情况是怎么样的？能否利用历史数据，进行开奖结果预测？利用历史数据进行预测的极限准确率是多少？想要解读以上疑问的话，首先必须拿到双色球的历史开奖记录。

本次爬取双色球历史开奖记录的目的：

拿到历史数据，为解答以上疑问提供数据基础；
提升应用Python进行数据爬取的能力；

2. 寻找数据源

思路：双色球作为一种公益福利彩，全国均可购买，其背后必然会有官网。因此，可上双色球官网寻找历史开奖记录。

官网开奖网址：双色球官网开奖记录

经确认，官网只展示仅100期的开奖结果，显然，不符合要求。

思路：双色球经过多年的发展，在全国具有如此大的规模，必定会衍生出其他相关公司或机构，会记录历史开奖记录。

经过查找，果然找到了：双色球频道历史开奖记录

经确认，第一期双色球开奖日期是2003年2月23日，该网址包含了最早的开奖记录，符合本次要求。

3. 开始爬取数据

3.1 获取总页数

import requests

url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list.html'
html = requests.get(url=url)

html_text = html.text

soup = BeautifulSoup(html_text, 'html.parser')

str_total_page = soup.select('tr td p > strong')[0].text

total_page = int(str_total_page)

print(total_page)

3.2 获取网页内容

import pandas as pd
from bs4 import BeautifulSoup
import time, random
import re

columns = ['开奖日期','期号','红球1','红球2','红球3','红球4','红球5','红球6','蓝球','销售额(元)','中一等奖注数','中二等奖注数']
df = pd.DataFrame(columns=columns)

for page in range(total_page):
    
    # 打印当前抓取的页数
    print('正在抓取第%d页...' % (page + 1))
    
    url = 'http://kaijiang.zhcw.com/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum={page}'.format(page=page + 1)
    html = requests.get(url=url)
    html_text = html.text
    soup = BeautifulSoup(html_text, 'html.parser')
    
    try:
        # 遍历所有tr标签
        for tr in soup.find_all('tr'):
            # 排除开头和结尾
            if '一等奖' not in tr.text and '开奖日期' not in tr.text and '首页' not in tr.text:
                # 解析开奖结果
                result = tr.text.strip().split()
                print(result)
                if len(result) < df.shape[1]:
                    pass
                elif len(result) == df.shape[1]:
                    df_tr = pd.DataFrame([result], columns=columns)
                    df = df.append(df_tr, ignore_index=True)
                else:
                    print('注意：第%d页存在中文，已剔除...' % (page + 1))
                    for i in result.copy():    # 注意：一定需要加上.copy()，否则 remove 不完整
                        if re.compile('[0-9]+').findall(i):
                            pass
                        else:
                            result.remove(i)
                    # 解析开奖结果
                    print(result)
                    df_tr = pd.DataFrame([result], columns=columns)
                    df = df.append(df_tr, ignore_index=True)
    except Exception as e:
        print('遇到未知错误，需检查处理：%s' % e)
    
    # 随机暂停，减少对服务器的压力
    pause_seconds = random.randint(0, 2)
    print('为减少服务器压力，随机暂停%d秒...' % pause_seconds)
    time.sleep(pause_seconds)

df