[区块链] (二)requests爬取智能合约账户地址及其交易记录

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 区块链 -> (二)requests爬取智能合约账户地址及其交易记录 -> 正文阅读

[区块链](二)requests爬取智能合约账户地址及其交易记录

1 背景

? 之前使用Selenium爬取 https://eth.btc.com/accounts 上的账户地址及其交易记录，但是运行时间很长，而且老报一些错误，所以想到换一种方式来爬取智能合约。

2 方法

先对其抓包，获取请求路径和参数
循环构造参数
使用requests.get(url, params).json()请求获取数据并使用json方法序列化结果
处理获取到的数据并将其写入文件

3 步骤

（1）抓包

在这里插入图片描述

通过分析，获取请求地址和参数，发现只有page和size两个参数。

（2）构造参数获取数据

A.txt中是爬取的一些账户地址，通过账户地址跟上图中的请求url组合形成请求地址来获取其交易记录

A.txt部分数据示例：

外部地址,1,https://eth.btc.com/accountinfo/0x00000000219ab540356cbb839cbe05303d7705fa,0x00000000219ab540356cbb839cbe05303d7705fa,7513890.00007 ETH,152468
合约地址,2,https://eth.btc.com/accountinfo/0xc02aaa39b223fe8d0a0e5c4f27ead9083c756cc2,0xc02aaa39b223fe8d0a0e5c4f27ead9083c756cc2,6942619.43722 ETH,2774885
外部地址,3,https://eth.btc.com/accountinfo/0xbe0eb53f46cd790cd13851d5eff43d12404d33e8,0xbe0eb53f46cd790cd13851d5eff43d12404d33e8,2296896.46551 ETH,963
外部地址,4,https://eth.btc.com/accountinfo/0x73bceb1cd57c711feac4224d062b0f6ff338501e,0x73bceb1cd57c711feac4224d062b0f6ff338501e,1899046.59613 ETH,320

代码：

import requests

headers = {
    'Cookie': 'OCSSID=4df0bjva6j7ejussu8al3eqo03',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}


def getManyPages(address, total):
    params = []
    for i in range(1, int(total / 500) + 2):
        params.append({"page": i, "size": 500})
    url = 'https://explorer-web.api.btc.com/v1/eth/accounts/' + address + '/txns'
    print('正在爬取', url, '...')
    data = []
    for i in params:
        print(i)
        json = '$$'
        try:
            json = requests.get(url, params=i, allow_redirects=False, headers=headers).json()
        except:
            continue
        finally:
            if json != '$$':
                data.append(json.get('data'))
    print('爬取结束!', url)
    print('================================================================================================')
    return data


# 获取哈希值地址和总共的条数
def getAddressAndTotal():
    res = []
    with open('../data/A.txt', 'r', encoding='utf-8') as f:
        for line in f.readlines():
            sp = line.split(',')
            res.append({
                'address': sp[3],
                'total': int(str(sp[5]).strip())
            })
    return res


if __name__ == '__main__':
    addrTotal = getAddressAndTotal()  # 获取A.txt中的url和total总数
    for at in addrTotal:
        dataList = getManyPages(at.get('address'), at.get('total'))
        with open('../data/req.txt', 'a', encoding='utf-8') as f:
            for r in dataList:
                for d in r.get('list'):
                    f.write(str(d))
                    f.write('\n')