1.页面分析
? ? ? ?此次我们获取数据的网站是东方财富网!首先我们按F12打开开发者模式,对name里面的网页进行观察,找到数据存在的网页,发现数据是以jQuery加载进网页的,每次加载20个数据,如图:
?
? ? ? 至此我们找到了单页网页的数据及地址,接下来我们继续打开第二页,找到每页之间的关系,整理后我们发现第一页的pn值等于1,第二页的pn值等于2:
?所以我们构建URL时,只需用for循环让params参数中的pn值变为可变动的值,那么这样的话我们都可以对里面的每一页发起请求进而获取他们的值,代码如下:
for page in range(1,50):
params = (
('cb', 'jQuery1124031167968836399784_1615878909521'),
('pn', str(page)),
('pz', '20'),
('po', '1'),
('np', '1'),
('ut', 'bd1d9ddb04089700cf9c27f6f7426281'),
('fltt', '2'),
('invt', '2'),
('fid', 'f3'),
('fs', 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23'),
('fields', 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152'),
)
2、获取数据
在上面对网页进行分析时,我们感觉这个网页存储数据是json格式,但实则不是,json格式一开始就是需要字典的形式,但这里又有括号又有分号,我们采取将数据转化成字符串的形式,然后用正则表达式将目标数据提取出来。代码如下:
?
daimas = re.findall('"f12":(.*?),',response.text)
names = re.findall('"f14":"(.*?)"',response.text)
zuixinjias = re.findall('"f2":(.*?),',response.text)
zhangdiefus = re.findall('"f3":(.*?),',response.text)
zhangdiees = re.findall('"f4":(.*?),',response.text)
chengjiaoliangs = re.findall('"f5":(.*?),',response.text)
chengjiaoes = re.findall('"f6":(.*?),',response.text)
zhenfus = re.findall('"f7":(.*?),',response.text)
zuigaos = re.findall('"f15":(.*?),',response.text)
zuidis = re.findall('"f16":(.*?),',response.text)
jinkais = re.findall('"f17":(.*?),',response.text)
zuoshous = re.findall('"f18":(.*?),',response.text)
liangbis = re.findall('"f10":(.*?),',response.text)
huanshoulvs = re.findall('"f8":(.*?),',response.text)
shiyinglvs = re.findall('"f9":(.*?),',response.text)
?3、数据存储
这里我们将数据存入Excel表中,代码如下:
wb = openpyxl.Workbook()
sheet = wb.active
sheet['A1'] = '代码'
sheet['B1'] = '名称'
sheet['C1'] = '最新价'
sheet['D1'] = '涨跌幅'
sheet['E1'] = '涨跌额'
sheet['F1'] = '成交量'
sheet['G1'] = '成交额'
sheet['H1'] = '振幅'
for i in range(20):
sheet.append([daimas[i],names[i],zuixinjias[i],zhangdiefus[i],zhangdiees[i],
chengjiaoliangs[i],chengjiaoes[i],zhenfus[i],zuigaos[i],zuidis[i],
jinkais[i],zuoshous[i],liangbis[i],huanshoulvs[i],shiyinglvs[i]])
?
?
|