#-*- codeing=utf-8 -*-
from bs4 import BeautifulSoup #网页解析,获取数据
import re #正则表达式,进行文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作的
import sqlite3 #进行sqlite数据库操作
def main():
#1.爬取网页
#2.解析数据
#3.保存数据
baseurl ="https://movie.douban.com/top250?start="
data = getData(baseurl)
savePath = '.\\豆瓣电影Top250.xls'
saveData(savePath)
#影片链接的规则
findLink = re.compile(r'<a href="(.*?)">') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
ImagLink = re.compile(r'<img .* src="(.*?)"(.*?)/>',re.S) #让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*?)</span>',re.S)
#影片评分
findPingfen = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#评分人数
findNumber = re.compile(r'<span>(\d*?)人评价</span>')
#找到概况
findSummary = re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findInfo = re.compile(r'<p class="">(.*?)</p>',re.S)
# 爬取网页
def getData(baseurl):
datalist = []
# 逐一解析数据
for i in range(0,1): #调用获取页面信息的函数 10次
url = baseurl+str(i*25)
html = askURL(url) #保存获取到的网页的源码
#注意解析数据
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"): #查找符合要求的字符串,形成列表
#print(item) #测试:查看item全部信息
item = str(item)
data1 = [] #保存一部电影的所有信息
#获取影片的超链接
link = re.findall(findLink,item)[0]
data1.append(link)
img = re.findall(ImagLink,item)[0]
data1.append(img)
title = re.findall(findTitle,item)
if(len(title)==2):
ctitle = title[0] #添加中文名
data1.append(ctitle)
otitle = title[1].replace("/","") #去掉无关的符号
data1.append(otitle) #添加外国名
else:
data1.append(title[0])
data1.append("") #留空
info =re.findall(findInfo,item)[0]
info = re.sub(r'<br(\s+)?/>(\s+)?',' ',info)
data1.append(info.strip())
summary = re.findall(findSummary,item)
if len(summary) != 0:
sum1 = summary[0].replace("。","")
data1.append(sum1)
else:
data1.append(" ")
pf = re.findall(findPingfen,item)[0]
data1.append(pf)
num = re.findall(findNumber,item)[0]
data1.append(num)
datalist.append(data1)
print(datalist)
return datalist
#得到一个指定URL的网页的内容
def askURL(url):
head = {
#模拟浏览器头部信息,向豆瓣服务器发送消息
"User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 94.0.4606.81Safari / 537.36"
}
# 用户代理目的是告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)
request = urllib.request.Request(url,headers=head)
html = ""
try:
responce = urllib.request.urlopen(request) #用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果
html = responce.read().decode('utf-8')
#print(html)
except urllib.request.URLError as e:
if hasattr(e,"code"):
# print(e.code)
pass
if hasattr(e,"reason"):
pass
#print(e.reason)
return html
# 保存数据
def saveData(savePath):
pass
if __name__ == '__main__':
main()
|