?查看自己安装的chrome版本对应到chromedriver官网去找对应版本的chromedriver【通过点击chrome浏览器右上角进入帮助--关于chrome可以查看版本号】
或输入网址可查看版本:chrome://version/
selenium浏览器爬虫:
官网下载:ChromeDriver - WebDriver for Chrome - Downloads
或?ChromeDriver Mirror
出现乱码问题:name.encode("utf-8").decode("gbk")
使用json解析可以获得清晰地格式来获取数据:https://www.json.cn/json/jsoncompare.html
当使用lxml中的etree报错时:
from lxml import etree
selector = etree.HTML(text)
报错module 'lxml.etree' has no attribute 'xpath'
from lxml import html
selector = html.etree.HTML(text)
使用xpath获取完整的数据各个模块下的数据合在一起:
data = html.xpath('//div[@class="a"]')
alltext = data.xpath('string(.)')
读写到csv
import csv
csvFile = open("csvData.csv", "w") #创建csv文件
writer = csv.writer(csvFile) #创建写的对象
#先写入columns_name
writer.writerow(["index","a_name","b_name"]) #写入列的名称
#写入多行用writerows #写入多行
writer.writerows([[1,a,b],[2,c,d],[3,d,e]])
csvFile.close()
读取csv文件报错:
text = open(url, encoding='utf-8', errors='ignore' )
data = pd.read_csv(text,encoding='utf_8_sig')
基础储备:
学爬虫利器XPath,看这一篇就够了_a417197457的博客-CSDN博客https://blog.csdn.net/a417197457/article/details/81143112
数据使用:https://blog.csdn.net/BAZHUAYUdata/article/details/101051847https://blog.csdn.net/BAZHUAYUdata/article/details/101051847
|