最近学会一个非常好用的包,用来爬取网页,做一个记录
1 在windows10使用selenium爬取KEGG网页
需要的环境:
- 安装chrome和chromedriver(安装需要的浏览器,这里以Chrome为例;安装对应版本的chromedriver;加入环境变量;下面做详细说明)
- 安装selenium包(打开cmd;pip install selenium)
1.1 安装必要的包和软件
1.1.1 安装chromedriver
找到Chrome的版本号,在https://chromedriver.chromium.org/downloads下载对应的chromedriver。 解压到Chrome的安装目录,见下图。
将以上两个软件加入环境变量。若加入成功,在cmd界面运行chrome
1.2 实例(爬取KEGG网页的KEGG Pathway)
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.kegg.jp/kegg/')##输入需要爬取的网页网址
按Ctrl+Shift+i打开开发者模式,按照下图顺序找到我们需要的KEGG PATHWAY的链接
link = driver.find_element_by_link_text('KEGG PATHWAY')##根据链接文本找到链接元素
link.click()##点击链接跳转到新的页面,见下图
html_source = driver.page_source##获取新网页的源代码
print(html_source)##见下图
参考: https://www.geeksforgeeks.org/find_element_by_link_text-driver-method-selenium-python/ https://blog.csdn.net/xhaimail/article/details/105435794 https://chromedriver.chromium.org/downloads
|