真的是自己找点资料好痛苦,这个东西是我自己想出来的,已经验证了可以使用,反正我会一点就立刻发出来一点
from selenium import webdriver
#打开一个浏览器
from selenium.webdriver.common.by import By
import re,time
from urllib.request import urlopen
from bs4 import BeautifulSoup
from lxml import etree
browser = webdriver.Chrome()
#准备一个网址
url = 'http://www.baidu.com'
browser.get(url)
#获取元素
#login = browser.find_element(By.PARTIAL_LINK_TEXT,"新闻").click()
browser.find_element(By.PARTIAL_LINK_TEXT,"新闻").click()
#print(login.find_element_by_tag_name('title'))
#print(login)
f=browser.page_source
def pa(html):
bs = BeautifulSoup(html, 'html.parser') # 解析网页
return bs
def Find(string):
# findall() 查找匹配正则表达式的字符串
url = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', string)
return url
k=Find(f)
#time.sleep(3)
for i in k:
print(i)
正则表达式筛选汉字和title,上面的这个是筛选链接的
提取汉字
importre
def Find(string):
# findall() 查找匹配正则表达式的字符串
url = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', string)
return url
提取标题---可以由它类推到很多
import re
import requests # 导入requests包
strhtml = requests.get('https://www.bilibili.com/video/av70290801?from=search&seid=8276641641400784929') # Get方式获取网页数据
# print(strhtml.text)
print(re.findall(r"<title.*?>(.+?)</title>", strhtml.text))
|