第三方库 ?? ?(1)jieba库: ? ? ? ? ? ? ? ? ? ? jieba.luct(s):分割中文词语
? ? ? ? ?(2)beautifulsoup4库: ? ? ? ? ? ? ? ? ? ? 安装:pip install bs4/beautifulsoup4 ? ? ? ? ? ? ? ? ? ? 常用导入方法: ? ? ? ? ? ? ? ? ? ? ? ? ?导入库:from bs4 import BeautifulSoup ? ? ? ? ? ? ? ? ? ? ? ? ?创建对象:soup=BeautifulSoup(文本、网页内容,'html.parser') ? ? ? ? ? ? ? ? ? ? ? ? ?输出网页代码:print(soup.prettify()) ? ? ? ? ? (3)requests库: ? ? ? ? ? ? ? ? ?方法: ? ? ? ? ? ? ? ? ? ? ?r=requests.get('url'):发送请求获取资源对象,并且返回资源对象 ? ? ? ? ? ? ? ? ? ? ?requests.request(代码标签):构造请求 ? ? ? ? ? ? ? ? ? ? ?request.head():获取网页头信息 ? ? ? ? ? ?注意:如果访问失败 ? ? ? ? ? ? ? ? ?r.request.headers:查找本网页的用户代理 ? ? ??? ??? ?测试步骤: ?? ??? ??? ?import requests:导入库 ?? ??? ??? ?r=requests.get('url'):发送并返回请求资源
? ? ? ? ? ? r.status_code
? ? ? ? ? ? r.text
? ? ? ? ? ? r.encoding
? ? ? ? ? ? r.apparent_encoding
? ? ? ? ? ?r.encoding=''utf-8''
? ? ? ? ? ?r.text ? ? ? ? ? ? ? ? ? ? ? ? ?
?
|