IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> JavaScript知识库 -> 快手视频以及评论获取 -> 正文阅读

[JavaScript知识库]快手视频以及评论获取

需要安装的第三方库

requests、json、xlwt

第一步:

? ? ? ? 进入快手网页版并登录,找到需要下载的视频用户,并进入主页,按F12进入开发者模式。刷新并点击XHR类型:

?

第二步:?

? ? ? ? 左侧Name下的graphql就是储存用户以及视频的地方,顺序不一定,但大多数的视频信息储存在第二个graphql中

?????????点击Preview就可以看到视频的信息,既然找到了,我们只需把它弄出来。但是我们发现每个graphql返回的url是相同的,所以我们不能用.get方法获取任何信息。因此,我们需要向url中传递一定的信息,才能返回我们需要的东西? ?

? ? ? ? ?而我们所需要传递的信息都在graphql的headers中(最底下)

?

?

? ? ? ? !!!cookie的值需要登录后获取

#头部信息
headers = {
    "Cookie":"",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}
#向浏览器传递的信息
post = {
    "operationName":"visionProfilePhotoList",
    "variables":{
        "userId":userId,
        "pcursor":pcursor,
        "page":"profile"
    },
    "query":"query visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {\n  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {\n    result\n    llsid\n    webPageArea\n    feeds {\n      type\n      author {\n        id\n        name\n        following\n        headerUrl\n        headerUrls {\n          cdn\n          url\n          __typename\n        }\n        __typename\n      }\n      tags {\n        type\n        name\n        __typename\n      }\n      photo {\n        id\n        duration\n        caption\n        likeCount\n        realLikeCount\n        coverUrl\n        coverUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrl\n        liked\n        timestamp\n        expTag\n        animatedCoverUrl\n        stereoType\n        videoRatio\n        profileUserTopPhoto\n        __typename\n      }\n      canAddComment\n      currentPcursor\n      llsid\n      status\n      __typename\n    }\n    hostName\n    pcursor\n    __typename\n  }\n}\n"
}

????????在这里有一个问题,就是原网页中的query中含有:??? ?代表的意思就是换行。

query visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {?  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {?    result?    llsid?    webPageArea?    feeds {?      type?      author {?        id?        name?        following?        headerUrl?        headerUrls {?          cdn?          url?          __typename?        }?        __typename?      }?      tags {?        type?        name?        __typename?      }?      photo {?        id?        duration?        caption?        likeCount?        realLikeCount?        coverUrl?        coverUrls {?          cdn?          url?          __typename?        }?        photoUrls {?          cdn?          url?          __typename?        }?        photoUrl?        liked?        timestamp?        expTag?        animatedCoverUrl?        stereoType?        videoRatio?        profileUserTopPhoto?        __typename?      }?      canAddComment?      currentPcursor?      llsid?      status?      __typename?    }?    hostName?    pcursor?    __typename?  }?}?

????????如果这样输入的话就会报错,因此我们可以用字符串的.replace方法(或者自己一个一个换)将"?"替换成"\n"。

str = "query visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {?  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {?    result?    llsid?    webPageArea?    feeds {?      type?      author {?        id?        name?        following?        headerUrl?        headerUrls {?          cdn?          url?          __typename?        }?        __typename?      }?      tags {?        type?        name?        __typename?      }?      photo {?        id?        duration?        caption?        likeCount?        realLikeCount?        coverUrl?        coverUrls {?          cdn?          url?          __typename?        }?        photoUrls {?          cdn?          url?          __typename?        }?        photoUrl?        liked?        timestamp?        expTag?        animatedCoverUrl?        stereoType?        videoRatio?        profileUserTopPhoto?        __typename?      }?      canAddComment?      currentPcursor?      llsid?      status?      __typename?    }?    hostName?    pcursor?    __typename?  }?}?"
str_end = str.replace("?",r"\n")

#结果为:
str_end = "query visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {\n  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {\n    result\n    llsid\n    webPageArea\n    feeds {\n      type\n      author {\n        id\n        name\n        following\n        headerUrl\n        headerUrls {\n          cdn\n          url\n          __typename\n        }\n        __typename\n      }\n      tags {\n        type\n        name\n        __typename\n      }\n      photo {\n        id\n        duration\n        caption\n        likeCount\n        realLikeCount\n        coverUrl\n        coverUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrl\n        liked\n        timestamp\n        expTag\n        animatedCoverUrl\n        stereoType\n        videoRatio\n        profileUserTopPhoto\n        __typename\n      }\n      canAddComment\n      currentPcursor\n      llsid\n      status\n      __typename\n    }\n    hostName\n    pcursor\n    __typename\n  }\n}\n"

第三步:

????????通过requests.post方法获取所需要的信息,并用json.loads()方法将返回的信息转化成字典类型,方便信息的获取

FirstUrl = "https://www.kuaishou.com/graphql"

#利用post方法获取网页信息
response = requests.post(url=FirstUrl,headers=headers,json=post)

#利用json方法将返回的信息转化成字典形式
html = json.loads(response.text)

第四步:

? ? ? ??获取视频的url后下载视频并保存在创建的文件夹中

? ? ? ? 创建文件夹:

h = r"F:\快手\\"
if not os.path.exists(h):
    os.mkdir(h)

? ? ? ? 下载视频:

    for url in GET_URL():
        video = requests.get(url).content
        #遍历视频名称列表,将保存的视频与名称对应
        for name in n:
            sum = sum + 1
            #打开创建的文件并写入
            with open(h+name+".mp4","wb") as f:
                f.write(video)
                #判断下载是否成功
                if True:
                    print("第"+str(sum)+"个下载成功!")
                else:
                    print("第"+str(sum)+"个下载失败!")
            #for name in n: 每次都会从列表n的第一个开始遍历,因此每下载一个,删除列表n的第一个值(确保每次能遍历到不同的名称)
            n.pop(0)
            #下载完成后跳出此循环,进行下一个的下载
            break

第五步:

? ? ? ? 获取评论内容(有评论内容以及评论回复,这里不细说,稍后源代码奉上)

? ? ? ? 评论同样储存在graphql中,但是我们需要随便点开一个视频,于是就有新的graphql弹出来:

? ? ? ? ?利用与获取视频信息相同的方法获取评论信息即可,在这里只给大家看一下需要向url传递的信息,传递信息后用post方法获取评论信息,同样用json处理返回的信息并获取。

?源代码如下:

#------快手信息获取------
#coding=utf-8
import time
import requests
import os
import json
import xlwt

userId = input("请输入userID:")
pcursor = input("请输入pcursor:")
page = input("请输入excal刷新识别数(整数):")
#创建或打开文件夹

h = r"F:\快手\\"
if not os.path.exists(h):
    os.mkdir(h)

#头部信息
headers = {
    "Cookie":"kpf=PC_WEB; kpn=KUAISHOU_VISION; clientid=3; did=web_59821def1ca2acde8067d80822b7f86c; userId=2428747385; kuaishou.server.web_st=ChZrdWFpc2hvdS5zZXJ2ZXIud2ViLnN0EqABWIlXaYvq9DAtGoNKdgI3WBoWkDqkXMVZ1hOBmFke5aNG334pxKwEWXzRfHz1GvxeJtARKibURbo6S4PxirLF8n4XrsSLhon9VdfFjn35p7eyINL8GRFCeMd1wUhIFxxhk-LXkSwmwN1_lZnwnfAMlgimCPn7ZLqYJts9RxNxBrQg80cHSPYLIF2yIqkB2HtKsNhsJOZ0eBsIM204FwWRMRoScSev-lUTUQRM3QfVIiGGGpa1IiBFlVxlny2X_A6IIUiaC3mEBwsRlhIvfYUmU8M2OERVeygFMAE; kuaishou.server.web_ph=e882275ed97aff8bc584a342599794b5ad0d",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}
#向浏览器传递的信息
post = {
    "operationName":"visionProfilePhotoList",
    "variables":{
        "userId":userId,
        "pcursor":pcursor,
        "page":"profile"
    },
    "query":"query visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {\n  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {\n    result\n    llsid\n    webPageArea\n    feeds {\n      type\n      author {\n        id\n        name\n        following\n        headerUrl\n        headerUrls {\n          cdn\n          url\n          __typename\n        }\n        __typename\n      }\n      tags {\n        type\n        name\n        __typename\n      }\n      photo {\n        id\n        duration\n        caption\n        likeCount\n        realLikeCount\n        coverUrl\n        coverUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrls {\n          cdn\n          url\n          __typename\n        }\n        photoUrl\n        liked\n        timestamp\n        expTag\n        animatedCoverUrl\n        stereoType\n        videoRatio\n        profileUserTopPhoto\n        __typename\n      }\n      canAddComment\n      currentPcursor\n      llsid\n      status\n      __typename\n    }\n    hostName\n    pcursor\n    __typename\n  }\n}\n"
}

FirstUrl = "https://www.kuaishou.com/graphql"

#利用post方法获取网页信息
response = requests.post(url=FirstUrl,headers=headers,json=post)

#利用json方法将返回的信息转化成字典形式
html = json.loads(response.text)
#获取第一层(字典类型)
First_message = html.get("data")
#获取第二层(字典类型)
Second_message = First_message.get("visionProfilePhotoList")
#获取第三层(列表类型)
Third_message = Second_message.get("feeds")

#遍历列表,将列表拆开

#获取视频名称
def GET_NAME():
    a = 1
    Name_list = []
    for Onemessage in Third_message:
        Get_Video_name = Onemessage.get("photo")
        One_name = Get_Video_name.get("caption")

        # 因为视频名称中有换行,识别不了,所以用replace方法将"\n"替换成任意字符
        One_name_1 = One_name.replace("\n", "")

        #视频名称查重,若重复则会覆盖上一个已经下载的视频
        if One_name_1 not in Name_list:
            Name_list.append(One_name_1)
        else:
            Name_list.append(One_name_1+str(a))
        a = a+1
    return Name_list

#获取视频链接
def GET_URL():
    #创建空列表,将得到的url存放进去
    Url_list = []

    for Onemessage in Third_message:
        Get_url = Onemessage.get("photo")
        Url = Get_url.get("photoUrl")
        Url_list.append(Url)
    #返回得到的url列表
    return Url_list

#下载视频
def Download_video():
    #设置计数器
    sum = 0

#用n接收GET_NAME,防止每次遍历都从头开始
    n = GET_NAME()

    #遍历循环列表中的url,用get方法获取信息
    for url in GET_URL():
        video = requests.get(url).content
        #遍历视频名称列表,将保存的视频与名称对应
        for name in n:
            sum = sum + 1
            #打开创建的文件并写入
            with open(h+name+".mp4","wb") as f:
                f.write(video)
                #判断下载是否成功
                if True:
                    print("第"+str(sum)+"个下载成功!")
                else:
                    print("第"+str(sum)+"个下载失败!")
            #for name in n: 每次都会从列表n的第一个开始遍历,因此每下载一个,删除列表n的第一个值(确保每次能遍历到不同的名称)
            n.pop(0)
            #下载完成后跳出此循环,进行下一个的下载
            break


def Get_realLikeCount():
    for datas in Third_message:
        Up_realLikeCount = datas.get("photo")
        #遍历获取每一条视频的点赞数量
        realLikeCount = Up_realLikeCount.get("realLikeCount")


def Get_comment():
    headers_comment = {
        "Cookie": "kpf=PC_WEB; kpn=KUAISHOU_VISION; clientid=3; did=web_59821def1ca2acde8067d80822b7f86c; userId=2428747385; kuaishou.server.web_st=ChZrdWFpc2hvdS5zZXJ2ZXIud2ViLnN0EqABtI4bLUUjuMfNUEUaJXTxyRhtz5BDihYiVIwEfIm8ob0Tlb_wzKD7jpTK_sNDa9fBXVWbVX44OsbnSRsLW7IHwIY3LtBnPg-la24sXJ4B3QZXclUYyNNq-SFVmNC1ebXGV5_JusHsiNdwTcnmY_RAXUAzUoTjD3hNyeH9X7WP2h_mIofS3ifv-TEYybfVD35nh9G8UyBSfzKPLMcrDlyXIhoS7YoRGiN2PM_7zCD1Dj9m5oYoIiB9s5tmCfcl6X3tJNcAP9-YUs951NH3q3Vo1DE_E6PwVygFMAE; kuaishou.server.web_ph=7e511b27f7813874f11702ed1d7d0b73df13",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
    }
    #创建空列表用来存储所获取的信息
    First_list_names = []
    First_list_texts = []
    First_comment_distribution = []
    Second_comment_distribution = []

    #遍历获取信息
    for s in Third_message:
        commentCount_url_1 = s.get("photo")

        #获取评论所在的url  id
        commentCount_url = commentCount_url_1.get("id")
        post_comment = {
            "operationName": "commentListQuery",
            "variables": {
                "photoId": commentCount_url,
                "pcursor": ""
            },
            "query": "query commentListQuery($photoId: String, $pcursor: String) {\n  visionCommentList(photoId: $photoId, pcursor: $pcursor) {\n    commentCount\n    pcursor\n    rootComments {\n      commentId\n      authorId\n      authorName\n      content\n      headurl\n      timestamp\n      likedCount\n      realLikedCount\n      liked\n      status\n      subCommentCount\n      subCommentsPcursor\n      subComments {\n        commentId\n        authorId\n        authorName\n        content\n        headurl\n        timestamp\n        likedCount\n        realLikedCount\n        liked\n        status\n        replyToUserName\n        replyTo\n        __typename\n      }\n      __typename\n    }\n    __typename\n  }\n}\n"
        }

        #用post方法返回评论所在网页的信息
        response_comment = requests.post(url=FirstUrl,headers=headers_comment,json=post_comment)

        #用json方法将得到的信息处理成字典形式,再用.get方法获取信息
        comment_html = json.loads(response_comment.text)
        comment_text_1 = comment_html.get("data")
        comment_text_2 = comment_text_1.get("visionCommentList")
        comments = comment_text_2.get("rootComments")

        #将每个视频的评论数储存在列表中
        First_comment_distribution.append(len(comments))
        #遍历获取评论的用户名以及评论信息
        for comment in comments:
            First_comment_name = comment.get("authorName")
            First_comment_text = comment.get("content")
            comment_second_text = comment.get("subComments")

            #将得到的信息储存
            First_list_names.append(First_comment_name)
            First_list_texts.append(First_comment_text)

            #获取每条评论的回复数量
            Second_comment_distribution.append(len(comment_second_text))
            #创建空列表储存评论回复的信息
            Second_list_names = []
            Second_list_texts = []

            #遍历获取评论回复信息
            for comment_second in comment_second_text:
                Second_comment_name = comment_second.get("authorName")
                Second_comment_text = comment_second.get("content")

                #储存回复信息
                Second_list_names.append(Second_comment_name)
                Second_list_texts.append(Second_comment_text)
    #将得到的所有信息返回
    return First_list_names,First_list_texts,Second_list_names,Second_list_texts,First_comment_distribution,Second_comment_distribution


def Write_excal():
    write_type = list(Get_comment())
    write_name = write_type[0]
    write_text = write_type[1]
    write_lists = []
    for i in range(len(write_name)):
        write_lists.append(write_name[i])
        write_lists.append(write_text[i])
    n = 2
    for p in range(0, len(write_lists), n):
        write_list = write_lists[p:p + n]
    write_list_end = [write_lists[p:p + n] for p in range(0, len(write_lists), n)]

    file = xlwt.Workbook()
    sheet1 = file.add_sheet(u'评论信息', cell_overwrite_ok=True)
    rowTitle = [u'编号', u'用户名称', u'评论信息']

    rowDatas = write_list_end
    for j in range(len(rowTitle)):
        sheet1.write(0, j, rowTitle[j])
    for k in range(len(rowDatas)):
        rowDatas[k].insert(0, k + 1)
        for y in range(len(rowDatas[k])):
            sheet1.write(k + 1, y, rowDatas[k][y])
    file.save("F:\python爬虫\爬虫实战\快手\ "+"快手评论"+str(page)+".xlsx")

def Pr_output():
    prtype = list(Get_comment())
    # 一层评论用户名称
    First_names = prtype[0]
    # 一层评论内容
    First_texts = prtype[1]
    # 二层评论用户名称
    Second_names = prtype[2]
    # 二层评论内容
    Second_texts = prtype[3]
    # 二层评论分布
    Second_nums = prtype[5]
    # 一层评论分布
    sums = prtype[4]
    #创建空列表储存"每一条"视频的评论以及用户名称信息
    c = []
    d = []

    #借助sums(一层评论分布)将每一个视频的评论划分开
    for i in sums:
        '''用切片方法截取每一条视频的评论以及名称
        为了防止重复遍历,将之前遍历过的用del方法删除
        将得到的信息储存在创建的列表中'''
        c.append(First_texts[0:i])
        del First_texts[0:i]
        d.append(First_names[0:i])
        del First_names[0:i]
    for j in range(len(GET_NAME())):
        #获取每一条视频的每一个评论以及用户名
        names = d[j]
        texts = c[j]

        #判断评论是否为空,这里用names与texts都可以,他们俩是一一对应的
        if names != []:
            print("第" + str(j + 1) + "个作品的评论如下:")

            #遍历输出每一个评论以及所对应的用户名
            for k in range(len(names)):
                print(names[k] + ":  " + texts[k])
                #利用Second_nums的数值判断每一个评论下是否含有回复,值为几则含有几个回复
                for s in Second_nums:
                    if s == 0:
                        print("    评论无回复")

                    else:
                        #用x限制输出的回复数量(输出的数量需要与Second_nums的值对应)
                        x = 0
                        #遍历输出回复的用户名称与回复的信息
                        for r in range(len(Second_texts)):
                            print("    评论回复-" + "用户名称:" + Second_names[r] + "    评论信息:" + Second_texts[r])
                            x = x + 1
                            #当输出的数量等于Second_nums对应的值时,跳出循环
                            if x == Second_nums[0]:
                                break
                        #用del删除之前输出过的信息防止重复遍历
                        del Second_texts[0:x]
                        del Second_names[0:x]
                    #更新Second_nums值的信息(删除之间遍历过的第一个值,并跳出循环,让循环重新看开始)
                    Second_nums.pop(0)
                    break

        else:
            print("第" + str(j + 1) + "个作品无评论")

        print("\n")


if __name__ == '__main__':
    #设置程序开始的时间
    start = time.perf_counter()
    #调用函数
    GET_NAME()
    GET_URL()
    print("开始下载视频".center(100, "-"))
    Download_video()
    print("下载结束".center(100, "-"))
    print("\n")

    #设置程序暂停两秒后运行
    time.sleep(2)
    Get_comment()
    print("输出评论信息".center(100, "-"))
    Pr_output()
    print("输出结束".center(100, "-"))
    print("\n")

    print("正在生成excal".center(100,"-"))
    Write_excal()
    print("excal生成结束".center(100,"-"))

    #计算程序运行的总时间
    t = time.perf_counter() - start

    print("总共用时:{:.2f}秒".format(t))

?说明:

????????一个graphql中能够获取的视频信息是有限的,若作者视频较多,则需要将页面向下滑动,刷新出新的视频,graphql也会随之出现,利用同样的方法即可获取。评论也是如此!

????????

  JavaScript知识库 最新文章
ES6的相关知识点
react 函数式组件 & react其他一些总结
Vue基础超详细
前端JS也可以连点成线(Vue中运用 AntVG6)
Vue事件处理的基本使用
Vue后台项目的记录 (一)
前后端分离vue跨域,devServer配置proxy代理
TypeScript
初识vuex
vue项目安装包指令收集
上一篇文章      下一篇文章      查看所有文章
加:2021-12-07 11:56:25  更:2021-12-07 11:56:33 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 8:26:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码