| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 用户画像构建与协同过滤笔记 -> 正文阅读 |
|
[人工智能]用户画像构建与协同过滤笔记 |
本文是对七月在线关于用户画像构建与协同过滤的一个随堂笔记。用户画像部分主要围绕用户画像的核心-文本挖掘、需要哪些用户画像信息、怎么构建这些基本用户画像信息以及倒排索引的案例简单描述展开,协同过滤部分主要是实训内容,需要消化基于用户和基于item的协同过滤改进算法实现。? 目录 推荐系统中最核心的数据之一是 user profile 数据。需要从大量用户历史行为中分析和挖掘各种维度的特征,来刻画用户的兴趣偏好。? 需要怎么的用户画像??? 人口学 ? 内容特征(标签):类别category、主题topic、关键字keyword、实体词entity(属于keyword里更具代表性更细的名词) ????????? 喜欢、不喜欢? ????????? 长期、短期 ?? 协同特征 (主要通过协同过滤算法来找到) ????????相似用户? 用户画像如何构建用户人口学属性:? ????????性别/年龄:(推测依据) ????????????????账号注册 ????????????????人工标注数据+规则+ 模型 ????????????????用户app安装列表/用户行为 ????????????????手机品牌 ????????地域:? ????????????????GPS定位 主要是kaggle的一个用户画像例子。? 用户画像: 核心是做文本挖掘? 信息检索 信息检索中的案例: 倒排索引(可以用作召回) 建倒排索引的步骤:? ? ? todo 倒排索引的代码参考:?https://github.com/matteobertozzi/blog-code/blob/master/py-inverted-index/invindex.py TF-IDF:? 词项频率Tf、 文档频率df ,逆文档频率 idf ? 。根据tf-idf 的排序。? 关键词keywords提取 的做法? 基于统计特征的关键词提取算法 ? 步骤? ????????? 文本经过预处理得到候选词语的集合 ? ? ? ? ? 关键是采用什么样的特征值量化指标的方式? ?? 特征值量化指标? ????????? 基于词权重的特征量化 ????????? 基于词的文档位置的特征量化 ????????? 基于词的关联信息的特征量化 文本主题模型 : ????????算法LDA,简单介绍了下。感觉这个也不是推荐的重点,如果学NLP需要侧重了解。 用户画像中的权重计算:?????????对应关键字等的权重是如何计算的 ????????简述: ? 记录用户曝光点击历史 ? 提取文章相关标签? 曝光且点击加权? 曝光不惦记降权? 热门降权? 按照时间衰减 ? 归一化? ?最基本的TF-IDF算法的权重归类 ?模型召回只是一种召回类别。 时间衰减 (权重需要随着时间进行衰减或增大) ? 牛顿冷却定律数学模型 用户标签:需要考虑多维度多层次? ? 用户长期/短期行为? ????????? 需要分开计算? ????????? 短期行为多采用实时架构? ? 用户精确兴趣/泛化兴趣 其他: 人口学预测:? talkingData的案例? ,根据数据来预测。 看各种数据 data 目录下。?代码直接运行kaggle上别人的代码的,注意sklearn 版本的可能需要更改远程运行的数据目录可能有点点变化,注意用魔术命令查看当前路径和上下环境路径。 协同过滤:? todo 待总结概括成文字?基于改进的物品余弦相似度的推荐
鸣谢:? 七月在线官方课程 https://github.com/matteobertozzi/blog-code/blob/master/py-inverted-index/invindex.py |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/1 12:32:07- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |