| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> NLP 实战(12): AI小组2022半年小结 -> 正文阅读 |
|
[人工智能]NLP 实战(12): AI小组2022半年小结 |
AI小组半年研发分析,思考,回顾。 改进:CSDN 统一标签标签体系是数据分类的基础之一。我们持续在统一标签上进行改进
构建:CSDN 质量分需求:Web发展到今天,一个特征是内容爆炸,已经出现“worse is better”的逆淘汰现象,也就是劣币驱逐良币。对于用户来说就是内容很多,但是找到的内容质量整体在下降。 解决:我们从衡量博文质量的角度出发,设计并实现了一套有效的博文质量评分机制。 基本原理是很简洁的,两个部分的公式就可以概括:
难的地方在于工程细节,包含:
这是一个良币驱逐劣币的过程:
很多人忙于制造各种低质量的数据,我们在重视内容数据的质量,内容数据质量的治理是一个长期的工作,这只是起了一个头。近期我们会在 CSDN指数 页面提供独立的质量分查询入口。 打造:CSDN 每天值得看(极客日报)需求:我们希望将CSDN每天值得看的数据筛选出来,同时能和用户便利而直接的讨论、交流、打赏互动等,快速地迭代。 解决: 我们构建了极客日报社区 通过快速迭代实验了一系列的数据策略。
有一个需要和BI区分的是
在持续的快速迭代中,我们也从中提取了有效的算法和策略用在了其他地方。
一些实验性尝试则还需要进一步的迭代。
数据智能不单是算法,更是一个系统,一个带有反馈循环的自动化系统,从数据出发,需要的是一整套完整的反馈循环。
总的来说,基于极客社区,我们逐渐在理解一些重要的问题:
直面这些问题,不放过细节,寻找逻辑上的链条,如果我们在小数据上验证成功了,那么它又可伸缩性么?放大后的变化曲线是线性还是其他的呢?有时候,我们需要大量一手的“人工智能”,花苦功夫理解数据:NLP 实战(11): CSDN Daily,兼谈技术写作的问题。 实验:基于意图识别的1-2轮回复我们悄悄做了一组机器人实验。本着朴素的思考,我们认为做通用的多轮回答机器人没戏。于是我们从最简单的意图识别开始,意图识别后,不是给用户推送广告,而是给引导用户真正获得学个知识或者问个问题。目前大概有10%左右的进入2轮对话。 基于学习用户画像,该项目还在持续迭代优化中。我们认为一个自然人用户,是不同场景的不同用户。例如针对学习场景来说,一个人是否是学习目标用户。在学习的场景中,每个人都在学习状态机的某一个状态,这个是动态变化的。如果我们建立起有效的学习状态机,根据情景的上下文就能动态的刻画学习者的状态。那么,我们就能有效的帮助用户获得真正需要的学习知识。 问答:减少重复问题和辅助回答技术开发中的长尾问题是很多的,如何有效减少重复问题是我们的努力之一。采用基于语义匹配的模型,在问答里,当识别到用户提出的问题和以往的问题有高度相似性时,如果已解决的问题直接就解决了用户的提问,那么就减少了一次重复提问。目前能做到8%左右的采纳率。 有一类问题,它提出的问题事实上在博文里是有相关的博文能解决用户的问题的,或者某一些文档的参考资料能解决问题。我们构建高质量博文+知识图谱库,基于这些数据驱动来做1轮回答。目前还在迭代。 学习:技能树数据和管道的持续构建海量的长尾数据,用户只能通过搜索和碎片方式来学习。逐渐地有很多各种各样的课程,但是如果课程本身又很多,又会变成大海捞针,回归到通过搜索和碎片式的方式学习。构建开放的技能树,聚集确定性的知识,让同主题学习发生。其中技能树的构建也是一种先验知识的构建,我们陆续和开放社区一起在原来的基础上,持续构建了 网络技能树、CUDA技能树、云原生技能树、Vue技能树,即将到来的还有 面向对象入门技能树、游戏开发入门技能树、MySQL技能树…如果你有对某一个领域的系统的知识,有希望帮助到更多的开发者构建知识体系的热情,欢迎一起来技能森林参与构建:https://gitcode.net/csdn/skill_tree 而管道工具上,将多种异构的外部和内部数据源系统统一在数据层,提供一致的接口和服务。 热榜:有效的策略我们对热榜和领域榜的实现进行了深入的分析和验证。将在极客社区里 CSDN每天值得看 实验获得的经验用在了热榜的改进上。 核心的改进是
我们解决了卫生问题后,往下走就可以逐渐构建创新的功能点,想象和创建让用户眼前一亮的数据智能。 小结数据要体现出智能,事实上是一个系统构建的工作。我们要理解数据、理解算法、理解自动化系统、理解产品和运营。最后你会发现它事实上还是要理解程序:什么是有效的正向反馈系统。在这里面,算法是精确定位的基础,数据体系是效解决长尾问题的根本,自动化系统是泵,终端和触达则是智能系统的硬件。不是为了堆砌名词,而是当我们说数据智能的时候,要想清楚智能在哪里。我们会持续在CSDN学习和全站数据上都做好每一个数据智能。 –end– |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 2:38:13- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |