| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> SDTF--用户画像--进度 -> 正文阅读 |
|
[大数据]SDTF--用户画像--进度 |
整个用户画像(UserProfile)项目中,数据、业务及技术流程图如下所示 文章目录12-181.网站用户数据获取 需要什么样的数据源 数据源从哪里来 网站数据导出为–txt文件
麻了 jyputerlab 上通过csv库进行读取,再遍历,后进行合并:
1.3
apache日志
①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等); 数据源层 RDBMS关系数据库管理系统(Relational Database Management System:RDBMS) 是指包括相互联系的逻辑组织和存取这些数据的一套程序 (数据库管理系统软件)。关系数据库管理系统就是管理关系数据库,并将数据逻辑组织的系统。 HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 创建表单数据源log文件Users.sql导出数据:
3.4 进度mysql 启动方式 cmd
配置GUI界面 Datagrip安装配置 log 数据分析一个好用的文献 日志数据的介绍日志数据通常用纯文本文件记录用户的访问记录。每条日志文件记录的格式通常为 date time/ 选取日志挖掘用到的7个数据进行分析,分别为date time(日期时间)、c-ip(用户IP)、s-port(服务器端口)、cs-method(请求方法)、cs-uri-stem(访问的URL)、sc-staus(应答状态)和cs-uri-stem(用户代理)。 我们的数据 解析一下:
用户画像技术建模用户画像技术模型分为数据采集、数据预处理、数据挖掘、用户画像和群体画像5个模块。系统总流程如图 1所示。 第1步—数据源获取通过用linux宝塔下载的的Web日志建立原始数据库。把数据提取行,导入mysql第2步—数据预处理首先通过后缀处理、方法过滤、状态码过滤和冗余处理等方法对日志数据进行清洗。 进而通过日志中IP的识别和操作系统的识别来辨别用户身份的唯一性。 然后使用网络爬虫获取每条URL所对应的网页文本,并对获取的原始文本进行分词、去停用词等预处理操作。 第3步----提取用户的属性特征。通过改进后的TF-IDF算法计算词特征值,将特征值最高的词作为网页文本的关键词。通过K近邻(K nearest neighbor,KNN)文本分类算法对网页文本进行主题归类。 改进—直接按照分区选取关键词 通过提取用户访问页面后的关键词,获得网页的内容主题,进而作为用户的兴趣属性标签。并根据“性格-主题-关键词”模型对用户的性格进行深度预测,获得用户性格属性标签。结合用户识别,对用户进行画像。拥有外倾性、开放性、宜人性和尽责性的用户将被贴上“优良人格”的性格属性标签,对拥有神经质和不良关键词的用户将被贴上“危险人格”的性格属性标签。例如: 输入:111.192.165.229—[19/Sep/2013:06:06:39+0000]“GET/js/google.jsHTTP/1.1“3040” http://blog.fens.me/?p=2445&preview=true“”Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36”。 输出:ID:111.192.165.229;兴趣属性标签:科技; 找code— code |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 9:38:12- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |