IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> SDTF--用户画像--进度 -> 正文阅读

[大数据]SDTF--用户画像--进度

整个用户画像(UserProfile)项目中,数据、业务及技术流程图如下所示
在这里插入图片描述

12-18

在这里插入图片描述

1.网站用户数据获取
在这里插入图片描述

需要什么样的数据源

数据源从哪里来

网站数据导出为–txt文件
注册的用户有386个

mysql怎么导入txt文件?

在这里插入图片描述
错误

  • Pandas读取CSV错误:Error tokenizing data. C error: Expected 1 fields in
    line **, saw **

麻了

jyputerlab 上通过csv库进行读取,再遍历,后进行合并:

import pandas as pd
import csv
 
path = '文件所在位置'
 
test = pd.DataFrame()
data = csv.reader(open(path, 'r'))
for d in data:
    # print(d)
    result = pd.DataFrame(d).T
    test = pd.concat([test,result])
test = test.reset_index(drop = True)

1.3

  • 解读

apache日志

# 1-3211.87.152.44- [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1200 899 “http://www.baidu.com/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)

①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);
⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。

数据源层

RDBMS

关系数据库管理系统(Relational Database Management System:RDBMS)

是指包括相互联系的逻辑组织和存取这些数据的一套程序 (数据库管理系统软件)。关系数据库管理系统就是管理关系数据库,并将数据逻辑组织的系统。

Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

在这里插入图片描述

创建表单

在这里插入图片描述

数据源

log文件

Users.sql

导出数据:

select * from users;

在这里插入图片描述

  • 参考

日志分析方法概述 & Web日志挖掘分析的方法

3.4 进度

mysql 启动方式

cmd

cd C:\Program Files\MySQL\MySQL Server 8.0\bin
mysql -u root -p
密码 123456

在这里插入图片描述

配置GUI界面 Datagrip

在这里插入图片描述

安装配置
最新DataGrip2020.2.x破解版激活码的步骤详解(支持Mac/Windows/Linux)

log 数据分析

一个好用的文献

基于Web日志的性格预测与群体画像方法研究

日志数据的介绍

日志数据通常用纯文本文件记录用户的访问记录。每条日志文件记录的格式通常为

date time/
c-ip/
cs-username/
s-ip/
s-port/
cs-method/
cs-uri-stem
/cs-uri-query
/sc-staus cs(user-agent)。

选取日志挖掘用到的7个数据进行分析,分别为date time(日期时间)、c-ip(用户IP)、s-port(服务器端口)、cs-method(请求方法)、cs-uri-stem(访问的URL)、sc-staus(应答状态)和cs-uri-stem(用户代理)。

我们的数据

在这里插入图片描述

解析一下:

用户画像技术建模

用户画像技术模型分为数据采集、数据预处理、数据挖掘、用户画像和群体画像5个模块。系统总流程如图 1所示。

在这里插入图片描述

第1步—数据源获取

通过用linux宝塔下载的的Web日志建立原始数据库。
把数据提取行,导入mysql

第2步—数据预处理

首先通过后缀处理、方法过滤、状态码过滤和冗余处理等方法对日志数据进行清洗。

进而通过日志中IP的识别和操作系统的识别来辨别用户身份的唯一性。

然后使用网络爬虫获取每条URL所对应的网页文本,并对获取的原始文本进行分词、去停用词等预处理操作。

第3步----提取用户的属性特征。

通过改进后的TF-IDF算法计算词特征值,将特征值最高的词作为网页文本的关键词。通过K近邻(K nearest neighbor,KNN)文本分类算法对网页文本进行主题归类。

改进—直接按照分区选取关键词

通过提取用户访问页面后的关键词,获得网页的内容主题,进而作为用户的兴趣属性标签。并根据“性格-主题-关键词”模型对用户的性格进行深度预测,获得用户性格属性标签。结合用户识别,对用户进行画像。拥有外倾性、开放性、宜人性和尽责性的用户将被贴上“优良人格”的性格属性标签,对拥有神经质和不良关键词的用户将被贴上“危险人格”的性格属性标签。例如:

输入:111.192.165.229—[19/Sep/2013:06:06:39+0000]“GET/js/google.jsHTTP/1.1“3040” http://blog.fens.me/?p=2445&preview=true“”Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36”。

输出:ID:111.192.165.229;兴趣属性标签:科技;

找code—

code
互联网日志用户行为分析

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-03-08 22:34:18  更:2022-03-08 22:38:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 9:38:12-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码