[人工智能] R语言复习笔记（4）High Dimentional Visualization and Analysis

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> R语言复习笔记（4）High Dimentional Visualization and Analysis -> 正文阅读

[人工智能]R语言复习笔记（4）High Dimentional Visualization and Analysis

week 4
1 Movie rating data
1.1 Data precossing
在这里插入图片描述
1.2 Data input and IDA

1.3 Hierarchical clustering

hclust()： Hierarchical 聚类，method分3种：complete，single，average
在这里插入图片描述
cutree()： 将tree型结构进行剪枝，k是按组的个数剪枝，h是按tree的高度剪枝。

which如何赋值：
注意which赋值前，应该用as.matrix转换成matrix，再赋值

1.6 Kmeans

table()： 建立不同因子的个数统计值。
kmeans()： Kmeans聚类方法，centre可以是k，也可以是中心点。
在这里插入图片描述

prcomp()： pca的方法，注意scale=T
关于画图：
要画图，注意先转成dataframe
label这里要用factor
col不能放在外面，只有放在里面才会按label分类

1.7 Cluster statistics
在这里插入图片描述
lapply和sapply的区别： sapply返回一个list，lapply返回一个2维list。
tot.withinss： 分组总和，sum(withinss)
betweenss： 组间的平方和，totss – tot.withinss
寻找他们两个的平衡点，应该是最好的k

2 Author by word count
2.1 Data Input
在这里插入图片描述

2.2 PCA 在这里插入图片描述

2.3 t-SNE
在这里插入图片描述
t-SNE t分布随机邻域嵌入是一种用于探索高维数据的非线性降维算法。
Rtsne： 注意里面的perplexity混乱程度，可以调，默认dims是2维。要取Y的值，才是取得pca。
要画图先转data frame
ggplot加标题是ggtitle。
一起画图是用的lapply函数
在这里插入图片描述
2.4 MDS