week 4 1 Movie rating data 1.1 Data precossing 1.2 Data input and IDA 1.3 Hierarchical clustering
hclust(): Hierarchical 聚类,method分3种:complete,single,average cutree(): 将tree型结构进行剪枝,k是按组的个数剪枝,h是按tree的高度剪枝。 which如何赋值: 注意which赋值前,应该用as.matrix转换成matrix,再赋值 1.6 Kmeans table(): 建立不同因子的个数统计值。 kmeans(): Kmeans聚类方法,centre可以是k,也可以是中心点。 prcomp(): pca的方法,注意scale=T 关于画图: 要画图,注意先转成dataframe label这里要用factor col不能放在外面,只有放在里面才会按label分类
1.7 Cluster statistics lapply和sapply的区别: sapply返回一个list,lapply返回一个2维list。 tot.withinss: 分组总和,sum(withinss) betweenss: 组间的平方和,totss – tot.withinss 寻找他们两个的平衡点,应该是最好的k 2 Author by word count 2.1 Data Input
2.2 PCA
2.3 t-SNE t-SNE t分布随机邻域嵌入是一种用于探索高维数据的非线性降维算法。 Rtsne: 注意里面的perplexity混乱程度,可以调,默认dims是2维。要取Y的值,才是取得pca。 要画图先转data frame ggplot加标题是ggtitle。 一起画图是用的lapply函数 2.4 MDS
构建不同方法的distance cmdscale(): 构建mds 这里主要要修改attr,方便之后的method绘图 2.5 Compare and contrast
|