一般主要是处理国家: 1、所有国家字段: 1)按照[分列C1字段; 2)提取所有国别公式:
=IF(B1="","",IFERROR(MID(F2,FIND("@",SUBSTITUTE(F2,",","@",LEN(F2)-LEN(SUBSTITUTE(F2,",",""))))+1,LEN(F2)),""))
之前只提取国家,有空白后就会停掉,if函数可以直接去掉空白,不用一个个去下拉空白区域了; 3)
=IF(A2<>"",A2&",","")&IF(B2<>"",B2&",","")
4)把数据组合成 20=[“Germany”,“Peoples R China”,“Peoples R China”,“Germany”,“Germany”,“Peoples R China”,“USA”] print(list(set(20))) 就会变为去重后的数据,例如: a=[“1”,“3”,“4”,“2”,“3”] 会变为: a=[“1”,“2”,“3”,“4”] 4)统计多行多列中非重复国别 方法一:
=INDIRECT(TEXT(MIN((COUNTIF(E$1:E1,$A$2:$C$5)+(A$2:C$5<=""))/1%%+ROW(A$2:C$5)/1%+COLUMN(A$2:C$5)),"r0c00"),)&""
方法二: 数据透视表——多重合并计算数据区域 5)计算每种期刊不同国别出现频次:
=COUNTIF(F1:Y10529,Z2)
依次计算出所有期刊的国家频次 妈蛋,所以还是要学编程,学理清楚逻辑关系,否则多几个期刊,这数据咋处理?一个个套么? 虽然知道python可以读取excel数据,也有很多方法去重,但目前好像这种方式对我理解起来最简单,下一步再看吧。
|