对于很多机器学习论文, 实验部分占据了论文一半的篇幅.
一. 数据集信息
- 数据集越多, 覆盖领域越广, 结果就越可信. 从软件测试的角度也是如此.
在多数情况下, 12 至 20 个公开数据集就足够了. 然而, 对于一些领域和问题而言, 数据集却非常珍贵. 可以使用人造数据集, 或者数据集随机采样成多个, 来缓解该问题. - 数据集大些更好. 如果是结构化数据, 有
1
0
4
10^4
104 个样本和 100 个属性就比较好. 否则, 审稿人就会说你使用了玩具数据集.
- 获取自己主要参考文献中的数据, 有利于进行比较. 你甚至不需要把他们的方案实现. 在一些领域如图像和视觉, 会有一些专门的数据集供大家测试.
- 要么获得对比算法的源码, 要么实现它们. 由于使用平台不同, 数据采样不同, 有时候你重现别人的实验, 会发现结果不大一致. 如果没有特别的原因, 就使用自己实现的版本.
- 同一结果不应该在图和表中同时出现, 这样就重复了. 你只有选择更为合适的方式.
Table 1. Dataset information.
Dataset |
∣
U
∣
\vert U \vert
∣U∣ |
∣
C
∣
\vert C \vert
∣C∣ | Area |
r
t
rt
rt | q |
---|
Seeds | 210 | 8 | Life | 0.19 | 0.1 | Thyroid | 215 | 6 | Life | 0.25 | 0.1 | Flame | 240 | 3 | Synthetic | 0.1 | 0.1 | Heart | 270 | 14 | Life | 0.05 | 0.1 | Spiral | 312 | 3 | Synthetic | 0.3 | 0.1 | Ionosphere | 350 | 35 | Physical | 0.04 | 0.1 | R15 | 600 | 3 | Synthetic | 0.2 | 0.1 | DLA0.01 | 1,540 | 18 | Society | 0.1 | 0.05 | USps | 2,200 | 257 | Image | 0.2 | 0.05 | Waveform | 5,000 | 22 | Physical | 0.1 | 0.1 | Credit | 5,987 | 66 | Financial | 0.35 | 0.1 | Twonorm | 7,400 | 21 | Synthetic | 0.3 | 0.1 |
Table 1 列出了一篇论文的数据信息. 其中:
- 使用了人工与真实数据集.
- 数据来自于不同领域.
- 列出了主要参数设置.
二. 自问自答模式
实验的主要目的是回答一些作者和读者关心的问题. 因此, 我采用自问自答的方式, 在实验之前提出这些问题, 在实验结果列出之后逐个回答它们. 例: 在实验这一节开始的时候 In this section, we report the results of experiments to analyze the effectiveness of the TACS algorithm. Through the experiments, we aim to answer:
- Is the TACS algorithm more accurate than popular supervised classification algorithms?
- Is the TACS algorithm more accurate than popular active learning algorithms?
- Is the TACS algorithm more accurate than single clustering technique based algorithms?
- Can the TACS algorithm select appropriate base clustering techniques?
在列完所有图表之后 Now we can answer the questions proposed at the beginning of this section.
- TACS is more accurate than popular supervised classification algorithms, including C4.5, NB, RF, etc. This is validated by Table 3. Unfortunately, on some datasets such as Ionosphere, it is significantly worse than some other
algorithms such as RF. The reason may be that clustering techniques do not perform well on those datasets. - TACS is more accurate than popular active learning algorithms, including QBC, MAED, and KQBC. This is validated by Table 4. It was also defeated by MAED on the Heart dataset. The reason may be that for some datasets, informative instances are more important than representative ones.
- TACS is more accurate than single clustering technique based algorithms. This is validated by Table 5. It is the best, or the second best one on all datasets.
- In most cases, TACS can find out the appropriate base clustering techniques. This is validated by Table 6.
偶尔有审稿人不喜欢这种风格, 觉得好像给小学生讲题. 万一他要提, 我们改就是了.
三. 内部比较
内部比较的动机包括:
- 展示参数变化所导致的性能变化.
二维图一次只能展示一个参数和一个性能指标. 因此, 如果有很多参数, 就只能讨论最重要的几个, 否则图太多. - 展示主要方案与其变种相比的优势.
有时候我们有好几种可选方案, 通过比较, 可以获得最佳那个. 只有在国内获得冠军, 才出去参加奥运会.
四. 外部比较
外部比较即与已有算法进行对比.
- 需要比较经典方案, 基准方案, 最先进的方案.
- 很多时候使用柱状图.
- 如果数据太多, 用表格就比图合适.
- 如果要把参数影响, 数据集大小影响也表现出来, 就只有用折线图.
- 最重要的比较放在最后.
- 要有足够的文字进行分析, 不能让读者自己去观察.
- 并不需要在所有数据集上击败其它方案.
- 在分析自己方案优势之余, 也应该分析它的劣势, 否则审稿人不干. 因为机器学习的基本规律就是 No free lunch, 即一个方案既然有优点, 就肯定有缺点. 既然有擅长的数据/指标, 也就有不擅长的数据/指标.
|