绘制度分布是分析网络属性的一个组成部分。该过程从获得
N
k
N_{k}
Nk?开始,即度数为
k
k
k的节点数。这可以通过直接测量或模型来提供。从
N
k
N_{k}
Nk?我们计算出
p
k
=
N
k
/
N
p_{k}=N_{k}/N
pk?=Nk?/N。问题是,如何绘制
p
k
p_{k}
pk?以最好地提取其属性。
??
- 使用log-log图
在无标度网络中,具有一或两条链路的众多节点与少数节点共存,其中少数节点为具有数千甚至数百万链路的节点。使用线性 k 轴压缩无数小k区域中的节点,使它们不可见。类似地,由于
k
=
1
k=1
k=1和大
k
k
k的
p
k
p_{k}
pk?可能存在数量级差异,如果我们在线性垂直轴上绘制
p
k
p_{k}
pk?,大
k
k
k的值将显示为零(图 4.22a)。对数图的使用避免了这些问题。 我们可以使用10次方的对数轴(图 4.22b),或者我们可以绘制
log
?
k
\log k
logk函数的
log
?
k
\log k
logk。请注意,
p
k
=
0
p_{k}=0
pk?=0或
k
=
0
k=0
k=0的点不会在
log
?
?
log
?
\log - \log
log?log图上显示,因为
log
?
0
=
?
∞
\log0=-\infty
log0=?∞。 - 避免Linear Binning
最有缺陷的方法(但在文献中经常出现)是在对数图上简单地绘制
p
k
=
N
k
/
N
p_{k}=N_{k}/N
pk?=Nk?/N(图 4.22b)。这称为线性分箱(Linear Binning),因为每个bin具有相同的大小
Δ
k
=
1
\Delta k=1
Δk=1。对于无标度网络,linear binning会在大
k
k
k处产生显而易见的平台,由形成水平线的大量数据点组成(图 4.22b)。这个平台有一个简单的解释:通常我们只有一个高度节点的样本,因此在高
k
k
k区域中,我们要么有
N
k
=
0
N_{k}=0
Nk?=0(没有具有
k
k
k度的节点),要么有
N
k
=
1
N_{k}=1
Nk?=1(具有
k
k
k度的单个节点)。 因此,Linear Binning将提供
p
k
=
0
p_{k}=0
pk?=0(未在对数图上显示)或
p
k
=
1
/
N
p_{k}=1/N
pk?=1/N(适用于所有hubs),在
p
k
=
1
/
N
p_{k}=1/N
pk?=1/N处生成一个平台。 这个平台会影响我们估计度指数
γ
\gamma
γ的能力。例如,如果我们尝试使用linear binning对图4.22b中所示的数据拟合幂律,则获得的
γ
\gamma
γ与实际值
γ
=
2.5
\gamma =2.5
γ=2.5完全不同。原因是在linear binning下,我们在小
k
k
k的bin中有大量节点,这使我们能够自信地在这种情况下拟合
p
k
p_{k}
pk?。在大
k
k
k的bin中,我们的节点太少,无法对
p
k
p_{k}
pk?进行适当的统计估计。相反,新出现的平台会使得拟合参数偏离。然而,正是这种高
k
k
k状态在确定
γ
\gamma
γ中起关键作用。增加bin大小不会解决这个问题。因此,建议避免对肥尾分布进行Linear binning。 - 使用Logarithmic Binning
?Logarithmic binning纠正了linear binning的非均匀采样。对于log-binning,我们让bin大小随程度增加,确保每个bin具有相当数量的节点。例如,我们可以选择bin大小为2的倍数,这样第一个bin的大小为
b
0
=
1
b_{0}=1
b0?=1,包含所有
k
=
1
k=1
k=1的节点;第二个大小为
b
1
=
2
b_{1}=2
b1?=2,包含度数
k
=
2
,
3
k=2,3
k=2,3的节点;第三个bin的大小为
b
2
=
4
b_{2}=4
b2?=4,包含度数
k
=
4
,
5
,
6
,
7
k=4,5,6,7
k=4,5,6,7的节点。通过归纳,第
n
n
n个bin的大小为
2
n
?
1
2n-1
2n?1,包含度数的所有节点。请注意,bin大小可以随任意增量增加,
b
n
=
c
n
b_{n}=c^{n}
bn?=cn,其中
c
>
1
c>1
c>1。度分布由
p
<
k
>
=
N
n
/
(
N
b
n
)
p_{<k>}=N_{n}/(Nb_{n})
p<k>?=Nn?/(Nbn?)给出,其中
N
n
N_{n}
Nn?是在大小为
b
n
b_{n}
bn?的
b
i
n
n
bin_{n}
binn?中找到的节点数,
<
k
n
>
<k_{n}>
<kn?>是bin
b
n
b_{n}
bn?中节点的平均度数。 图4.22c显示了logarithmic binning的
p
k
p_{k}
pk?。请注意,现在扩展到高
k
k
k平台,其本来在linear binning下不可见。因此,logarithmic binning也可以从稀有的高度节点中提取有用信息。由于上述操作相当于把每个bin中的度的
p
k
p_{k}
pk?进行平均,所以最终在高
k
k
k的bin中有些
p
k
p_{k}
pk?是0,所以平均之后的值要小于
p
k
=
1
/
N
p_{k}=1/N
pk?=1/N,这是要值得注意的。 - 使用累积分布(Cumulative Distribution)
?从
p
k
p_{k}
pk?的尾部提取信息的另一种方法是绘制互补累积分布,
P
k
=
∑
q
=
k
+
1
∞
p
q
,
P_{k}=\sum^{\infty}_{q=k+1}p_{q},
Pk?=q=k+1∑∞?pq?, 这再次增强了高k区域的统计显著性。 如果
p
k
p_{k}
pk?遵循幂律
p
k
=
k
?
γ
p_{k}=k^{-\gamma}
pk?=k?γ,则累积分布缩放为
p
k
~
k
?
γ
+
1
.
p_{k}\sim k^{-\gamma+1}.
pk?~k?γ+1. 累积分布再次消除了linear binning观察到的平台,并扩展了区域(图 4.22d),从而可以更准确地估计度指数。
参考文献:barabasi,network science,chapter4.
?
?
??????
|