[人工智能] 利用Log Binning拟合参数

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 利用Log Binning拟合参数 -> 正文阅读

[人工智能]利用Log Binning拟合参数

绘制度分布是分析网络属性的一个组成部分。该过程从获得 Nk 开始，即度数为 k 的节点数。这可以通过直接测量或模型来提供。从 Nk 我们计算出 pk = Nk /N。问题是，如何绘制 pk 以最好地提取其属性。

使用log-log图

在无标度网络中，具有一或两条链路的众多节点与少数节点共存，其中少数节点为具有数千甚至数百万链路的节点。使用线性 k 轴压缩无数小k区域中的节点，使它们不可见。类似地，由于 k = 1 和大 k 的 pk 可能存在数量级差异，如果我们在线性垂直轴上绘制 pk，大 k 的值将显示为零（图 4.22a）。对数图的使用避免了这些问题。
我们可以使用 10 次方的对数轴（图 4.22b），或者我们可以绘制 log k 函数的 log pk。请注意，pk =0 或 k=0 的点不会在 log-log 图上显示，因为 log 0=-∞。

避免Linear Binning

最有缺陷的方法（但在文献中经常出现）是在对数图上简单地绘制 pk = Nk/N（图 4.22b）。这称为线性分箱（Linear Binning），因为每个bin具有相同的大小 Δk = 1。对于无标度网络，linear binning会在大 k 处产生显而易见的平台，由形成水平线的大量数据点组成（图 4.22b）。这个平台有一个简单的解释：通常我们只有一个高度节点的样本，因此在高 k 区域中，我们要么有 Nk=0（没有具有 k 度的节点），要么有 Nk=1（具有 k 度的单个节点）。
因此，Linear Binning将提供 pk=0（未在对数图上显示）或 pk = 1/N（适用于所有hubs），在 pk = 1/N 处生成一个平台。

这个平台会影响我们估计度指数 γ 的能力。例如，如果我们尝试使用linear binning对图 4.22b 中所示的数据拟合幂律，则获得的 γ 与实际值 γ=2.5 完全不同。原因是在linear binning下，我们在小 k 的bin中有大量节点，这使我们能够自信地在这种情况下拟合 pk。在大 k 的?bin 中，我们的节点太少，无法对 pk 进行适当的统计估计。相反，新出现的平台会使得拟合参数偏离。然而，正是这种高 k 状态在确定 γ 中起关键作用。增加 bin 大小不会解决这个问题。因此，建议避免对肥尾分布进行Linear binning。

使用Logarithmic?Binning

Logarithmic binning纠正了linear binning的非均匀采样。对于 log-binning，我们让 bin 大小随程度增加，确保每个 bin 具有相当数量的节点。例如，我们可以选择 bin 大小为 2 的倍数，这样第一个 bin 的大小为 b0=1，包含所有 k=1 的节点；第二个大小为 b1=2，包含度数 k=2、3 的节点；第三个 bin 的大小为 b2=4，包含度数 k=4、5、6、7 的节点。通过归纳，第 n 个 bin 的大小为 2n-1，包含度数 $k=2^{n-1},2^{n-1}+1, ...,2^{n}-1$ 的所有节点。请注意，bin大小可以随任意增量增加， $b_{n}=c^{n}$ ，其中 c > 1。度分布由 $p_{<k_{n}>}=N_{n}/(Nb_{n})$ 给出，其中 Nn 是在大小为 bn 的 bin n 中找到的节点数?kn? 是 bin bn 中节点的平均度数。
图 4.22c 显示了logarithmic binning的 pk。请注意，现在扩展到高 k 平台，其本来在linear binning下不可见。因此，logarithmic binning也可以从稀有的高度节点中提取有用信息。由于上述操作相当于把每个bin中的度的pk进行平均，所以最终在高k的bin中有些pk是0，所以平均之后的值要小于pk = 1/N，这是要值得注意的。