IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 利用Log Binning拟合参数 -> 正文阅读

[人工智能]利用Log Binning拟合参数

绘制度分布是分析网络属性的一个组成部分。该过程从获得 N k N_{k} Nk?开始,即度数为 k k k的节点数。这可以通过直接测量或模型来提供。从 N k N_{k} Nk?我们计算出 p k = N k / N p_{k}=N_{k}/N pk?=Nk?/N。问题是,如何绘制 p k p_{k} pk?以最好地提取其属性。

??度分布

  • 使用log-log图
    在无标度网络中,具有一或两条链路的众多节点与少数节点共存,其中少数节点为具有数千甚至数百万链路的节点。使用线性 k 轴压缩无数小k区域中的节点,使它们不可见。类似地,由于 k = 1 k=1 k=1和大 k k k p k p_{k} pk?可能存在数量级差异,如果我们在线性垂直轴上绘制 p k p_{k} pk?,大 k k k的值将显示为零(图 4.22a)。对数图的使用避免了这些问题。
    我们可以使用10次方的对数轴(图 4.22b),或者我们可以绘制 log ? k \log k logk函数的 log ? k \log k logk。请注意, p k = 0 p_{k}=0 pk?=0 k = 0 k=0 k=0的点不会在 log ? ? log ? \log - \log log?log图上显示,因为 log ? 0 = ? ∞ \log0=-\infty log0=?
  • 避免Linear Binning
    最有缺陷的方法(但在文献中经常出现)是在对数图上简单地绘制 p k = N k / N p_{k}=N_{k}/N pk?=Nk?/N(图 4.22b)。这称为线性分箱(Linear Binning),因为每个bin具有相同的大小 Δ k = 1 \Delta k=1 Δk=1。对于无标度网络,linear binning会在大 k k k处产生显而易见的平台,由形成水平线的大量数据点组成(图 4.22b)。这个平台有一个简单的解释:通常我们只有一个高度节点的样本,因此在高 k k k区域中,我们要么有 N k = 0 N_{k}=0 Nk?=0(没有具有 k k k度的节点),要么有 N k = 1 N_{k}=1 Nk?=1(具有 k k k度的单个节点)。
    因此,Linear Binning将提供 p k = 0 p_{k}=0 pk?=0(未在对数图上显示)或 p k = 1 / N p_{k}=1/N pk?=1/N(适用于所有hubs),在 p k = 1 / N p_{k}=1/N pk?=1/N处生成一个平台。
    这个平台会影响我们估计度指数 γ \gamma γ的能力。例如,如果我们尝试使用linear binning对图4.22b中所示的数据拟合幂律,则获得的 γ \gamma γ与实际值 γ = 2.5 \gamma =2.5 γ=2.5完全不同。原因是在linear binning下,我们在小 k k k的bin中有大量节点,这使我们能够自信地在这种情况下拟合 p k p_{k} pk?。在大 k k k的bin中,我们的节点太少,无法对 p k p_{k} pk?进行适当的统计估计。相反,新出现的平台会使得拟合参数偏离。然而,正是这种高 k k k状态在确定 γ \gamma γ中起关键作用。增加bin大小不会解决这个问题。因此,建议避免对肥尾分布进行Linear binning。
  • 使用Logarithmic Binning
    ?Logarithmic binning纠正了linear binning的非均匀采样。对于log-binning,我们让bin大小随程度增加,确保每个bin具有相当数量的节点。例如,我们可以选择bin大小为2的倍数,这样第一个bin的大小为 b 0 = 1 b_{0}=1 b0?=1,包含所有 k = 1 k=1 k=1的节点;第二个大小为 b 1 = 2 b_{1}=2 b1?=2,包含度数 k = 2 , 3 k=2,3 k=2,3的节点;第三个bin的大小为 b 2 = 4 b_{2}=4 b2?=4,包含度数 k = 4 , 5 , 6 , 7 k=4,5,6,7 k=4,5,6,7的节点。通过归纳,第 n n n个bin的大小为 2 n ? 1 2n-1 2n?1,包含度数的所有节点。请注意,bin大小可以随任意增量增加, b n = c n b_{n}=c^{n} bn?=cn,其中 c > 1 c>1 c>1。度分布由 p < k > = N n / ( N b n ) p_{<k>}=N_{n}/(Nb_{n}) p<k>?=Nn?/(Nbn?)给出,其中 N n N_{n} Nn?是在大小为 b n b_{n} bn? b i n n bin_{n} binn?中找到的节点数, < k n > <k_{n}> <kn?>是bin b n b_{n} bn?中节点的平均度数。
    图4.22c显示了logarithmic binning的 p k p_{k} pk?。请注意,现在扩展到高 k k k平台,其本来在linear binning下不可见。因此,logarithmic binning也可以从稀有的高度节点中提取有用信息。由于上述操作相当于把每个bin中的度的 p k p_{k} pk?进行平均,所以最终在高 k k k的bin中有些 p k p_{k} pk?是0,所以平均之后的值要小于 p k = 1 / N p_{k}=1/N pk?=1/N,这是要值得注意的。
  • 使用累积分布(Cumulative Distribution)
    ?从 p k p_{k} pk?的尾部提取信息的另一种方法是绘制互补累积分布,
    P k = ∑ q = k + 1 ∞ p q , P_{k}=\sum^{\infty}_{q=k+1}p_{q}, Pk?=q=k+1?pq?,
    这再次增强了高k区域的统计显著性。 如果 p k p_{k} pk?遵循幂律 p k = k ? γ p_{k}=k^{-\gamma} pk?=k?γ,则累积分布缩放为
    p k ~ k ? γ + 1 . p_{k}\sim k^{-\gamma+1}. pk?k?γ+1.
    累积分布再次消除了linear binning观察到的平台,并扩展了区域(图 4.22d),从而可以更准确地估计度指数。

参考文献:barabasi,network science,chapter4.

?

?

??????

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-11 22:11:31  更:2022-03-11 22:14:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 15:42:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码