IT知识库 购物 网址 游戏 小说 歌词 快照 开发 股票 美女 新闻 笑话 | 汉字 软件 日历 阅读 下载 图书馆 编程 China
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
vbs/VBScript DOS/BAT hta htc python perl 游戏相关 VBA 远程脚本 ColdFusion ruby专题 autoit seraphzone PowerShell linux shell Lua Golang Erlang 其它教程 CSS/HTML/Xhtml html5 CSS XML/XSLT Dreamweaver教程 经验交流 开发者乐园 Android开发资料
站长资讯 .NET新手 ASP.NET C# WinForm Silverlight WCF CLR WPF XNA VisualStudio ASP.NET-MVC .NET控件开发 EntityFramework WinRT-Metro Java C++ PHP Delphi Python Ruby C语言 Erlang Go Swift Scala R语言 Verilog 其它语言 架构设计 面向对象 设计模式 领域驱动 Html-Css JavaScript jQuery HTML5 SharePoint GIS技术 SAP OracleERP DynamicsCRM K2 BPM 信息安全 企业信息 Android开发 iOS开发 WindowsPhone WindowsMobile 其他手机 敏捷开发 项目管理 软件工程 SQLServer Oracle MySQL NoSQL 其它数据库 Windows7 WindowsServer Linux
  IT知识库 -> 站长资讯 -> 搜索引擎收录网页的四个阶段 -> 正文阅读

[站长资讯]搜索引擎收录网页的四个阶段

搜索引擎收录网页的四个阶段 搜索引擎收录网页的四个阶段  人参与 | 时间:2013年04月19日 09:25
作为SEO从业者,不仅要被搜索引擎抓取,还要被收录,最重要的是在收录后有良好的排名,本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的,看看你的网站处于哪个阶段呢?

网页收录第一阶段:大小通吃
搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。
网页收录第二阶段:网页评级
而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。    
爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。
网页收录第三阶段:OCIP策略
OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。
而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。
网页收录第四阶段:大站优先策略
大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。
实验表明这个算法虽然简单粗暴,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一。
顶: 3踩: 0
上一篇文章           查看所有文章
加:2018-08-08 00:28:42  更:2018-08-08 00:29:13 
 
  站长资讯 最新文章
微商新手如何选产品?史上最详细操作指南!
ZAKER与乐知:不同以往的个性化阅读时代
松松博客微信小程序正式上线
Envisioneer家装设计软件测评
利用电影直播赚钱的方法(几乎零成本、很多
搜索引擎收录网页的四个阶段
自媒体微信订阅号月入1W2实战解析
关于选择:建议淘宝创业的朋友看看
2017下半场,深度解析App Store推广获量新技
谈谈读“SEO实战密码”的一些感悟
技术频道: 站长资讯 .NET新手区 ASP.NET C# WinForm Silverlight WCF CLR WPF XNA Visual Studio ASP.NET MVC .NET控件开发 Entity Framework WinRT/Metro Java C++ PHP Delphi Python Ruby C语言 Erlang Go Swift Scala R语言 Verilog 其它语言 架构设计 面向对象 设计模式 领域驱动设计 Html/Css JavaScript jQuery HTML5 SharePoint GIS技术 SAP Oracle ERP Dynamics CRM K2 BPM 信息安全 企业信息化其他 Android开发 iOS开发 Windows Phone Windows Mobile 其他手机开发 敏捷开发 项目与团队管理 软件工程其他 SQL Server Oracle MySQL NoSQL 其它数据库 Windows 7 Windows Server Linux
脚本语言: vbs/VBScript DOS/BAT hta htc python perl 游戏相关 VBA 远程脚本 ColdFusion ruby专题 autoit seraphzone PowerShell linux shell Lua Golang Erlang 其它教程
网站开发: CSS/HTML/Xhtml html5 CSS XML/XSLT Dreamweaver教程 经验交流 开发者乐园 Android开发资料
360图书馆 软件开发资料 文字转语音 购物精选 软件下载 美食菜谱 新闻资讯 电影视频 小游戏 Chinese Culture 股票 三丰软件 开发 中国文化 网文精选 阅读网 看图 日历 万年历 2018年8日历
2018-8-14 23:55:32
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT知识库