百度搜索引擎网页质量白皮书

2018-05-01
来源:

  网页质量是一个网页满意用户需求才干的衡量,是查找引擎断定成果排序的重要依据。在网页资源内容与用户需求有相关性的根底上,内容是否完好、页面是否漂亮、对用户是否友爱、来源是否威望专业等要素,一同决议着网页质量的凹凸。

  关于查找引擎来说,给用户出现的网页质量直接影响了终究的查找作用和用户的需求满意;而关于广阔的站长来说,全体网页质量的进步有助于在查找引擎中取得杰出的排序和展示,然后招引更多用户,取得更多流量。

百度查找归纳用户对不同网页的实践感触,拟定了一套评判网页质量的规范,依据这个规范,在百度查找的录入、排序、展示环境进行调整,给高质量的网页更多的录入、展示时机,一同对一些影响用户体会、诈骗查找引擎的恶劣低质网页进行镇压。

  现在互联网上的网页,仅有7%能够到达高质量规范,百度作为**的中文查找引擎,期望从互联网生态视点出发,跟站长们一同尽力树立杰出的互联网生态圈,更好地为网民服务,也让内容优质的网站得到更好的开展。

  此外,查找引擎之前相对关闭,一直以来,站长需求经过不断的探索发现查找引擎对网页的判别规范,辅导站点内容的建造。此次推出《网页质量白皮书》,意图是开放百度在网页质量方面的判别规范,给站长供给参阅,期望有更多、更优质的内容发生,满意查找引擎用户的需求,一同为站长带来流量,实现共赢。


衡量网页质量的维度百度查找引擎在衡量网页质量时,会从以下三个维度归纳考虑给出一个质量打分。下面会一一介绍这些影响网页质量判别的维度特征:
• 内容质量
• 阅览体会
• 可拜访性
   一个拜访流通,内容质量高且阅览体会好的网页具有较高的质量;反之,任何一个维度出现问题,都会影响网页的全体质量。下面咱们详细介绍下这三个维度。衡量网页质量的维度——内容质量网页主体内容是网页的价值地点,是满意用户需求的条件根底。百度查找引擎点评网页内容质量首要看其主体内容的好坏,以及主体内容是否能够让用户满意。 不同类型网页的主体内容不同,百度查找引擎判别不同网页的内容价值时,需求注重的点也有差异,如:
• 主页:导航链接和引荐内容是否明晰、有用。
• 文章页:能否供给明晰完好的内容,图文并茂更佳。
• 产品页:是否供给了完好实在的产品信息和有用的购买进口。
• 问答页:是否供给了有参阅价值的答案。
• 下载页:是否供给下载进口,是否有权限约束,资源是否有用。
• 文档页:是否可供用户阅览,是否有权限约束。
• 查找成果页:查找出来的成果是否与标题相关。

百度查找引擎考量网页内容质量的维度十分多,最为重要的是:本钱;内容完好;信息实在有用以及安全。下面咱们经过举例来感触一下百度查找引擎是怎么对网页的内容质量进行分类的,请站长比照自己站点的页面,站在查找引擎和用户的视点为自己打分:

1、内容质量好:
百度查找引擎以为内容质量好的网页,花费了较多时刻和精力修改,倾注了编者的经历和专业知识;内容明晰、完好且丰厚;资源有用且优质;信息实在有用;安全无毒;不含任何做弊行为和意图,对用户有较强的正收益。对这部分网页,百度查找引擎会进步其展示在用户面前的机率。例如:
• 专业医疗机构发布的内容丰厚的医疗专题页面;
• 资深工程师发布的完好处理某个技术问题的专业文章;
• 专业视频网站上,播映明晰流通的正版电影或影视全集页面;
• 闻名B2C网站上,一个完好有用的产品购买页;
• 威望新闻站原创或经过修改整理的热门新闻报导;
• 经过网友仔细修改,内容丰厚的词条;
• 问答网站内,答复的内容能够完美处理发问者的问题。

实例参阅:

示例

内容质量

阐明

case 3.1.1-1

专业医疗网站发布的丰厚医疗专题页面

case 3.1.1-2

资深工程师发布的完好处理某个技术问题的专业文章

case 3.1.1-3

专业视频网站上,播映明晰流通的正版影视全集页面

case 3.1.1-4

京东的一个完好有用的产品购买页

case 3.1.1-5

威望新闻站原创的热门新闻的报导

case 3.1.1-6

经过网友仔细修改,内容丰厚的百科词条

case3.1.1-7

百度知道上,完美处理用户问题的问答页


  2、内容质量中:
内容质量中等的网页往往能满意用户需求,但未花费较多时刻和精力进行制造修改,不能体现出编者的经历和专业知识;内容完好但并不丰厚;资源有用但质量欠佳;信息虽实在有用但属收集得来;安全无毒;不含做弊行为和意图。在互联网中,中等质量网页其实是一个比较大的数量调集,品种面貌也冗杂多样,百度查找引擎在点评这类网页时往往还要考虑其它十分多要素。在这里,咱们仅部分举例来让各位感触一下:
• 论坛类网站里一个一般的帖子;
• 一个一般的问答网页;
• 没有进行任何修改,直接转载其它网站的新闻;
• 无版权信息的一般电影播映页
• 收集闻名小说网站的盗版小说页。

实例参阅:

示例

内容质量

阐明

case 3.1.2-1

网易直接转载了我国新闻网的一篇新闻。

case 3.1.2-2

文库上网友上传的“国庆放假组织”新闻

case 3.1.2-3

收集起点小说网的盗版小说站

case 3.1.2-4

百度贴吧里一个一般的帖子


3、内容质量差:
百度查找引擎以为主体内容信息量较少,或无有用信息、信息失效过期的都归于内容质量差网页,对用户没有什么实质性的协助,应该削减其展示的时机。一同,假如一个网站内该类网页的占比过大,也会影响百度查找引擎对站点的评级,特别是UGC网站、电商网站、黄页网站要特别注重对过期、失效网页的办理。例如:
• 已下架的产品页,或已过期的团购页;
• 已过有用期的招聘、买卖页面;
• 资源已失效,如视频已删去、软件下载后无法运用等。


  4、没有内容质量可言:
没有内容质量可言的网页指那些制造本钱很低,偷工减料;从别处收集来的内容未经最起码的修改整理即放置线上;挂木马等病毒;含有做弊行为或意图;彻底不能满意用户需求,乃至含有诈骗内容的网页。例如:
• 内容空短,有很少量的内容,却不能支撑页面的首要意图;
• 问答页有问无答,或答复彻底不能处理问题;
• 站内查找成果页,但没有给出相关信息


除上述网页外,诈骗用户和查找引擎的网页在无内容质量可言调集里占很高比例。百度查找引擎对做弊网页的界说是:不以满意用户需求为意图,经过不合理手段诈骗用户和查找引擎然后获利的网页。现在互联网上这部分网页还属少量,但做弊网页的价值是负向的,对用户的损伤十分大,对这类网页,查找引擎持坚决冲击情绪。


衡量网页质量的维度——阅览体会不同质量的网页带给用户的阅览体会会有很大差距,一个优质的网页给用户的阅览体会应该是正向的。用户期望看到洁净、易阅览的网页,排版紊乱、广告过多会影响用户对网页主体内容的获取。在百度查找引擎网页质量体系中,用户对网页主体内容的获取本钱与阅览体会呈反比,即获取本钱越高,阅览体会越低。面临内容质量附近的网页,阅览体会佳者更简单取得更高的排位,而关于阅览体会差的网页,百度查找引擎会视情况下降其展示的机率乃至回绝录入。

影响用户阅览体会好坏的要素许多,现在百度查找引擎首要从内容排版、广告影响两方面临网页进行考量:
内容排版:用户进入网页**眼看到的就是内容排版,排版决议了用户对网页的**印象,也决议了用户对内容获取的本钱。
广告影响:百度查找引擎了解网站的生计开展需求资金支撑,对网页上放置合理广告持支撑情绪。网页应该以满意用户需求为主旨,**情况即“主体内容与广告一同满意用户需求,内容为主,广告为辅”,而不该让广告成为网页主体。

下面咱们经过举例来感触一下百度查找引擎是怎么对网页的阅览体会进行分类的,站长能够据此比照查验自己站点的阅览体会怎么:
  1、阅览体会好:
页面布局合理,用户获取主体内容本钱低,一般具有以下特征:
• 排版合理,版式漂亮,易于阅览和阅览;
• 用户需求的内容占有网页最重要方位;
• 能够经过页面标签或页面布局十分清楚区域分出哪些是广告;
• 广告不抢占主体内容方位,不阻止用户对首要内容的获取;

实例参阅:

示例

阅览体会

阐明

case 3.2.1-1

招聘、房产等网站主页也有许多广告,但都是招聘相关的,阅览体会是ok的。

case 3.2.1-2

文章页,页面布局合理,无广告,排版好,结构合理

case 3.2.1-3

游戏主页,排版漂亮,布局合理,无广告,阅览体会优


  2、阅览体会差:
页面布局和广告放置影响了用户对主体内容的获取,进步了用户获取信息的本钱,令用户恶感。包含但不**于以下情况:
• 正文内容不换行或不分段,用户阅览困难;
• 字体和布景色彩附近,内容区别困难;
• 页面布局不合理,网页首屏看不到任何有价值的主体内容;
• 广告遮挡主体内容;或许在通用分辨率下,首屏都是广告,看不到主体内容;
• 弹窗广告过多;
• 影响阅览的起浮广告过多
• 点击链接时,出现预期之外的弹窗;
• 广告与内容混杂,不易区别;


衡量网页质量的维度——可拜访性用户期望快速地从查找引擎获取到需求的信息,百度查找引擎尽可能为用户供给能一次性直接获取一切信息的网页成果。百度查找引擎以为不能直接获取到主体内容的网页对用户是不友爱的,会视情况调整其展示机率。

百度查找引擎会从正常翻开、权限约束、有用性三方面判别网页的可拜访性,关于能够正常拜访的网页,能够参加正常排序;关于有权限约束的网页,再经过其它维度对其进行调查;关于失效网页,会降权其展示机制乃至从数据库中删去。

1、可正常拜访的网页
无权限约束,能直接拜访一切主体内容的网页。

2、有权限约束的网页
此类网页分为两种:翻开权限和资源获取权限

1)翻开权限:指翻开网页都需求登录权限,没有权限彻底无法看到详细内容,一般用户无法获取或获取本钱很高,百度查找引擎会下降其展示机率。不包含以登录为首要功能的网页。

2)资源获取权限:指获取网页首要内容,如文档、软件、视频等,需求权限或许需求装置插件才干取得完好内容。此刻会分三种情况:
• 供给优质、正版内容的网站,因为内容建造本钱很高,尽管检查全文或下载时需求权限或装置插件,但归于用户预期之内,百度查找引擎也不以为权限行为对用户形成损伤,给予与正常可拜访页面相同的对待。
• 关于一些非优质、非正版的资源,来自于用户转载乃至机器收集,自身本钱较低,内容也不共同,用户获取资源还有权限约束——需求用户注册登录或许付费检查,百度查找引擎会依据详细情况决议是否调整其展示。
• 还有一些视频、下载资源页,或许自身资源质量并不差,但需求装置十分冷门的插件才干正常拜访,比方要求装置“xx大片播映器”,百度查找引擎会置疑其有歹意倾向。

实例参阅:

示例

可拜访性

阐明

case 3.2-1

CNKI上的一篇论文,收费才干下载,但有版权,阅览体会好

case 3.2-2

优酷上一部新电影,需求付费才干观看,阅览体会好。

case 3.2-3

内容是copy来,可是需求登录才干看更多

case 3.2-4

入党申请书,自身就是转载的,网上处处都是,但这个页面仍然要求收费才干下载。


3、失效网页
往往指死链和主体资源失效的网页。百度查找引擎以为这部分网页无法供给有价值信息,假如站点中此类网页过多,也会影响百度查找引擎对其的录入和评级。主张站长对此类网页进行相应设置,并及时登录百度站长渠道,运用死链提交工具奉告百度查找引擎。

失效网页包含但不**于:
  • 404、403、503等网页;
• 程序代码报错网页;
• 翻开后提示内容被删去,或因内容已不存在跳转到主页的网页;

• 被删去内容的论坛帖子,被删去的视频页面(多出现在UGC站点)


互联网网页资源现状

CNNIC2014年年头发布的《我国互联网络开展情况计算报告》中称:到2013年12月,我国网页数据为1500亿,比较2012年同期增加了22.2%。2013年我国单个网站的均匀网页数和单个网页的均匀字节数均保持增加,显现出我国互联网上的内容更为丰厚:均匀网站的网页数到达4.69万个,较去年同期增加2.3%。

为了保证查找质量、进步用户运用满意度,百度查找引擎每周都会进行网页质量抽样评价。但是从近一年的评价数据中咱们发现,优质网页的肯定数量十分少,且几乎没有增加;一般网页的占比在下降,相应的,质差网页的比例却有明显上涨。到2014年5月,计算数据显现,在百度网页查找发现的海量网页中,优质网页仅占7.4%,质差网页高达21%,其他一般网页为71.6%。

百度网页查找经过一系列筛选、识别、剖析、赋权等作业,尽力将更多优质网页出现在用户面前,每天约冲击上万质量差网站,触及网页达百万量级,尽可能削减质量差网页给用户带来的搅扰。从下图2014年5月的网页展示剖析数据显现,现在展示在用户面前的网页质量散布中,优质网页占比为40%,质量差网页降为11%——虽然这个改变现已十分明显,但百度网页查找仍是期望能和广阔站长一同尽力,将质量差占比降到更低。



互联网悉数网页


在百度查找得到展示的网页

优质网页

7.4%


41%

一般网页

71.6%


49%

质量差网页

21%


11%

上述质量差网页包含低质网页和废物网页两部分,低质网页问题散布如下图所示:

从上图咱们看出,现在低质网页中最严峻的问题即因广告过多、占有网页首要方位以及超预期弹窗带来的阅览体会差,内容空短、网页需求权限才干获取资源和过期信息也是低质网页的重要组成部分。

质量差网页中除了低质网页外,无任何质量可言的废物页面的问题散布如下图所示:

从上图咱们看出,现在低质网页中最严峻的问题即因广告过多、占有网页首要方位以及超预期弹窗带来的阅览体会差,内容空短、网页需求权限才干获取资源和过期信息也是低质网页的重要组成部分。

质量差网页中除了低质网页外,无任何质量可言的废物页面的问题散布如下图所示:

死链对用户、网站和查找引擎来说都已没有存在的含义,废物网页中占比**。其次是对用户和查找引擎损伤巨大的做弊网页,资源无效、有问无答和不相关查找成果页这些极大糟蹋用户时刻的网页也是查找引擎不期望出现给用户的。

百度查找引擎给站长的主张

上面介绍了百度查找引擎对网页质量的断定规范,与这些规范相应的,站长在实践作业中应该遵从几项准则:
• 规划网页时首要考虑的是用户,而非查找引擎
• **将用户体会放在首位
• 依据用户需求制造内容
• 多考虑怎么让自己的网站具有共同价值
• 将目光放长远,滥放广告弊大于利
• 及时删去低质内容
• 不要妄图用任何方法诈骗用户和查找引擎






阅读315
分享
写评论...