原创一直是大问题,往大了说,网络生态环境日趋恶劣,采集伪原创低水平内容泛滥,紧急挤占了优质原创资源的存活空间。致使网络资源整体水平大幅降低,网民受损、优质站长受损、搜索引擎亦受损。往小了说,不少站长一直在进行原创建设,而得不到应有些保护。怎么样加强对站点原创的保护与怎么样衡量原创是不是能满足用户需要是一个艰巨的任务。为此,百度一直在进行原创保护和展示建设,由于这是用户的需要,尽管进展缓慢,但客观看来,确实有非常大的进步。那样百度是怎么样保护原创的?下面议谈百度原创那点事。
本文内容主要分为以下五个大点网站制作原创内容的重要程度技术、商品、运营、法务等等,这不是临时组织不是1个月2个月的项目,大家做好了打持久战的筹备。原创辨别“起源”算法
网络动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。大家的原创辨别系统,在百度云数据的云计算平台上拓展,可以迅速达成对全部中文网络网页的重复聚合和链接指向关系剖析。第一,通过内容相似程度来聚合采集和原创,将相似网页聚合在一块作为原创辨别的候选集合;第二,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创状况、转发轨迹等上百种原因来辨别看出原创网页;最后,通过价值剖析系统判断该原创内容的价值高低进而适合的指导最后排序。
现在,通过大家的实验与真实线上数据,“起源”算法已经获得了肯定的进展,在新闻、资讯等范围解决了绝大多数问题。当然,其他范围还有更多的原创问题等待“起源”去解决,大家坚定的走着。
原创星火计划大家一直致力于原创内容的辨别和排序算法调整,但在目前网络环境下,迅速辨别原创解决原创问题确实面临着非常大的挑战,计算数据规模庞大,面对的采集方法层出不穷,不同站点的网站建设方法和模版差异巨大,内容提取复杂等等问题。这类原因都会干扰原创算法辨别,甚至致使看出错。这个时候就需要百度和站长一同努力来维护网络的生态环境,站长推荐原创内容,搜索引擎通过肯定的判断后优待原创内容,一同推进生态的改变,鼓励原创,这就是“原创星火计划”,旨在迅速解决目前面临的紧急问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用愈加智能的辨别算法自动辨别原创内容。
2、百度原创保护的进展原创星火计划一期和起源算法出来都有段时间了,现在主要覆盖的都是一些大型的新闻类站点,现在,原创星火计划获得了初步的成效,一期对部分重点原革新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也获得了适当的提高。百度LEE也表示原创起源算法,也让这类优质的网站有了一个最好的收益。
1、原创星火计划上线前后的同期流量对比显示,原创url流量增长明显。
2、原创星火计划上线后一段时间内原创url流量增长明显并渐渐趋于平稳。这个是一个小范围的数据,大家在来宏观的看看。2013年,中国低质网站泛滥,在低质网站中采集及作弊站点泛滥两种共占比高达80%。恶劣采集站占到40%之多,采集站、作弊站点、垃圾无价值站点在整个网络资源环境中的比率愈加高,且有主导趋势,优质资源的空间在不断减小。优质站长受损,原创内容遭到非常大的妨碍。2014年,作弊站和采集站占比35%,有所遏制,采集站降低了16%,百度对于原创的宣传保护起到了非常大的成效,然而无价值站点愈加多,在一定量上也是“原创”惹的祸,后面细说。
3、站长对于原创保护的错误认知
1、原创内容不等于优质内容网页主体内容是网页的价值所在,百度主要从以下角度评价网页内容水平网站制作原创内容的重要程度内容水平好的网页,花费了较多时间和精力编辑,倾注了很多经验和专业常识,内容明确、有效、完整且丰富。比如网站制作原创内容的重要程度只须你有优质原创内容,我就给你好排名。影响排名的原因很多,尽管内容是网站建设的重中之重,但你不可以保证你的网站不会有其他原因影响你的排名,譬如结构,譬如加载速度,甚至被黑。
网站原创这一个价值大放异彩未必就能在页面排序大战中崭露头角,需要综合各方面原因,我想这一点大伙都了解。况且我刚刚一直假设的是优质原创,持续的优质内容,假如仅仅只不过你觉得的原创,根据上面说的原创内容不等于优质内容,是否愈加悲剧了呢?
4、百度直接辨别发布时间确定原创不就好了吗?
不少人可能说网站制作原创内容的重要程度我X,不是原创,原来是来自京东的,垃圾,再也不看新浪新闻了?我想不会,作为用户,只须有价值,原创who care?
5、对于大型网站说保护原创更名副其实,对小站,说保护优质内容更好在我看来,对于大型网站说保护原创更名副其实,对小站说保护优质内容更好,为何这么说,由于百度强调原创是要具备社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。对于大型网站,百度知根知底,信誉度高,有权威,用户群体大,历史表现好,所以大多原创展示,原创起源算法都发生在大型网站上,由于技术跟不上,所以部分网站会提前保护,就像加入星火原创计划的都是大型网站,由于可信度高,成功率高。
而对于小型网站,我感觉更多的是鼓励站长创建优质的内容,由于想要被保护,第一就需要有优质的内容做支撑,不然何谈百度需要的原创。细心的朋友在前面可能发现,百度每次提到原创都会加上低质、优质等词,譬如“原创优质内容”、“伪原创低水平内容”、“高质原创”等。为何每次说原创都要带上这类词?由于百度也怕误导站长,也怕站长像前面说的只看到原创二字。这不是百度的目的,百度看重保护原创的根本缘由是为了提升客户体验,原创不是目的,期望小站创建优质内容才是目的,所以百度讲的原创也一直是优质原创内容。
鼓励小站原创,保护网站原创到不如说是保护优质内容,杜绝垃圾采集内容,这么说可能更好,由于优质内容还有个谱,但原创与原创判断真的是一个没谱的事。
原创保护一定会是百度一个长期的计划,不可能一步到位,所以站长们必须要心态摆正,不要整天盲目原创+抱怨,用户真的要的不是原创,要的是有价值的内容,百度也只不过借保护原创来提高网络优质内容,原创只不过一个手段,不是结果,不是最后的目的,百度保护原创是为了保持网络生态、鼓励站长。站长们做原创是为了能给用户有价值独特的内容,这类才是结果。
这其中就有一个伪原创的问题,不少站长不屑,觉得这是抄袭。其实从用户的需要出发,挖掘对于用户有价值的内容是不少人都在做的,而且会常常挖掘其他人的优质内容,这个东西对我的用户非常有价值,为何不需要?其他人用了你就不需要了,那这个网络的资源对你来讲恐怕没多少了。你可以称之为伪原创,可以称之为整理,也可以叫它重新包装,但这不是抄袭,不是直接引用其他人的就完事了,重点要比其他人做得更好,更具备角逐性。成功借用其他人的成就不是叫你抄袭,而是放大它的优点,弥补它的缺点,结合我们的优势,让内容愈加完整更有价值。假如只不过长期挪用其他人的内容,做得还没其他人好,这才叫做抄袭。
对于站长而言,不要太多的考虑什么原创不原创,仅需依据用户需要给他们有价值的内容就好了,原创不可以说明什么,原创未必就好。就拿百度来讲,百度问答、百度百科、百度文库、百度网盘等有多少是原创的内容?不少都不是原创,那为何流量会那样高呢?由于这类平台的这类内容满足了用户的需要。在内容建设的时候,内容水平度和可读性都是网站运营的重点原因,不要一味的在那琢磨所谓的原创而忽略了用户,忽略了内容本身的水平。客户体验是将来的进步方向,搜索引擎要满足的是用户,网站要满足的也是用户,所以只须网站内容能持续满足用户需要,获得用户喜爱,网站在搜索引擎那的展示也不会有哪些太大问题。保不保护也没多大关系。(本文摘自网络,感谢作者及网友推荐)
网页名字网站制作原创内容的重要程度