怎么判断一篇文章是否原创?不是在网络上抄袭的?
terasalee
看书时不写文章。写文章时不看书。这也许就是首创。抄的东西一般都不是很生动。也不够浪漫。看不看出来。自己心里清楚。我喜欢一呵而成的东西。
嘉奈kana
可通过两种方法来判断,第一,文献检索,关键词判断;第二,逻辑判断。第一种比较简单直接,第二种考验智商和知识广度。
简单的来说逻辑判断似乎更容易实现,文章的性质决定了语言的组合方式,作者的习惯决定了描述方法,广度和深度决定了文章的松散。而这些都是很容易在文章的叙述中发现差异,抄袭别人的话会更显得突兀,对文章的风格破坏性最大。另外逻辑层次的混乱也可看出端倪,自然状态下,文章都有明显的逻辑节奏,外来的词语表达也很容易提取出来。
善仁
到目前为止,本人认为搜索引擎判断文章是否原创的标准已经运用的有以下几点:文章收录时间、网站上的链接、网站的权重。文章收录时间:你的文章是十年前就收录了,我的一篇一模一样的文章十年后才收录,当然你的文章是原创的了。但是如果收录时间距离较短的话就难以判断了,因为权重高的博客收录更快,我的文章五天前就发表了结果一直不收录,结果你转载了我的文章几分钟后就收录了,如果搜索引擎认为你的文章是原创的而我的是抄袭的,那我岂不是太冤了吗?网站上的链接:这个应该是判断原创标准最主要的一点了吧。如果你的文章结尾有一句:文章转载于某某SEO博客,或者网站中某些关键词上有链向该关键词的链接,那么判断你的文章是转载该博客的应该会比较准的。因为如果你链向了该文章的页面判断还是比较准的,如果链向该站域名的话判断还是很难的。总不能你文章链向了他的博客结果他转载你的文章都被搜索引擎认为是原创吧?网站的权重:这个做SEO的人应该更能理解一点。搜索引擎认为一个高权重、高PR的博客文章原创的可能性更大一些。其实还有一个标准可以判断文章是否原创,即查看网页的创建时间。例如你的文章是页面是去年创建的,我的是今年才创建的,并且文章内容一模一样,那么十有八九我是转载你的。如果还不能理解的话,就想想一下我们常用的 Word、Excel吧,是不是经常看到他们的最后修改时间呢?我们还经常用修改时间进行排列呢。相信这个记录修改时间的技术对百度和谷歌来说绝对不是问题,这个技术性问题应该随便一个程序员都可以解决的吧?不知道现在百度和谷歌有没有利用这种技术。当然这个技术也是有缺陷的,就是如果我的文章是原创的那么我可能会经常改动,那么我的文章的最后一次修改时间可能要比转载我的文章要晚,这个搜索引擎可以记录同一文章的所有修改时间来解决,这个技术上也很容易实现。但是这又遇到了两个问题:第一、这意味着多大的工作量?百度、谷歌索引的可不是一台电脑上的东西,也不是一个网站的东西,而是数千亿的页面,记录每次页面的修改时间不知道在工作量和搜索引擎服务器反应能力上意味着怎样的压力;另一方面即使判断出那个页面时最先创建的了,但是如果站长把最先创建的页面原内容删除替换成转载别人的文章,这又该咋判断啊?写了这么多,大家可看到了每种判断方式各有优缺点 ,搜索引擎应该也特别希望能做出正确的判断,不过先不说技术问题,光是判断标准就够令人抓狂的了。
冰悦新语
最简单的方法,复制文章,然后用百度把文章内容一块一块的发上去,之后搜索,看有没有匹配的就能判断出最简单的方法,复制文章,然后用百度把文章内容一块一块的发上去,之后搜索,看有没有匹配的就能判断出