设为首页收藏本站

八达网

 找回密码
 注册
查看: 1297|回复: 20
打印 上一主题 下一主题

360搜索明显违反robots协议啊,真心流氓

[复制链接]

425

主题

0

好友

1万

积分

航母

跳转到指定楼层
1
发表于 2012-9-8 13:06 |只看该作者 |倒序浏览
百度搜不到。
360刚刚di。真流氓

645

主题

3

好友

3086

积分

飞龙

2
发表于 2012-9-8 13:16 |只看该作者
我不懂什么协议,但是我百度做死也搜不到八达,360可以搜到八达并且排名第一
回复

使用道具 举报

16

主题

2

好友

7406

积分

大象

3
发表于 2012-9-8 13:20 |只看该作者
吓尿了
李小冉
回复

使用道具 举报

425

主题

0

好友

1万

积分

航母

4
发表于 2012-9-8 13:22 |只看该作者
syp吓尿了
回复

使用道具 举报

1

主题

0

好友

2万

积分

大和

2人一个

5
发表于 2012-9-8 14:09 |只看该作者
robots协议已经被一淘和360毁了
契约精神啊。。哎。。
学会了哥的运营,剩下的就是被a了!

请500p成员,把8达签名换成:
SC的延续,SC2中文论坛,500p常驻基地:http://bbs.sc2.com.cn
回复

使用道具 举报

23

主题

1

好友

2万

积分

大和

6
发表于 2012-9-8 18:22 |只看该作者
百度的搜索也很恶心啊,都是广告,想要的东西难找啊
回复

使用道具 举报

66

主题

5

好友

2121

积分

坦克

7
发表于 2012-9-8 21:11 |只看该作者
360臭傻逼
这种先流氓然后准备洗白的坚决不用
robots是互联网的最低限了
回复

使用道具 举报

69

主题

1

好友

3万

积分

大和

8
发表于 2012-9-8 21:12 |只看该作者
要干掉流氓,还真得是流氓
回复

使用道具 举报

189

主题

0

好友

5172

积分

飞龙

9
发表于 2012-9-8 21:15 |只看该作者
robots协议大概是个什么内容,有搞网络的能直白的解释一下嘛
回复

使用道具 举报

66

主题

5

好友

2121

积分

坦克

10
发表于 2012-9-8 21:20 |只看该作者
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。
这个协议也不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。

这个全世界网络都应该遵守的东西
比如我开一个博客 写点隐私的东西 不允许任何人访问
但是臭流氓直接搜索出去了
这个算什么行为呢?
回复

使用道具 举报

447

主题

3

好友

3万

积分

大和

战队
N.ErV)
联赛ID
Voice
种族
Protoss
11
发表于 2012-9-8 21:46 |只看该作者
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。2012年8月,奇虎360被曝违反Robots协议。
星际,永远在血液里。 这辈子都无法热爱其他游戏了。
回复

使用道具 举报

364

主题

0

好友

9014

积分

大象

拱火组组长

12
发表于 2012-9-8 22:46 |只看该作者
本帖最后由 今心 于 2012-9-8 22:47 编辑

楼主,我要告诉你的是,360现在还没有爬虫
回复

使用道具 举报

xiaokaizi 该用户已被删除
13
发表于 2012-9-8 22:52 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

1

主题

0

好友

2万

积分

大和

2人一个

14
发表于 2012-9-8 22:56 |只看该作者
robots协议通俗的讲就是

你开了个网站,如果你想搜索引擎收录,robots可以写明不限制,随便抓
如果你有些隐私的内容不希望被搜素引擎收录,可以写明在服务器的robots.txt里,表明哪些目录,哪些文件不希望被收录。
但是这是个君子协定,几乎所有搜索引擎都遵守的。如果google baidu不遵守这个的话,各种网站的后台资料什么的,就都能被直接搜出来了额
学会了哥的运营,剩下的就是被a了!

请500p成员,把8达签名换成:
SC的延续,SC2中文论坛,500p常驻基地:http://bbs.sc2.com.cn
回复

使用道具 举报

2

主题

0

好友

6958

积分

大象

15
发表于 2012-9-8 23:18 |只看该作者
评论:Robots协议的争论毫无意义http://www.php100.com/html/itnews/it/2012/0904/10992.html
近期,由于国内互联网上出现了一个新的搜索引擎竞争者,关于搜索引擎是否应当遵守Robots协议的问题成为了业内人士讨论的热点。一些人宣称:Robots协议是搜索领域的行业规范,触犯Robots协议是没有底线的行为,不禁不合法,而且还会泄露用户隐私。

笔者也马马虎虎算是个IT工程师,不过主要研究方向是通信技术,在计算机和互联网领域,只能说是比外行人强点,但比内行人还差得多,充其量是个半专业人士。出于好奇,本人查阅了一些和Robots协议相关的资料以及近期的各种热门评论,结果惊讶的发现,那些所谓的“专家”原来绝大多数都是“伪专家”,不过是利用人们对“Robots”的陌生和对“专家”的信任在混淆视听。

  虽然我顶多算是半个专业人士,但还是希望能说几句真话,希望能够帮助读者更加接近真相。

  Robots协议的由来

  早期的互联网主要是“用户-网站”模式。用户通过网站获取信息,网站通过吸引用户点击来实现广告收入。不过,当Google把搜索引擎变成一种成功的商业模式之后,很多网站原有的商业模式遭到了严重的破坏。因为很多用户会停留在搜索引擎的搜索结果之中,不再访问信息的源头或发布信息的网站。

  于是,为了维护自身的利益,一些欧美大型网站联合起来与Google谈判,要求Google必须做到“有所为有所不为”,于是就有了“Robots协议”。

  Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。

  Robots协议的影响

  国内使用Robots协议最典型的案例,就是淘宝网和新浪微博拒绝百度搜索。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。

  一些站长和程序员还把Robots协议当成偷懒的工具:对于那些本来需要加密保存的信息或限制访问的内容,他们只是写个了Robots.txt文件,要求搜索引擎不要去访问,之后便以为万事大吉。这不是典型的掩耳盗铃吗?

  不过,Robots协议最深远的影响还是帮助Google和百度这样的垄断搜索引擎遏制后起的竞争者。这是因为,Google当年在制定这个协议时,特意留下了后手,即:协议中不仅包括是否允许搜索引擎进行搜索的内容,还包括允许谁和不允许谁进行搜索内容。Google和百度在实现了垄断地位之后,就利用这些排斥性规则挡住了后来的进入者。

  微软的必应,国产的搜狗、搜搜等搜索引擎,虽然运行多年,但搜索结果始终差强人意,并不是因为他们的技术能力真的不如百度,很大程度上就是受到了Robots协议的影响。

  Robots协议的误区

  有了前面的介绍,我们就可以来揭露那些“伪专家”们是如何误导技术知识有限的广大公众的。

  1)Robots协议不是行业规范,更不是国际标准

  所谓的Robots协议,其实就是Google自己制定的一个协议规范,并不是各大搜索厂商的共识或统一的协议,也从来没有任何一家国内搜索引擎服务商公开承诺遵守Robots协议或签署类似协议或声明。

  所以说,Robots协议连个行业规范都算不上,更别说什么国际标准了,即便在美国,也只有Google把它当回事来说,而不是真的当回事来做。

  不过客观的说,确实有一些网站站长误以为Robots协议是强制规范,误以为写了Robots.txt就万事大吉了。

  2)Robots协议和保护用户隐私毫不相干

  研究之后我才发现,最普遍,但也是最可笑的一种言论就是把Robots协议和用户隐私保护扯上关系,说什么违背Robots协议是泄漏用户隐私的主要原因。

  Robots协议即不是什么加密算法,也不是什么安全机制,怎么可能阻止外部用户访问相关数据呢?确切的说,Robots协议希望解决的,不是用户能不能访问的问题,而是用户是否可以通过搜索引擎来访问的问题。就算Robots协议挡得住搜索引擎,那也挡不住用户访问啊。只要用户能够从外部访问,那该“泄密”还是会“泄密”。

  想通过Robots协议来保护私密数据,实际上只是一些懒惰的站长们误解和滥用了Robots协议。所谓的搜索引擎泄露用户隐私,本质上说,还是网站本身安全性严重欠缺。

  到底有谁在遵守Robots协议

  到底谁遵守了Robots协议?这个问题很有挑战性。

  最近几天,百度和360相互揭底,各自爆出了不少对方违背Robots协议的案例。非常有趣的是,对于这些案例,双方采取的应对措施都是揭露对方的更多案例,而谁也没敢正面质疑对方提供案例的真实性。同时,在这些爆料中,包括Google在内其他一些国内国外主流搜索引擎也都或多或少的,不幸的躺着中枪。

  这些事情似乎在告诉我们,Robots协议只不过是某些人口中讨伐对手的工具而已,其实,起码在中国,谁也没太把Robots协议真的当回事,除非是自己的垄断地位受到威胁!
回复

使用道具 举报

0

主题

0

好友

4万

积分

光明执政官

16
发表于 2012-9-8 23:57 |只看该作者
xiaokaizi 发表于 2012-9-8 22:52
那某些加密的所谓的艳照呢
能不能这样被抓去啊?

你说的这问题和robots.txt一点关系都没有,robots.txt只涉及在公网上公开的网页。
回复

使用道具 举报

0

主题

0

好友

4万

积分

光明执政官

17
发表于 2012-9-8 23:59 |只看该作者
李文斯顿 发表于 2012-9-8 21:20
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器( ...

你说的这是病毒木马了,远超robots.txt底线了
回复

使用道具 举报

xiaokaizi 该用户已被删除
18
发表于 2012-9-9 13:56 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

0

主题

0

好友

4万

积分

光明执政官

19
发表于 2012-9-15 20:42 |只看该作者
xiaokaizi 发表于 2012-9-9 13:56
比如有些人在qq空间了放了所谓的自拍照 但是qq空间不允许其他人访问
这个能抓去到吗?

如果只是违反robot协议,绝对抓不到啊。本来就是公开的页面才能抓到
回复

使用道具 举报

0

主题

4

好友

10万

积分

黑暗执政官

=,=

20
发表于 2012-9-15 20:47 |只看该作者
非灌水機,純正手動輸入,管理員明鑒.
回复

使用道具 举报

xiaokaizi 该用户已被删除
21
发表于 2012-9-15 21:25 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

手机版|Archiver|八达网    

GMT+8, 2025-11-24 08:25

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部