在T00ls看到个帖子,就写了点东西,乱写的,将就着看吧……

原帖内容以及各位同学的回复如下,有删减,剔除了一些无意义内容。


标题:关于搜索引擎遍历网站文件的问题,该问题困扰很多天。

内容:

搜索引擎是先进入首页抓取与之相关的一切链接,还是说搜索引擎本身是会遍历整站所有文件的呢?

或者说是网站本身的漏洞呢?允许搜索引擎或其他工具进行遍历访问呢?

求各种牛指点

试验了下只有谷歌会产生如下图的结果。谷歌怎么实现的?

废话不多说直接上图

关于搜索引擎抓取网站毫不相干的文件,谷歌搜出大量 WebShell

谷歌关键词:intitle:XXXX

可以搜索到与整站毫不相关的后门程序

这个后门本身应该不会与整站产生任何连接吧。

就相当于在站内放置了一个毫不相干的文件一样。

可是搜索引擎抓取了。而且数目很庞大的抓取 

图片上的关键词只是单纯的一个 

如果你在搜索:inurl:diy.asp会有更多的链接

这么庞大的shell抓取是什么原理或者说是什么漏洞?

求大牛指点。到底是网站的漏洞呢 还是搜索引擎的技术呢?


路人1:个人觉得google的robots有社工字典库。 (本人评论:同学,你想象力太丰富了……

路人2:可能那些网站之前有列遍目录漏洞,导致蜘蛛爬行到了,自然直接收了或者直接进沙盒了,文件如果一直存在 谷歌一般不会K的 就算文件不存在 谷歌快照也会保存一段时间 不像百度 文件没了 快照基本明天就掉

路人3:。。。。。。。跟社工字典有关系么? 我不这么想 谷歌是机器 他知道什么是字典呢? 别忘了 字典都人为干预下编辑的

路人3:回复路人2,我觉得也可能是网站本身的漏洞。这样的漏洞 搜索引擎能利用 我们应该也可以利用吧!感觉是不是跟IIS设置的目录浏览有关系呢?

路人5:如果403可以遍历的话  google等都可以抓取到

路人6:也不是目录问题就抓到了,我在网站目录下方了个htm文件 ,百度和 google都一样能收录,就是快照不大更新,谁知道他是咋收录的,如果知道他是咋收录的 写一个类似爬行网站的工具  那就 牛x 啦..

路人7:有人能已经能做到了。。。。很大批量的扫别人的shell之后破之。。。很夸张  据我所知 此人手上shell数量不下几十万

路人8:应该与我们自己访问的时候留下什么东西 然后被抓取了

路人9:一个站呢可能是巧合刚巧在蜘蛛访问的时候我们也在访问 这样被蜘蛛收录了,可是谷歌上的关键词很多啊 多到夸张 夸张到一定境界!!!!怎么个解释呢

路人10:跟Rices  牛请教了下这个问题,我们使用的很多shell里边都有百度或者谷歌的链接,这些就相当于百度或者谷歌的反链。搜索引擎应该就是通过这个链接爬过来的  不清楚是不是这么回事。(本人评论:看到这个,我不吐槽不行了,你们完全没搞明白,什么是友情链接,什么是反链,我靠!!!!你给自己站一个他不知道的页面,放了他的链接,他就知道了你这个页面了?我靠,他是神吗???无语了……)

路人11:如果我没猜错的话,谷歌不光是历遍网站,而且还会历遍用户电脑上的缓存。如果访问多的话,应该就被收录了。

路人12:搜索引擎这是门技术活, 研究透了 seo爽歪歪啊,话说同样的后门关键词,谷歌能搜出很多 百度一个都没 或者说很少 这是怎么回事呢 ? 我觉得这个应该是搜索引擎的技术吧  谷歌的抓取原理很特别(本人评论:这个和技术原理没关系,只是过滤规则的问题,百度是,只要百度认为这个链接没人访问,垃圾链接,或者内容雷同的链接,或者百度看你不爽,或者权重不够高,全都给你过滤掉,只留下一些他认为的极品链接,而谷歌呢,尽可能的搜刮一切链接,只要你有,全都给你搜刮来!!!!所以其内容的的丰富程度难以想象,百度根本不能比。

路人13:蜘蛛会在各个网站上转瞅着链接就会抓的,site:XXX.com 关键词 呵呵 shell上的 title

路人14:这或许和我们使用的游缆器有关也说不定, chrome,alexa插件,种种插件都有可能把我们曾访问过的网址发给蜘蛛 (本人评论:同学,不可否认,你的想象力,十分十分的丰富……)

囧死,省略……


还是我给权威答案吧,解决以上所有同学的疑问,以下是正确的解释,所有可能的情况如下:

0x00、网站自身存在目录权限设置的问题,导致暴露文件列表,被蜘蛛抓取到,360以前那隐私暴漏,不就是这么个回事么,但是由于这是大规模出现,所以可能性仅为:1%

0x01、网站本身存在指向该文件的连接,即使在很不起眼的角落里,蜘蛛也可以抓到,尤其是谷歌蜘蛛,眼睛雪亮雪亮的(百度蜘蛛会忽略这些低级链接,以及雷同内容,这也是为什么谷歌比百度结果多的原因),但是由于这些是WebShell,所以存在连接的可能性为:1%。

0x02、在别的网站放的连接,文本字符串,或者以其他形式出现,例如什么被黑站点统计,以及各种论坛发的装逼的连接,被蜘蛛抓到(谷歌蜘蛛最爱干这事了),此种情况可能性为:90% 以上。

0x03、浏览器自身或插件,或者其他各种应用软件,收集用户访问的历史记录,并且与搜索引擎运营商有合作,将这些记录发给搜索引擎导致被收录,这个你们真的猜错了,事实上是不可能存在这种合作行为的,可能性仅为:0.001%。

0x04、服务器被蜘蛛用0day黑了,跑上去搜索文件,这种情况理论上存在,但实际上纯属天方夜谭,可能性仅为:0.0000000000000000000000000000000001%。

0x05、蜘蛛自身有扫描网站路径、文件的功能,扫描一些路径,就如同你们扫目录一样,但是实际上,这种情况也不可能存在,且不说互联网上这么多网站每个都扫一遍耗费的资源,并且这完全是没有意义的行为,可能性同上。

0x06、robots.txt 中写的禁止收录的路径,一般找后台的话,看看这个文件也许有意外发现,但是对于蜘蛛来说,所有蜘蛛必须遵循该文件的规则,不排除一些小公司的垃圾蜘蛛不遵守规则,但你说的是谷歌公司的蜘蛛,所以可能性同上。

综上所述,最有可能的情况为“0x02”,验证该情况的方法为,把搜索结果中的链接复制下来,再放到谷歌去搜这个链接,不出意外的话,你能看到一大堆神马被黑站点统计类的网站,以及各种装逼的网站链接……

实际上,你根本不用去验证 0x02 了,这是铁定的真理,并且N年前已验证过,你懂我懂,大家都懂。

另外,告诉你们一个日黑万站的方法,经常有傻逼黑客,去神马被黑站点统计类的网站,疯狂的提交WebShell地址,以显示自己有多么牛逼,而且这些WebShell路径和密码基本一样,So,你只要知道其中一个密码,就能进去所有的Shell,So,你懂了……

至于怎么知道其中一个密码,就不用我说了吧,一般这种批量拿的站都比较烂,随便日一个看文件就行了……

其他类似的方法,谷歌批量搜索某种存在万能后门的WebShell关键词,So,你懂了……

类似的方法很多,不说了……

至于如何防止被抓取,只要你的链接,不存在于任何一个已知的页面中即可,这是十分容易做到的……

留言评论(旧系统):

【匿名者】 @ 2012-09-07 16:32:27

This arlitce keeps it real, no doubt.

本站回复:

[null]

【匿名者】 @ 2012-09-09 15:09:22

I think you hit a bullseye there flelas!

本站回复:

sb!

还是我 @ 2013-12-21 02:39:29

刚刚打了那么多字,尼玛验证码错误,一刷新全部没有了!!!!!!!!! 简单的说下,还有2种可能: 1:用户使用摆渡浏览器,被其暗中记录并上传服务器; 2:孤岛效应,用户在摆渡把它没机会收录的东西进行了搜索,进行了访问,为它抓取提供了可能。

本站回复:

嗯,有此可能。