关于搜索引擎抓取网站毫不相干的文件，谷歌搜出大量 WebShell

在T00ls看到个帖子，就写了点东西，乱写的，将就着看吧……

原帖内容以及各位同学的回复如下，有删减，剔除了一些无意义内容。

标题：关于搜索引擎遍历网站文件的问题，该问题困扰很多天。

内容：

搜索引擎是先进入首页抓取与之相关的一切链接，还是说搜索引擎本身是会遍历整站所有文件的呢？

或者说是网站本身的漏洞呢?允许搜索引擎或其他工具进行遍历访问呢？

求各种牛指点

试验了下只有谷歌会产生如下图的结果。谷歌怎么实现的？

废话不多说直接上图

关于搜索引擎抓取网站毫不相干的文件，谷歌搜出大量 WebShell

谷歌关键词:intitle:XXXX

可以搜索到与整站毫不相关的后门程序

这个后门本身应该不会与整站产生任何连接吧。

就相当于在站内放置了一个毫不相干的文件一样。

可是搜索引擎抓取了。而且数目很庞大的抓取

图片上的关键词只是单纯的一个

如果你在搜索：inurl：diy.asp会有更多的链接

这么庞大的shell抓取是什么原理或者说是什么漏洞？

求大牛指点。到底是网站的漏洞呢还是搜索引擎的技术呢？

路人1：个人觉得google的robots有社工字典库。（本人评论：同学，你想象力太丰富了……）

路人2：可能那些网站之前有列遍目录漏洞,导致蜘蛛爬行到了,自然直接收了或者直接进沙盒了,文件如果一直存在谷歌一般不会K的就算文件不存在谷歌快照也会保存一段时间不像百度文件没了快照基本明天就掉

路人3：。。。。。。。跟社工字典有关系么？我不这么想谷歌是机器他知道什么是字典呢？别忘了字典都人为干预下编辑的

路人3：回复路人2，我觉得也可能是网站本身的漏洞。这样的漏洞搜索引擎能利用我们应该也可以利用吧！感觉是不是跟IIS设置的目录浏览有关系呢？

路人5：如果403可以遍历的话 google等都可以抓取到

路人6：也不是目录问题就抓到了，我在网站目录下方了个htm文件，百度和 google都一样能收录，就是快照不大更新，谁知道他是咋收录的，如果知道他是咋收录的写一个类似爬行网站的工具那就牛x 啦..

路人7：有人能已经能做到了。。。。很大批量的扫别人的shell之后破之。。。很夸张据我所知此人手上shell数量不下几十万

路人8：应该与我们自己访问的时候留下什么东西然后被抓取了

路人9：一个站呢可能是巧合刚巧在蜘蛛访问的时候我们也在访问这样被蜘蛛收录了，可是谷歌上的关键词很多啊多到夸张夸张到一定境界！！！！怎么个解释呢

路人10：跟Rices 牛请教了下这个问题，我们使用的很多shell里边都有百度或者谷歌的链接，这些就相当于百度或者谷歌的反链。搜索引擎应该就是通过这个链接爬过来的不清楚是不是这么回事。（本人评论：看到这个，我不吐槽不行了，你们完全没搞明白，什么是友情链接，什么是反链，我靠！！！！你给自己站一个他不知道的页面，放了他的链接，他就知道了你这个页面了？我靠，他是神吗？？？无语了……）

路人11：如果我没猜错的话，谷歌不光是历遍网站，而且还会历遍用户电脑上的缓存。如果访问多的话，应该就被收录了。

路人12：搜索引擎这是门技术活，研究透了 seo爽歪歪啊，话说同样的后门关键词，谷歌能搜出很多百度一个都没或者说很少这是怎么回事呢 ? 我觉得这个应该是搜索引擎的技术吧谷歌的抓取原理很特别（本人评论：这个和技术原理没关系，只是过滤规则的问题，百度是，只要百度认为这个链接没人访问，垃圾链接，或者内容雷同的链接，或者百度看你不爽，或者权重不够高，全都给你过滤掉，只留下一些他认为的极品链接，而谷歌呢，尽可能的搜刮一切链接，只要你有，全都给你搜刮来！！！！所以其内容的的丰富程度难以想象，百度根本不能比。）

路人13：蜘蛛会在各个网站上转瞅着链接就会抓的，site:XXX.com 关键词呵呵 shell上的 title

路人14：这或许和我们使用的游缆器有关也说不定， chrome,alexa插件,种种插件都有可能把我们曾访问过的网址发给蜘蛛（本人评论：同学，不可否认，你的想象力，十分十分的丰富……）

囧死，省略……

还是我给权威答案吧，解决以上所有同学的疑问，以下是正确的解释，所有可能的情况如下：

0x00、网站自身存在目录权限设置的问题，导致暴露文件列表，被蜘蛛抓取到，360以前那隐私暴漏，不就是这么个回事么，但是由于这是大规模出现，所以可能性仅为：1%

0x01、网站本身存在指向该文件的连接，即使在很不起眼的角落里，蜘蛛也可以抓到，尤其是谷歌蜘蛛，眼睛雪亮雪亮的（百度蜘蛛会忽略这些低级链接，以及雷同内容，这也是为什么谷歌比百度结果多的原因），但是由于这些是WebShell，所以存在连接的可能性为：1%。

0x02、在别的网站放的连接，文本字符串，或者以其他形式出现，例如什么被黑站点统计，以及各种论坛发的装逼的连接，被蜘蛛抓到（谷歌蜘蛛最爱干这事了），此种情况可能性为：90% 以上。

0x03、浏览器自身或插件，或者其他各种应用软件，收集用户访问的历史记录，并且与搜索引擎运营商有合作，将这些记录发给搜索引擎导致被收录，这个你们真的猜错了，事实上是不可能存在这种合作行为的，可能性仅为：0.001%。

0x04、服务器被蜘蛛用0day黑了，跑上去搜索文件，这种情况理论上存在，但实际上纯属天方夜谭，可能性仅为：0.0000000000000000000000000000000001%。

0x05、蜘蛛自身有扫描网站路径、文件的功能，扫描一些路径，就如同你们扫目录一样，但是实际上，这种情况也不可能存在，且不说互联网上这么多网站每个都扫一遍耗费的资源，并且这完全是没有意义的行为，可能性同上。

0x06、robots.txt 中写的禁止收录的路径，一般找后台的话，看看这个文件也许有意外发现，但是对于蜘蛛来说，所有蜘蛛必须遵循该文件的规则，不排除一些小公司的垃圾蜘蛛不遵守规则，但你说的是谷歌公司的蜘蛛，所以可能性同上。

综上所述，最有可能的情况为“0x02”，验证该情况的方法为，把搜索结果中的链接复制下来，再放到谷歌去搜这个链接，不出意外的话，你能看到一大堆神马被黑站点统计类的网站，以及各种装逼的网站链接……

实际上，你根本不用去验证 0x02 了，这是铁定的真理，并且N年前已验证过，你懂我懂，大家都懂。

另外，告诉你们一个日黑万站的方法，经常有傻逼黑客，去神马被黑站点统计类的网站，疯狂的提交WebShell地址，以显示自己有多么牛逼，而且这些WebShell路径和密码基本一样，So，你只要知道其中一个密码，就能进去所有的Shell，So，你懂了……

至于怎么知道其中一个密码，就不用我说了吧，一般这种批量拿的站都比较烂，随便日一个看文件就行了……

其他类似的方法，谷歌批量搜索某种存在万能后门的WebShell关键词，So，你懂了……

类似的方法很多，不说了……

至于如何防止被抓取，只要你的链接，不存在于任何一个已知的页面中即可，这是十分容易做到的……

留言评论（旧系统）：

【匿名者】 @ 2012-09-07 16:32:27

This arlitce keeps it real, no doubt.

本站回复：

[null]

【匿名者】 @ 2012-09-09 15:09:22

I think you hit a bullseye there flelas!

本站回复：

sb!

还是我 @ 2013-12-21 02:39:29

刚刚打了那么多字，尼玛验证码错误，一刷新全部没有了！！！！！！！！！简单的说下，还有2种可能： 1：用户使用摆渡浏览器，被其暗中记录并上传服务器； 2：孤岛效应，用户在摆渡把它没机会收录的东西进行了搜索，进行了访问，为它抓取提供了可能。

本站回复：

嗯，有此可能。

文章目录