如何判断域名不一样的两个网站实际上是一个网站

xsser (十根阳具有长短!!) | 2014-05-18 20:16

如题

[原文地址]

各种吐槽:

1#

p.z (一回头 青春都喂了狗) | 2014-05-18 20:18

笨 DDOS它啊 两个都挂了就是一个

2#

xsser (十根阳具有长短!!) | 2014-05-18 20:19

@p.z 主要是这个网站是baidu

3#

open (心佛即佛,心魔即魔.) | 2014-05-18 20:21

这个判断的数据太多了吧,第一个是看IP,两个域名是不是指向一个IP,还有就是头,或者引用的资源文件,或者看看是否有特殊的文件,例如robots.txt什么的,404页面什么的,综合吧。

4#

Mujj (Krypt VPS特价www.80host.com) | 2014-05-18 20:30

看返回的头就行了

5#

xsser (十根阳具有长短!!) | 2014-05-18 20:31

@Mujj how?

6#

BadCat (悲剧的我什么都不会......) | 2014-05-18 20:32

@xsser o.o

7#

银冥币 (养成了一个习惯.见框就x,见站就x,我爱X‮) | 2014-05-18 20:39

@xsser 写个程序,爬行匹配

8#

风萧萧 (hi) | 2014-05-18 21:08

拿到shell就知道了

9#

从容 (低调求发展.) | 2014-05-18 21:12

同IP

10#

无敌L.t.H (:‮端异是都乳贫持支Ѿ乳巨是须必神肉) | 2014-05-18 21:18

@xsser 这样问好像有点不好回答,特别是在反向代理、负载均衡等情况下,比如有一个前端是Squid,另一个前端是HAProxy,再有另外的前端是Nginx、Varnish、ATS什么的,都从一个或者说一组同步的源取数据,那么返回的数据应该可以说是一样的,只是在HTTP头或者GZip压缩等地方有区别,并不好判断是不是同一个网站。

DDOS的话,DDOS前端穿透到后端,可能会超过后端防火墙的阀值,使得前端被禁IP之类的,但是另外的前端并没有被禁,也不好判断是不是同一个网站。

Cookies和Session可能会有帮助但是不好利用。

11#

小黄蜂 | 2014-05-18 21:44

判断内容和前端,应该可以

12#

insight-labs (Root Yourself in Success) | 2014-05-18 21:46

@xsser

把页面html diff一下……

13#

神仙 | 2014-05-18 21:46

难道是那个pw的站?

14#

cnrstar (Be My Personal Best!) | 2014-05-18 21:53

爬一下看返回的文件MD5值,都一样的肯定就是同一个了额

15#

0ps | 2014-05-18 21:58

看有没有会员系统,注册个号就知道了。

16#

X,D | 2014-05-18 22:05

拿shell,肉眼扫描。

17#

Mujj (Krypt VPS特价www.80host.com) | 2014-05-18 22:24

1毛一个,放打码平台人工识别,省时又省力。

18#

lxj616 (简介) | 2014-05-18 22:30

whois 然后打电话 问他们是不是一个

19#

px1624 (aaaaaaaaa) | 2014-05-18 22:50

根据新浪src的标准就是直接ping然后看是不是一个ip

20#

DM_ (http://x0day.me) | 2014-05-18 23:02

比较一些文件的md5

21#

孤月寒城 | 2014-05-18 23:12

不好判断,网站相同内容,不同域名有很多种可能性,有可能是一样,也有可能是镜像的。

22#

雷疯 | 2014-05-18 23:15

注册个账号看看通用不通用不就行么

23#

雷疯 | 2014-05-18 23:16

或者找找别人上传的图片 如果是那种用日期生成文件名的那种 文件名一样 图片又一样 应该是一个

24#

心伤的胖子 (天凉好个球) | 2014-05-19 00:42

@px1624 这怎么成了新浪 src 的标准?

25#

xsser (十根阳具有长短!!) | 2014-05-19 00:53

如果要程序判断呢 自己注册个数据的确是比较靠谱的 但是无法自动化啊

26#

px1624 (aaaaaaaaa) | 2014-05-19 01:41

@心伤的胖子 不是么?!其他src貌似没这个标准

27#

CCOz | 2014-05-19 01:50

@xsser 模拟post登陆啊。。。一错一对两个账号,两个网站结果一致的话就中啊

28#

Comer | 2014-05-19 06:03

眼神儿啊

29#

核攻击 (统治全球,奴役全人类!毁灭任何胆敢阻拦的有机生物!) | 2014-05-19 10:29

楼上几位说的主动修改其中一个站点的数据(注册会员、修改用户个人资料、上传文件等……),看其他网站是否也修改了,这方法不错……

30#

xsser (十根阳具有长短!!) | 2014-05-19 15:29

@insight-labs diff是一个办法,识别dom结构也是一个办法 :)

31#

P w | 2014-05-19 15:42

@xsser 页面相似度也可以

32#

xsser (十根阳具有长短!!) | 2014-05-19 15:43

@P w 有开源的什么好算法么

33#

insight-labs (Root Yourself in Success) | 2014-05-19 18:58

@xsser 其实你跑一遍dom tree比按行diff慢的多……

页面相似度算法我有,一般不告诉别人,看你是我好基友我告诉你:simhash

不用自己写了,各种语言的算法都有开源实现。

34#

xsser (十根阳具有长短!!) | 2014-05-19 19:05

@insight-labs 我经常看到有些个站 同一个源码同一个逻辑 但是你北京过去的就说北京人你好,要是上海过去的就说上海人你好,这样比较困扰人吧

35#

insight-labs (Root Yourself in Success) | 2014-05-19 19:18

@xsser

不会,用simhash的话如果页面长度够大,如果只有一两行或者一两个词不一样的话,hash里面大部分还都是一样的。

diff也是一样的道理

36#

abaddon (我就认识这几个字母因此取了这名字) | 2014-05-19 21:22

@open 一个网站可能有多个IP

合法做出点数据变化 看能不能在另一个“镜像”上复现数据变化的结果

37#

U神 (我的乌云币:3) | 2014-05-19 21:32

@xsser 你是说这个?http://ijoiqo.vycuvobv.pw/?id=584316946413714

38#

Bloodwolf (little wolf) | 2014-05-20 01:41

楼上几位说的主动修改其中一个站点的数据(注册会员、修改用户个人资料、上传文件等……),看其他网站是否也修改了,这方法不错……

39#

雅柏菲卡 (万物有灵,切忌污损。。。。。。) | 2014-05-20 05:31

DNS?

40#

心伤的胖子 (天凉好个球) | 2014-05-20 14:29

@px1624 看实际情况的,不是所有的域名指向同一个 IP 都是一个网站的,其他 src 肯定也是这样。

41#

px1624 (aaaaaaaaa) | 2014-05-20 14:37

@心伤的胖子 我怎么觉得你是新浪src的pc的马甲啊

42#

123 (v2ex) | 2014-05-20 16:22

@xsser http://www.webconfs.com/similar-page-checker.php

留言评论(旧系统):

佚名 @ 2014-05-19 20:02:20

A上传图片,A下载,验证md5,然后 B下载,验证md5;A上传后立即删除,看B是否同样有出现后删除的情况(采集器可以采集,能否删除就不一定了)。

本站回复:

此法不错,删除这一步的话,估计没必要,前边已经是修改数据了。

YsGer @ 2014-05-20 12:18:24

好吧 ! 以前 我一直以为 这些文章都是 读者 自己投递的 - - 想什么时候 我才可以在这个站投递 这样一篇文章! 后来 发现 原来都是站长在乌云上copy 过来的 - -

本站回复:

有部分是投稿,亲,你可也可以投稿哟,发到邮箱:root@lcx.cc