如何判断域名不一样的两个网站实际上是一个网站
xsser (十根阳具有长短!!) | 2014-05-18 20:16
如题
各种吐槽:
1#
p.z (一回头 青春都喂了狗) | 2014-05-18 20:18
笨 DDOS它啊 两个都挂了就是一个
2#
xsser (十根阳具有长短!!) | 2014-05-18 20:19
@p.z 主要是这个网站是baidu
3#
open (心佛即佛,心魔即魔.) | 2014-05-18 20:21
这个判断的数据太多了吧,第一个是看IP,两个域名是不是指向一个IP,还有就是头,或者引用的资源文件,或者看看是否有特殊的文件,例如robots.txt什么的,404页面什么的,综合吧。
4#
Mujj (Krypt VPS特价www.80host.com) | 2014-05-18 20:30
看返回的头就行了
5#
xsser (十根阳具有长短!!) | 2014-05-18 20:31
@Mujj how?
6#
BadCat (悲剧的我什么都不会......) | 2014-05-18 20:32
@xsser o.o
7#
银冥币 (养成了一个习惯.见框就x,见站就x,我爱X) | 2014-05-18 20:39
@xsser 写个程序,爬行匹配
8#
风萧萧 (hi) | 2014-05-18 21:08
拿到shell就知道了
9#
从容 (低调求发展.) | 2014-05-18 21:12
同IP
10#
无敌L.t.H (:端异是都乳贫持支Ѿ乳巨是须必神肉) | 2014-05-18 21:18
@xsser 这样问好像有点不好回答,特别是在反向代理、负载均衡等情况下,比如有一个前端是Squid,另一个前端是HAProxy,再有另外的前端是Nginx、Varnish、ATS什么的,都从一个或者说一组同步的源取数据,那么返回的数据应该可以说是一样的,只是在HTTP头或者GZip压缩等地方有区别,并不好判断是不是同一个网站。
DDOS的话,DDOS前端穿透到后端,可能会超过后端防火墙的阀值,使得前端被禁IP之类的,但是另外的前端并没有被禁,也不好判断是不是同一个网站。
Cookies和Session可能会有帮助但是不好利用。
11#
小黄蜂 | 2014-05-18 21:44
判断内容和前端,应该可以
12#
insight-labs (Root Yourself in Success) | 2014-05-18 21:46
@xsser
把页面html diff一下……
13#
神仙 | 2014-05-18 21:46
难道是那个pw的站?
14#
cnrstar (Be My Personal Best!) | 2014-05-18 21:53
爬一下看返回的文件MD5值,都一样的肯定就是同一个了额
15#
0ps | 2014-05-18 21:58
看有没有会员系统,注册个号就知道了。
16#
X,D | 2014-05-18 22:05
拿shell,肉眼扫描。
17#
Mujj (Krypt VPS特价www.80host.com) | 2014-05-18 22:24
1毛一个,放打码平台人工识别,省时又省力。
18#
lxj616 (简介) | 2014-05-18 22:30
whois 然后打电话 问他们是不是一个
19#
px1624 (aaaaaaaaa) | 2014-05-18 22:50
根据新浪src的标准就是直接ping然后看是不是一个ip
20#
DM_ (http://x0day.me) | 2014-05-18 23:02
比较一些文件的md5
21#
孤月寒城 | 2014-05-18 23:12
不好判断,网站相同内容,不同域名有很多种可能性,有可能是一样,也有可能是镜像的。
22#
雷疯 | 2014-05-18 23:15
注册个账号看看通用不通用不就行么
23#
雷疯 | 2014-05-18 23:16
或者找找别人上传的图片 如果是那种用日期生成文件名的那种 文件名一样 图片又一样 应该是一个
24#
心伤的胖子 (天凉好个球) | 2014-05-19 00:42
@px1624 这怎么成了新浪 src 的标准?
25#
xsser (十根阳具有长短!!) | 2014-05-19 00:53
如果要程序判断呢 自己注册个数据的确是比较靠谱的 但是无法自动化啊
26#
px1624 (aaaaaaaaa) | 2014-05-19 01:41
@心伤的胖子 不是么?!其他src貌似没这个标准
27#
CCOz | 2014-05-19 01:50
@xsser 模拟post登陆啊。。。一错一对两个账号,两个网站结果一致的话就中啊
28#
Comer | 2014-05-19 06:03
眼神儿啊
29#
核攻击 (统治全球,奴役全人类!毁灭任何胆敢阻拦的有机生物!) | 2014-05-19 10:29
楼上几位说的主动修改其中一个站点的数据(注册会员、修改用户个人资料、上传文件等……),看其他网站是否也修改了,这方法不错……
30#
xsser (十根阳具有长短!!) | 2014-05-19 15:29
@insight-labs diff是一个办法,识别dom结构也是一个办法 :)
31#
P w | 2014-05-19 15:42
@xsser 页面相似度也可以
32#
xsser (十根阳具有长短!!) | 2014-05-19 15:43
@P w 有开源的什么好算法么
33#
insight-labs (Root Yourself in Success) | 2014-05-19 18:58
@xsser 其实你跑一遍dom tree比按行diff慢的多……
页面相似度算法我有,一般不告诉别人,看你是我好基友我告诉你:simhash
不用自己写了,各种语言的算法都有开源实现。
34#
xsser (十根阳具有长短!!) | 2014-05-19 19:05
@insight-labs 我经常看到有些个站 同一个源码同一个逻辑 但是你北京过去的就说北京人你好,要是上海过去的就说上海人你好,这样比较困扰人吧
35#
insight-labs (Root Yourself in Success) | 2014-05-19 19:18
@xsser
不会,用simhash的话如果页面长度够大,如果只有一两行或者一两个词不一样的话,hash里面大部分还都是一样的。
diff也是一样的道理
36#
abaddon (我就认识这几个字母因此取了这名字) | 2014-05-19 21:22
@open 一个网站可能有多个IP
合法做出点数据变化 看能不能在另一个“镜像”上复现数据变化的结果
37#
U神 (我的乌云币:3) | 2014-05-19 21:32
@xsser 你是说这个?http://ijoiqo.vycuvobv.pw/?id=584316946413714
38#
Bloodwolf (little wolf) | 2014-05-20 01:41
楼上几位说的主动修改其中一个站点的数据(注册会员、修改用户个人资料、上传文件等……),看其他网站是否也修改了,这方法不错……
39#
雅柏菲卡 (万物有灵,切忌污损。。。。。。) | 2014-05-20 05:31
DNS?
40#
心伤的胖子 (天凉好个球) | 2014-05-20 14:29
@px1624 看实际情况的,不是所有的域名指向同一个 IP 都是一个网站的,其他 src 肯定也是这样。
41#
px1624 (aaaaaaaaa) | 2014-05-20 14:37
@心伤的胖子 我怎么觉得你是新浪src的pc的马甲啊
42#
123 (v2ex) | 2014-05-20 16:22
@xsser http://www.webconfs.com/similar-page-checker.php
留言评论(旧系统):