Name : Baidu Related Searches Crawler (百度相关搜索抓取工具)
Version: 1.0
Author : Nuclear'Atk, url: https://lcx.cc/
Command:
word : [必选] 指定初始关键词(抓取该关键词的相关搜索词)
-m x : [可选] 抓取到x个关键词后自动停止(默认=1500),推荐!
-t x : [可选] 循环抓取x次后自动停止(默认=2),高级功能,慎用!
抓取结果保存至“初始关键词.txt”,覆盖模式。
Example:
baidu.exe 中国
抓取和“中国”相关的搜索词(默认抓到1500个词或循环抓取2次后停止)
baidu.exe 中国 -m 100
抓取和“中国”相关的搜索词,抓到100个词后停止。
baidu.exe 中国 -t 2
抓取和“中国”相关的搜索词,循环抓取2次后停止。
baidu.exe 中国 -m 100 -t 2
抓取和“中国”相关的搜索词,抓到100个词或循环抓取2次后停止。
一个小程序,自己写来用的,干什么用的,大家都懂,就不介绍了,这里只简单的说一下用法……
程序自带的说明及示例已经比较详细了,这里就讲一下什么是“循环次数”:
首先,程序运行开始时会要求你给一个初始关键词,也叫种子关键词,即:抓取与种子关键词相关的“百度相关搜索”内容,简单点理解就是,假设你去百度搜索某个词,把页面拉到最下端,底端有“相关搜索”,后边有几个相关的关键词,程序抓的就是这个,你搜索的词叫做种子关键词或初始关键词……
平均一个词会扩展小于等于10个的相关搜索词(百度相关搜索位置为小于等于10个),程序把抓到的每个结果(上边说的)再拿去搜索,把搜索的结果保存,然后再把新的结果拿去搜索,再保存,依次循环,循环次数指的就是将这个过程循环多少次,次数越多抓取的词越多……
为什么写的“高级功能,慎用!”?
因为每次循环,抓取的次数、词数都会翻倍,成几何上升,如果你设置的循环次数太大,那么程序就停不下来了,为什么呢?简单的举个例子……
第一次,将种子关键词,拿去搜索,得到10个相关关键词。
第二次,第1次循环,把这10个词再挨个拿去搜索,每个词得到10个相关关键词,最后总计约:10(第一次的)+10*10(第一次的每个词扩展十个)=110个。
第三次,第2次循环,把第二次扩展的100个词,拿去搜索,每个扩展十个,最后得到:10(第一次的)+100(第二次的)+100*10(这次的)=1110个……
第四次,第3次循环,以此类推,约:10 + 100 + 1000 + 1000*10 = 11110 个……
第五次,第4次循环,10 + 100 + 1000 + 10000 + 10000*10 = 111110 个……
第六次,第5次循环,约 1111110 个,数字已经十分庞大了,所以循环次数不要设置太大,建议 2-3 即可……
循环次数太多也没什么用,因为循环次数越多,后来抓取的词与种子关键词相关性越低,最后甚至毫不相关……
达到指定条件、抓取完成后,最后程序会自动过滤重复关键词,只保留唯一数据……
下载地址:
(2013年1月20日,20:47:01:修改一些细节……)
百度相关搜索抓取工具 v1.0.rar
留言评论(旧系统):
丁崽 @ 2013-01-20 21:13:45
莫非是抓长尾关键词的?
本站回复:
你懂的
佚名 @ 2013-01-20 23:37:46
哇靠 垃圾站的好帮手啊
本站回复:
╮(╯_╰)╭
佚名 @ 2013-01-20 23:38:57
老大手里有破解版的d58蜘蛛侠站群源码吗
本站回复:
自己写一套,比那玩意儿强多了……
佚名 @ 2013-01-20 23:48:44
只能搜索百度的吗 360 搜狗 谷歌的呢 可不可以综合一下呢 最后再筛选过滤一下重复关键字~!
本站回复:
360 搜狗 谷歌,只是换个抓取地址的问题,重复关键字已经有过滤了。
佚名 @ 2013-01-21 02:46:40
验证码好强大o(╯□╰)o
好东西,赶快放啊,不过现在百度好像不好做了,
再请教核大个问题,服务器已提权,远程进不去什么原因(加了用户不行,5下出不来,杀毒也只有361,)
本站回复:
东西过段时间放出,你的问题描述信息太少,无法判断。
佚名 @ 2013-01-21 08:58:10
留言不能上图,发邮件了,核大给看看啊
本站回复:
只看到几张图…… ╮(╯_╰)╭
flowind @ 2013-01-21 10:03:17
自己也有一个关键字抓取搜索链接的...建议你添加个显示权重的功能..这个比较不错..你这个比较不错就是抓取相关字.....用做那啥...嘿嘿....
本站回复:
相关关键词又不是网址,没有“权重”这一说……
teletell @ 2013-01-21 22:01:00
稍后放出,太靠后了啊~~~~
本站回复:
╮(╯_╰)╭
teletell @ 2013-01-21 22:05:50
站长,你网站有日志没有,强烈要求删除!!太没自尊了!!!我是回答1+1回复问题的,日!既然有这样的问题,那些考试命令的搞什么!@#¥%……&*()——(这次回答了开机按钮除了开机的功能?我差点回答还是开机@@@@)
本站回复:
没有日志……
teletell @ 2013-01-21 22:16:15
再不放觉觉了啊,也不知你干什么呢?这有耐心~~
本站回复:
很好,一周后再放……
佚名 @ 2013-01-22 16:00:07
等等等等~~
本站回复:
╮(╯_╰)╭
Mr.V @ 2013-01-23 01:00:40
等了这么久才发 竟然不是高清无码 太失望了
本站回复:
那好,下次干脆不发了。
Mr.V @ 2013-01-23 14:31:31
核总别生气,开个玩笑 核总出品当然必属精品了
最近留言的验证好简单啊 都不好意思了 ╰( ̄▽ ̄)╭
本站回复:
验证码没换过…… ╮(╯_╰)╭
佚名 @ 2013-01-23 20:46:34
首先向核大致歉:上次我说那服,是我错了,竟然是自己没加密码(也是郁闷很久之后,登陆之,手快直接enter,没想到提示不允许的登陆,终于大悟)
找点X词测试核总你的工具了(~ o ~)~zZ
本站回复:
╮(╯_╰)╭
teletell @ 2013-01-23 21:51:10
让我给提前催熟了呵呵~~
本站回复:
?
佚名 @ 2013-01-24 10:46:57
核总,来个Google.com的抓取工具吧
本站回复:
有空了再说……
佚名 @ 2013-01-24 12:12:54
这个工具 win7下面闪退啊 直接给bat啊 核总。。。。。
本站回复:
这是控制台程序,打开cmd,把路径填进去,你就看到说明了,你居然问我要什么批处理???菜的厉害啊……
文章作者
Nuclear'Atk
上次更新
2013-01-26
许可协议
Nuclear'Atk(核攻击)网络安全实验室版权所有,转载请注明出处。