Baidu Related Searches Crawler (百度相关搜索抓取工具) v1.0

Baidu Related Searches Crawler (百度相关搜索抓取工具) v1.0

Name   : Baidu Related Searches Crawler (百度相关搜索抓取工具)
Version: 1.0
Author : Nuclear'Atk, url: https://lcx.cc/
Command:
        word : [必选] 指定初始关键词(抓取该关键词的相关搜索词)
        -m x : [可选] 抓取到x个关键词后自动停止(默认=1500),推荐!
        -t x : [可选] 循环抓取x次后自动停止(默认=2),高级功能,慎用!
        抓取结果保存至“初始关键词.txt”,覆盖模式。
Example:
        baidu.exe 中国
        抓取和“中国”相关的搜索词(默认抓到1500个词或循环抓取2次后停止)

        baidu.exe 中国 -m 100
        抓取和“中国”相关的搜索词,抓到100个词后停止。

        baidu.exe 中国 -t 2
        抓取和“中国”相关的搜索词,循环抓取2次后停止。

        baidu.exe 中国 -m 100 -t 2
        抓取和“中国”相关的搜索词,抓到100个词或循环抓取2次后停止。

一个小程序,自己写来用的,干什么用的,大家都懂,就不介绍了,这里只简单的说一下用法……

程序自带的说明及示例已经比较详细了,这里就讲一下什么是“循环次数”:

首先,程序运行开始时会要求你给一个初始关键词,也叫种子关键词,即:抓取与种子关键词相关的“百度相关搜索”内容,简单点理解就是,假设你去百度搜索某个词,把页面拉到最下端,底端有“相关搜索”,后边有几个相关的关键词,程序抓的就是这个,你搜索的词叫做种子关键词或初始关键词……

平均一个词会扩展小于等于10个的相关搜索词(百度相关搜索位置为小于等于10个),程序把抓到的每个结果(上边说的)再拿去搜索,把搜索的结果保存,然后再把新的结果拿去搜索,再保存,依次循环,循环次数指的就是将这个过程循环多少次,次数越多抓取的词越多……

为什么写的“高级功能,慎用!”?

因为每次循环,抓取的次数、词数都会翻倍,成几何上升,如果你设置的循环次数太大,那么程序就停不下来了,为什么呢?简单的举个例子……

第一次,将种子关键词,拿去搜索,得到10个相关关键词。

第二次,第1次循环,把这10个词再挨个拿去搜索,每个词得到10个相关关键词,最后总计约:10(第一次的)+10*10(第一次的每个词扩展十个)=110个。

第三次,第2次循环,把第二次扩展的100个词,拿去搜索,每个扩展十个,最后得到:10(第一次的)+100(第二次的)+100*10(这次的)=1110个……

第四次,第3次循环,以此类推,约:10 + 100 + 1000 + 1000*10 = 11110 个……

第五次,第4次循环,10 + 100 + 1000 + 10000 + 10000*10 = 111110 个……

第六次,第5次循环,约 1111110 个,数字已经十分庞大了,所以循环次数不要设置太大,建议 2-3 即可……

循环次数太多也没什么用,因为循环次数越多,后来抓取的词与种子关键词相关性越低,最后甚至毫不相关……

达到指定条件、抓取完成后,最后程序会自动过滤重复关键词,只保留唯一数据……

下载地址:

(‎2013‎年‎1‎月‎20‎日,‏‎20:47:01:修改一些细节……)

百度相关搜索抓取工具 v1.0.rar

留言评论(旧系统):

丁崽 @ 2013-01-20 21:13:45

莫非是抓长尾关键词的?

本站回复:

你懂的

佚名 @ 2013-01-20 23:37:46

哇靠 垃圾站的好帮手啊

本站回复:

╮(╯_╰)╭

佚名 @ 2013-01-20 23:38:57

老大手里有破解版的d58蜘蛛侠站群源码吗

本站回复:

自己写一套,比那玩意儿强多了……

佚名 @ 2013-01-20 23:48:44

只能搜索百度的吗 360 搜狗 谷歌的呢 可不可以综合一下呢 最后再筛选过滤一下重复关键字~!

本站回复:

360 搜狗 谷歌,只是换个抓取地址的问题,重复关键字已经有过滤了。

佚名 @ 2013-01-21 02:46:40

验证码好强大o(╯□╰)o 好东西,赶快放啊,不过现在百度好像不好做了, 再请教核大个问题,服务器已提权,远程进不去什么原因(加了用户不行,5下出不来,杀毒也只有361,)

本站回复:

东西过段时间放出,你的问题描述信息太少,无法判断。

佚名 @ 2013-01-21 08:58:10

留言不能上图,发邮件了,核大给看看啊

本站回复:

只看到几张图…… ╮(╯_╰)╭

flowind @ 2013-01-21 10:03:17

自己也有一个关键字抓取搜索链接的...建议你添加个显示权重的功能..这个比较不错..你这个比较不错就是抓取相关字.....用做那啥...嘿嘿....

本站回复:

相关关键词又不是网址,没有“权重”这一说……

teletell @ 2013-01-21 22:01:00

稍后放出,太靠后了啊~~~~

本站回复:

╮(╯_╰)╭

teletell @ 2013-01-21 22:05:50

站长,你网站有日志没有,强烈要求删除!!太没自尊了!!!我是回答1+1回复问题的,日!既然有这样的问题,那些考试命令的搞什么!@#¥%……&*()——(这次回答了开机按钮除了开机的功能?我差点回答还是开机@@@@)

本站回复:

没有日志……

teletell @ 2013-01-21 22:16:15

再不放觉觉了啊,也不知你干什么呢?这有耐心~~

本站回复:

很好,一周后再放……

佚名 @ 2013-01-22 16:00:07

等等等等~~

本站回复:

╮(╯_╰)╭

Mr.V @ 2013-01-23 01:00:40

等了这么久才发 竟然不是高清无码 太失望了

本站回复:

那好,下次干脆不发了。

Mr.V @ 2013-01-23 14:31:31

核总别生气,开个玩笑 核总出品当然必属精品了  最近留言的验证好简单啊 都不好意思了 ╰( ̄▽ ̄)╭      

本站回复:

验证码没换过…… ╮(╯_╰)╭

佚名 @ 2013-01-23 20:46:34

首先向核大致歉:上次我说那服,是我错了,竟然是自己没加密码(也是郁闷很久之后,登陆之,手快直接enter,没想到提示不允许的登陆,终于大悟) 找点X词测试核总你的工具了(~ o ~)~zZ

本站回复:

╮(╯_╰)╭

teletell @ 2013-01-23 21:51:10

让我给提前催熟了呵呵~~

本站回复:

佚名 @ 2013-01-24 10:46:57

核总,来个Google.com的抓取工具吧

本站回复:

有空了再说……

佚名 @ 2013-01-24 12:12:54

这个工具 win7下面闪退啊 直接给bat啊 核总。。。。。

本站回复:

这是控制台程序,打开cmd,把路径填进去,你就看到说明了,你居然问我要什么批处理???菜的厉害啊……