火车采集器可以将几乎所有网页的信息都能采集,采集/发布非常方便准确,软件采用顶级的系统配置,反复优化的软件性能,可以让采集的速度非常快,网站的信息采集,就是这么简单。
火车采集器下载地址:http://www.jisuxz.com/down/5337.html
软件的安装十分简单,用户可以根据自己的软件存储习惯去点击“浏览”,更换安装程序默认的安装位置,然后点击“安装”进行软件的安装。
使用火车采集器需要用户进行账户的登录,登录的界面可以让用户选择自动登录、记住密码的便捷登录方式,如果没有账户的用户可以点击“免费注册”,忘记密码的用户可以点击“找回密码”进行操作。
火车采集器的注册主持邮箱注册和手机号注册,使用邮箱注册,用户需要输入用户名、邮箱、密码、确认密码、QQ、手机号、验证码即可进行快速注册。
打开软件的界面感觉十分复杂,功能有很多,可是由于是功能软件,界面的功能显得比较复杂,没有捆绑的广告的资讯。
主窗口上方的功能菜单栏中有,新建分组、新建任务、Web发布配置、Web发布模块、数据库发布配置、数据库发布模块、计划任务、插件管理、http二级代理、http模拟请求。
在下方的任务列表中,软件默认的测试分组有分页采集、新闻资讯、财经资讯、分类信息、论坛信息、软件下载、采集插件、IT产品、flash游戏、POST网址采集、ASPX格式的列表、任务回收站。
在运行管理中,用户可以查看任务状态、任务ID、任务名称、内容数量、已发数量、任务进度、已请求量、启动时间。
Web发布配置,用户可以选择发布模块、输入网页编码、输入全局变量、输入网站地址、获取分类/栏目列表 ,用户填写完配置名就能进行添加。
Web发布模块有网站自动登录、获取栏目列表、网页随机值获取、内容发布参数、高级功能,用户根据自己的需要可以填写资料应用。
数据库发布配置用户需要选择自己想要编辑的发布模块进行编辑,同时用户还可以输入数据库链接信息,如服务器、端口、用户名、密码、编码、数据库、数据表说明、模块说明。
http二级代理中有,页面缓存、选项设置、代理服务、运行日志,用户可以看到二级代理的类型、地址、端口、用户名、密码、状态。
选项设置,可以选择端口、随机使用二级代理、二级代理的验证设置有访问地址、验证超时设置、代理使用失效次数、自动拨号设置。
代理服务的登录需要用户输入用户名和密码,用户还可以选择记住密码、自动登录,代理获取配置可以选择定时更换的间隔时间或定量更换的使用次数。
在http模拟请求中用户可以填写来源页、读取本地登录信息的COOKIE值、网页压缩、网页编码、启用自动提交的运行间隔时间。
在任务的详情中,可以查看任务ID、任务名称、本次采集数量、当前进度、已请求量、下载文件数量、本次启动时间、运行用时、任务启动次数、历史总数据量。
在新建任务规则中用户先要在网址采集规则中输入起始网址,选择获取内容的获取方式,如自动获取地址链接和手动设置规则获取。
内容采集规则可以选择从源码中获取数据、生成固定格式的数据、已有标签组合的数据获取方式,还可以前后截取、正则提取、正文提取等提取方式。
在内容发布规则中,用户可以选择文件输出的保存格式、保存方式、保存位置、文件模板、文件名格式、文件编码。
在新建文件的其他设置中有,任务运行线程及时间、Http请求设置、文件图片下载、Ftp/SFtp1001 文件上传、代理设置、插件、排除重复设置、发布相关、其他配置。
文件图片下载可以选择所有文件保存根目录的位置、文件链接地址前缀、文件下载模式、同时文件下载数、单文件下载分块数、下载的图片同时加上水印。
发布相关中,可以开启清空该任务网址库、标记所有记录为已发的设置,还能选择每次比较大发布记录条数、数据发布超时时间限制等设置。
在其他配置,可以设置采集预警配置的请求成功数、发送邮箱的地址、用户名、密码、STMP地址、SMTP端口和接收邮箱。
由于火车采集器的优质性能,对网页信息的采集准确性,所以适用的群体非常多,应用范围非常广泛,例如进行论坛或博客迁移、商业情报采集 、信息挖掘、个人信息检索等,功能十分强大。