火车采集器电脑版应用扩展图文教学
火车采集器是一款通用型的采集器,可以满足大部分数据抓取的需要,火车采集器可以同时运行多个任务,采集不同的网站或同一站点下的不同的栏目。您可以在任务列表树里同时选中运行多个任务或是设置自动运行,有计划的调度多个任务。同一站点下建议一次运行一到两个任务,以防止网址数据库操作频繁而锁死。
火车采集器电脑版应用扩展图文教学图1
如上图的。用户如果需要在列表当中添加字段,archives 和addonarticle.这个用户注意的是列表当中数据表拥有前缀,通常这就是用来插入ID记录的。这个数据表前辍是可以使用多个的,应注意的是那个表里应有个自增字段。其它的update,delete等语句也是可以使用的(比如 delete * from table aaa)。入库方式适合一般数据格式而不是很复杂的数据库操作。如果是多表操作且表间关系复杂最好用web发布方式.
火车采集器电脑版应用扩展图文教学图2
另外的一些SQL函数也是支持的,比如替换标题内容,可以这样使用:
UPDATE table set 字段名=REPLACE(字段名,'原字符串','替换的字符串') where 判断语句
入库只是执行用户的简单的SQL语句,所以请在入库前进行测试,保存语句的正确.测试工作为入库配置管理器(程序为LocoyDatabase.exe).
火车采集器电脑版应用扩展图文教学图3
外部编程插件的开发
使用外部编程插件,可以对你的数据做任意你想要的处理。处理过程是采集器先获取网页内容,然后将网页内容,网页地址等数据传递给插件,插件可以针对传送过来的数据做处理,然后返回一定格式的数据给采集器.目前火车采集器里有四个位置可以使用插件.
1.采网址:是采集器对网址列表里的网址请求完数据未分析源码前给插件使用.
2.采内容:采集默认页后返回源代码给插件处理.
3.采多页:在多页采集时每个页面都将使用.
4.保存时:在采集器处理完数据,保存数据到数据库之前,在网页内容符合排除条件之前处理.
具体的插件开发请配合插件管理器进行开发.
具体插件的开发,请点击插件管理器里的新建按钮,即可以查看到相应的开发文件和开发示例.
如下是几个简单的PHP插件中可能使用到的小程序.
第一个,如果标题小于一定字节,就用其它的字符替换掉标题。
相关下载
相关文章
相关软件
大家都在找