火车头采集器数据处理图文教学
火车采集器是一款专业的互联网数据抓取、处理、分析,挖掘软件,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,支持采集数据直接入库和模仿手工发布等许多功能特点,能够解析文件真实地址并且下载,拥有强大的采集功能,能够采集那些需要登陆才能查看的内容信息,能够快速的对网页上数据信息进行规范性的采集,完善采集包括文本、图片、文件等信息,以完成您在浏览器内能看到的各类信息的提取,json提取关于数字转换为科学计数法问题处理,需要的朋友赶紧下载体验吧!
功能特点
1: 自动获取cookie功能优化
2: 数据库发布增加事务,优化数据库发布速度
3: 数据转换速度优化(针对Mysql和SqlServer数据库的导入), 同时去除网址库的清空逻辑
4: html标签处理错误问题处理
5: json提取关于数字转换为科学计数法问题处理
6: 发布测试时,图片上传无效的问题处理
7: 采集内容页处理错误时,增加对于当前出错标签的提示,以便快速定位出错标签
8: 任务批量编辑,增加可操作范围
数据处理教学
1)提取内容为空:如果提取内容为空,则使用正则匹配从原始页面中再次提取
2)内容替换/排除:将采集到的内容进行字符串替换,如需排除,则替换为空字符串即可
3)html标签过滤:过滤指定html标签,比如<a ,<font
4)字符截取:通过开始和结束字符串对内容进行截取
5)纯正则替换:通过强大的正则表达式进行复杂的替换。
6)数据转换:包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化
7)智能提取:包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码
8)高级功能:包括自动摘要、自动分词、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换,统计标签字符串长度等一系列功能。
9)补全单网址:将当前内容作为一个网址进行补全。
10)文件下载:可以自动探测并下载文件,可设置下载路径和文件名样式。
11)内容过滤:对于一些不符合条件的记录,可以通过设置内容过滤来删除或标记为未采。
内容分页
内容分页有2种列出模式:a.首页全部列出,b.上下页模式。
首页全部列出模式适用于分页地址全部显示出来的情况,如下图:
火车头采集器数据处理图文教学图2
上下页模式适用用分页地址仅列出一部分的情况,如下图
火车头采集器数据处理图文教学图3
相关下载
相关文章
相关软件
大家都在找