版本:1.1
大小:898 KB
环境:PC端
日期:2018- 9-12
善肯网页TXT采集器是一款由个人开发的小说网站TXT采集工具,喜欢看小说的网友都喜欢到网站上看小说,但在网页上看小说总觉得哪里不对劲,使用这款善肯网页TXT采集器可以把小说下载到硬盘上,支持17K小说网、定点小说网、飞卢小说网等等,下载成功后可以在电脑阅读也可以传到手机上进行阅读,喜欢看小说的网友可以下载网页小说下载采集器使用。
使用说明
使用推荐有点懂或者可以看懂正则表达式的朋友使用,如果不了解正则表达式可以现学一下,用到的都是很基础的,不会太难。
规则设置
1、输入网址后,可以实时预览(不论有有没规则,有规则就是匹配规则后的内容,没有就是源代码,目前测试,并非所有网页都能获取其内容,具体大家可以自己去实验,能获取源代码的就是可以匹配出内容的)
2、目录页和内容页分别匹配不同的规则:
目录页:
文本名称规则
作者名称规则
章节规则(此处需有两个()一处匹配章节路径,一个匹配章节名称)
内容页:
内容规则
3、关于替换:
通用替换(非正则):所有规则都会自动加上通用替换(有共性的替换规则)
定制替换(非正则):单个网站的特有替换规则
正则替换:暂未开发,请求打赏支持开发~~。
想换行可用内容与\n进行替换,\n是替换数据不是原数据。
可以根据自己的需求增删,。(原数据和替换数据必填,一个空格都行,否则会抛异常)
删除:选中一行,按DELETE键删除
4、关于规则保存:
保存都是以文件名来的,不同的名称则为不同的规则,比较终保存为xml形式。
5、关于地址解析
解析地址1:测试未删,以后会加功能,暂留着
解析地址2:推荐使用
6、理论上,只要是目录页指向内容页的形式都可以抓取【能获取源代码的情况下】。具体请大家自己去实验。
关于文件
1、commonrule.xml 文件存放的是通用替换规则,
2、rule文件夹下存放的是以网站为单位的规则。
如果需要直接拷贝单条规则放到rule文件夹下就可以使用规则了,前提是xml文件格式是对的,
3、其他
暂时还没想到你们可能还会出现什么问题。如果遇到问题欢迎反馈。
比较后附上常用匹配全部内容的表达式:
(.*?) ([\w\W]*?) ([\s\S]*?)