详细的杰奇小说采集规则编写教程_采集教程_wap站长之家

注意：文章中$$符号只有一个，因程序问题提交后变成了两个。

详细的杰奇小说采集规则编写教程

添加采集规则
规则说明
系统默认变量：<{articleid}> - 文章序号，<{chapterid}> －章节序号， <{subarticleid}> －文章子序号， <{subchapterid}> －章节子序号。
系统标签 * 可以替代任意字符串。
系统标签 ! 可以替代除了<和>以外的任意字符串。
系统标签 ~ 可以替代除了<>'"以外的任意字符串。
系统标签 ^ 可以替代除了数字和<>之外字符串。
系统标签 $ 可以替代数字字符串。
采集规则中，需要获取的内容部分用四个以上系统标签代替，如 !!!!

基本设置

网站标识configs\article\collectsite.php中所添写的标识，可随便填写，一般为所采集站点的域名简写，以和其他规则区分。例：feiku

网站名称所采集站的名称。例：飞库

网站地址所采集站的地址。例：http://www.feiku.com

文章子序号运算方式不是必须添写的，我这里就留空了。
支持使用<{articleid}>标记的四则运算（+加，-减，*乘，/除，%取余）

章节子序号运算方式不是必须添写的，我这里就留空了。(谁知道他一个文件夹放多少书啊，他不按规则放，我不是采集不到 )
支持使用<{articleid}>标记的四则运算（+加，-减，*乘，/除，%取余）

代理服务器地址不使用代理服务器请留空

代理服务器端口

现有章节无法对应时候是否全部清空重新采集是否根据自己需要选择

是否默认把采集到的文章设置为全本是否根据自己需要选择，如果选择"是"无论文章是连载还是完结，你站上都显示全本，建议选“否”

发送HTTP_REFERER标志，用于突破防采集设置是否默认选“是”,不知道什么用，我选“是”先突破下再说

对方网页编码（自动检测 GB2312 UTF8 BIG5）默认“自动检测” 编码与本站不同将自动尝试转换
文章信息页面采集规则

文章信息页面地址书籍信息页网址，书籍ID用<{articleid}>代替。例：
http://feiku.com/Book/<{articleid}>/Index.html

文章标题采集规则要求会查看网页的源文件啊 ,不会的可以停止了 .查看下信息页面的源文件，然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是

《我的美女大小姐》

把上面代码复制到文章标题采集规则的那个框里,然后把我的美女大小姐这个真实的标题替换为!!!!当然也可以替换成其他的替换符号比如****不过讲究的是在能表达意思的情况下范围越小越好(习惯问题，这里当然只能采集到文章标题了，但是其他的一些采集的时候就有你不想要的东西).

作者采集规则

李兴禹

这里的李兴禹是要采集的内容,用!!!!代替不过144238只对这个文章有用,其他文章有其他的数字,所以用任意数字串$代替.所以作者采集规则就是

!!!!

文章类型采集规则

都市

由上面两个采集规则的写法不难看出这里的规则是

!!!!

文章类型对应关系这个就自己写吧,呵呵,给出飞库的对应关系,大家参考下.玄幻=>1||奇幻=>1||武侠=>2||仙侠=>2||言情=>3||都市=>3||科幻=>7||灵异=>8||游戏=>6||竞技=>6||历史=>4||军事=>4||美文=>10||同人=>9||传记=>10||名著=>10||札记=>10||笑话=>10||外国=>10||古典=>10||少儿=>10||侦探=>5||经管=>10||时尚=>10||英语=>10||电脑=>10||学习=>10||法律=>10||其它=>10
对方类型名称和本站类型序号的用“=>”分割，两个类型之间用“||”分割，类型名称“default”标识默认的类型对应关系
本站类型和序号对应关系如下：
玄幻魔法=>1||武侠修真=>2||都市言情=>3||历史军事=>4||侦探推理=>5||网游动漫=>6||科幻小说=>7||恐怖灵异=>8||散文诗词=>9||其他类型=>10

关键字采集规则找到关键字附近的代码主角检索关键字 —— 我的美女李兴禹美女都市
这里的"我的美女李兴禹美女都市"用****代替.结果规则是主角检索关键字 ——****

内容简介采集规则

‘大‘小姐和大‘小‘姐,你们别折腾我了行不?我求你们了~~!
　　拥有亿万身家的刘星不愿意朱门酒肉臭和勾心斗角的生活，放弃了家族的大公司，而是选择在一个小公司当一个普普通通的白领。
　　在餐厅的一次英雄救美使他结识了一位大美女，而这个美女竟然是刘星所在公司在上海总公司老板的女儿，换句话来说也就是他的大小姐。
　　但是表面上很美看似优雅的大小姐却有不为人知的一面，真是要人命呀!
　　给我当保姆？大小姐，你开什么玩笑，你什么都不会做，还给我当保姆？
　　老板有两个女儿？这么说自己白天刁难的那美女是二小姐?
　　恩？什么？你也决定住在这里？啊！别折腾我了~~！一个就够我受的了，又来一个。可真是‘大'‘小'姐呀！
　　‘大'小姐外表优雅温柔但却十分迷糊大条，大‘小'姐外表冰艳绝伦但却十分热辣泼妇，而且两姐妹从小到大水火不容，这回都住在我家，这家……可真是热闹了!
　　想泡美女的却被‘大'‘小'姐给‘泡'了！啊~~!还让不让人活了~~!

根据上面说的,结果规则是

****

注意:源文件里面有的代码换行什么的,你复制进去的时候除了用替换符替换要采集的内容外,不要改格式,别看他换行了,你给退几各和前面的连接到一起.

封面图片采集规则

结果规则是

这里width="100" height="125"也可以弄成width="$" height="$"不过如果采集站封面图片都一样大小就不用理了.找封面图片在源文件里的位置的时候,可以到信息页面查看图片的属性，看图片什么名字，然后到源文件里搜索.

过滤的封面图片找到个没有封面图片的文章,然后看下img src="和"里面是什么,给写上就可以了,这里是/img/noimg.gif

目录页面链接采集规则由于上面子序号我们都没有写，这里我们利用这个规则采集子序号就可以了.在文章信息页面的源文件里找到目录页面连接附近的代码(一般都在点击阅读附近,飞库里是【点击阅读】在源文件里附近的代码)
【点击阅读】
这里要采集的是内容168而144238可以当任意数字代替,所以结果规则是
【点击阅读】
本规则采集到的内容将作为标记<{indexlink}>(下面出现的子序号就可以用这个代替了,呵呵)使用，可以应用在下面的“文章目录页面地址”里面

全文标记采集规则需要找个全本作品了, 在信息页面源文件里找到写作进程附近代码(带上进程"完接")

写作进程

完结

写作进程用!!!!代替,所以结果规则是

!!!!

完结

本规则不是采集内容保存，而是匹配就认为是全本，不匹配则认为是连载
文章目录页面采集规则

文章目录页面地址就是目录页面的地址
http://feiku.com/html/book/168/144238/List.shtm
不过里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm

分卷名称采集规则查看目录页面的源文件,找到分卷名称附近代码

正文里面的正文是我们要采集的东西,用!!!!代替,结果规则是

!!!!

章节名称采集规则找到章节名称附近代码更新字数:3402">第一章大象~~大象~~！这里第一章大象~~大象~~！是要采集的内容用!!!!或者****代替3402是任意数字用$代替,结果规则是更新字数">!!!!

章节序号采集规则找到章节序号附近代码

章节内容

上面的

里面有的书籍章节内容代码里面不是BookText比如有的是

但是