详细的杰奇小说采集规则编写教程
点击下载(txt)
----------
规则说明
系统默认变量:<{articleid}> - 文章序号,<{chapterid}> - 章节序号, <{subarticleid}> - 文章子序号, <{subchapterid}> - 章节子序号。
系统标签 * 可以替代任意字符串。
系统标签 ! 可以替代除了<和>以外的任意字符串。
系统标签 ~ 可以替代除了<>'"以外的任意字符串。
系统标签 ^ 可以替代除了数字和<>之外字符串。
系统标签 $ 可以替代数字字符串。
采集规则中,需要获取的内容部分用四个以上系统标签代替,如 !!!!
基本设置
网站标识configs\article\collectsite.php中所添写的标识,可随便填写,一般为所采集站点的域名简写,以和其他规则区分。例:feiku
网站名称所采集站的名称。例:飞库
网站地址所采集站的地址。例:http://www.feiku.com
文章子序号运算方式不是必须添写的,我这里就留空了。
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)
章节子序号运算方式不是必须添写的,我这里就留空了。(谁知道他一个文件夹放多少书啊,他不按规则放,我不是采集不到 )
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)
代理服务器地址 不使用代理服务器请留空
代理服务器端口
现有章节无法对应时候是否全部清空重新采集 是 否 根据自己需要选择
是否默认把采集到的文章设置为全本 是 否 根据自己需要选择,如果选择"是"无论文章是连载还是完结,你站上都显示全本,建议选“否”
发送HTTP_REFERER标志,用于突破防采集设置 是 否 默认选“是”,不知道什么用,我选“是”先突破下再说
对方网页编码 (自动检测 GB2312 UTF8 BIG5)默认“自动检测” 编码与本站不同将自动尝试转换
文章信息页面采集规则
文章信息页面地址书籍信息页网址,书籍ID用<{articleid}>代替。例:
http://feiku.com/Book/<{articleid}>/Index.html
文章标题采集规则要求会查看网页的源文件啊 ,不会的可以停止了 .查看下信息页面的源文件,然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是
《我的美女大小姐》
把上面代码复制到文章标题采集规则的那个框里,然后把我的美女大小姐这个真实的标题替换为!!!!当然也可以替换成其他的替换符号比如****不过讲究的是在能表达意思的情况下范围越小越好(习惯问题,这里当然只能采集到文章标题了,但是其他的一些采集的时候就有你不想要的东西).作者采集规则
文章类型采集规则
文章类型对应关系这个就自己写吧,呵呵,给出飞库的对应关系,大家参考下.玄幻=>1||奇幻=>1||武侠=>2||仙侠=>2||言情=>3||都市=>3||科幻=>7||灵异=>8||游戏=>6||竞技=>6||历史=>4||军事=>4||美文=>10||同人=>9||传记=>10||名著=>10||札记=>10||笑话=>10||外国=>10||古典=>10||少儿=>10||侦探=>5||经管=>10||时尚=>10||英语=>10||电脑=>10||学习=>10||法律=>10||其它=>10
对方类型名称和本站类型序号的用“=>”分割,两个类型之间用“||”分割,类型名称“default”标识默认的类型对应关系
本站类型和序号对应关系如下:
玄幻魔法=>1||武侠修真=>2||都市言情=>3||历史军事=>4||侦探推理=>5||网游动漫=>6||科幻小说=>7||恐怖灵异=>8||散文诗词=>9||其他类型=>10
关键字采集规则 找到关键字附近的代码主角检索关键字 —— 我的美女 李兴禹 美女 都市
这里的"我的美女 李兴禹 美女 都市"用****代替.结果规则是主角检索关键字 ——****
内容简介采集规则
‘大‘小姐和大‘小‘姐,你们别折腾我了行不?我求你们了~~!
拥有亿万身家的刘星不愿意朱门酒肉臭和勾心斗角的生活,放弃了家族的大公司,而是选择在一个小公司当一个普普通通的白领。
在餐厅的一次英雄救美使他结识了一位大美女,而这个美女竟然是刘星所在公司在上海总公司老板的女儿,换句话来说也就是他的大小姐。
但是表面上很美看似优雅的大小姐却有不为人知的一面,真是要人命呀!
给我当保姆?大小姐,你开什么玩笑,你什么都不会做,还给我当保姆?
老板有两个女儿?这么说自己白天刁难的那美女是二小姐?
恩?什么?你也决定住在这里?啊!别折腾我了~~!一个就够我受的了,又来一个。可真是‘大'‘小'姐呀!
‘大'小姐外表优雅温柔但却十分迷糊大条,大‘小'姐外表冰艳绝伦但却十分热辣泼妇,而且两姐妹从小到大水火不容,这回都住在我家,这家……可真是热闹了!
想泡美女的却被‘大'‘小'姐给‘泡'了!啊~~!还让不让人活了~~!
拥有亿万身家的刘星不愿意朱门酒肉臭和勾心斗角的生活,放弃了家族的大公司,而是选择在一个小公司当一个普普通通的白领。
在餐厅的一次英雄救美使他结识了一位大美女,而这个美女竟然是刘星所在公司在上海总公司老板的女儿,换句话来说也就是他的大小姐。
但是表面上很美看似优雅的大小姐却有不为人知的一面,真是要人命呀!
给我当保姆?大小姐,你开什么玩笑,你什么都不会做,还给我当保姆?
老板有两个女儿?这么说自己白天刁难的那美女是二小姐?
恩?什么?你也决定住在这里?啊!别折腾我了~~!一个就够我受的了,又来一个。可真是‘大'‘小'姐呀!
‘大'小姐外表优雅温柔但却十分迷糊大条,大‘小'姐外表冰艳绝伦但却十分热辣泼妇,而且两姐妹从小到大水火不容,这回都住在我家,这家……可真是热闹了!
想泡美女的却被‘大'‘小'姐给‘泡'了!啊~~!还让不让人活了~~!
根据上面说的,结果规则是
注意:源文件里面有的代码换行什么的,你复制进去的时候除了用替换符替换要采集的内容外,不要改格式,别看他换行了,你给退几各和前面的连接到一起.
封面图片采集规则
结果规则是
这里width="100" height="125"也可以弄成width="$" height="$"不过如果采集站封面图片都一样大小就不用理了.找封面图片在源文件里的位置的时候,可以到信息页面查看图片的属性,看图片什么名字,然后到源文件里搜索.
过滤的封面图片找到个没有封面图片的文章,然后看下img src="和"里面是什么,给写上就可以了,这里是/img/noimg.gif
目录页面链接采集规则由于上面子序号我们都没有写,这里我们利用这个规则采集子序号就可以了.在文章信息页面的源文件里找到目录页面连接附近的代码(一般都在点击阅读附近,飞库里是【点击阅读】在源文件里附近的代码)
【点击阅读】
这里要采集的是内容168而144238可以当任意数字代替,所以结果规则是
【点击阅读】
本规则采集到的内容将作为标记<{indexlink}>(下面出现的子序号就可以用这个代替了,呵呵)使用,可以应用在下面的“文章目录页面地址”里面
全文标记采集规则需要找个全本作品了, 在信息页面源文件里找到写作进程附近代码(带上进程"完接")
写作进程
完结
写作进程用!!!!代替,所以结果规则是
!!!!
完结
本规则不是采集内容保存,而是匹配就认为是全本,不匹配则认为是连载
文章目录页面采集规则
文章目录页面地址就是目录页面的地址
http://feiku.com/html/book/168/144238/List.shtm
不过里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm
分卷名称采集规则查看目录页面的源文件,找到分卷名称附近代码
****
注意:源文件里面有的代码换行什么的,你复制进去的时候除了用替换符替换要采集的内容外,不要改格式,别看他换行了,你给退几各和前面的连接到一起.
封面图片采集规则

过滤的封面图片找到个没有封面图片的文章,然后看下img src="和"里面是什么,给写上就可以了,这里是/img/noimg.gif
目录页面链接采集规则由于上面子序号我们都没有写,这里我们利用这个规则采集子序号就可以了.在文章信息页面的源文件里找到目录页面连接附近的代码(一般都在点击阅读附近,飞库里是【点击阅读】在源文件里附近的代码)
【点击阅读】
这里要采集的是内容168而144238可以当任意数字代替,所以结果规则是
【点击阅读】
本规则采集到的内容将作为标记<{indexlink}>(下面出现的子序号就可以用这个代替了,呵呵)使用,可以应用在下面的“文章目录页面地址”里面
全文标记采集规则需要找个全本作品了, 在信息页面源文件里找到写作进程附近代码(带上进程"完接")
写作进程用!!!!代替,所以结果规则是
本规则不是采集内容保存,而是匹配就认为是全本,不匹配则认为是连载
文章目录页面采集规则
文章目录页面地址就是目录页面的地址
http://feiku.com/html/book/168/144238/List.shtm
不过里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm
分卷名称采集规则查看目录页面的源文件,找到分卷名称附近代码
正文 里面的正文是我们要采集的东西,用!!!!代替,结果规则是
上面的
!!!!
章节名称采集规则找到章节名称附近代码 更新字数:3402">第一章 大象~~大象~~!这里第一章 大象~~大象~~!是要采集的内容用!!!!或者****代替3402是任意数字用$代替,结果规则是更新字数">!!!!
章节序号采集规则找到章节序号附近代码
章节内容
章节名称采集规则找到章节名称附近代码 更新字数:3402">第一章 大象~~大象~~!这里第一章 大象~~大象~~!是要采集的内容用!!!!或者****代替3402是任意数字用$代替,结果规则是更新字数">!!!!
章节序号采集规则找到章节序号附近代码
上面的
里面有的书籍章节内容代码里面不是BookText比如有的是
章节内容过滤规则上面两端代码里面所有你不想要的内容都可以写在这里.这里是我去掉的一些,大家可以根据需要自己弄
cmfu.com
可多个过滤规则,每个规则必须一行,可使用替换标签,如:
是否采集图片内容到本地 是 否 根据需要自己选择(下面都自己选择吧,累死了,闪了 )
采集到本地的图片处理,需要GD库支持
是否启用图片处理 是 否 启用图片处理对采集速度有一定影响
采集图片是否加上水印 是 否
加水印的设置在本模块的参数设置里面,于手工上传图片加水印方式相同。
采集图片背景颜色
这里留空则系统自动判断
按区域抹去原有图片水印
按照图片内的矩形坐标,抹去该区域内容。一个矩形用四个数值表示(用“,”分隔),分别是矩形左上角X,Y和左下角X,Y。当X,Y大于0时候表示从图片左上角开始加多少像素,当X,Y小于0时候表示从图片右下角开始减多少像素。多个区域用“|”分割。
例如:本项设置成“1,1,100,50|-100,-50,-1,-1”,分别表示左上角和右下角100*50的矩形区域。
按照颜色抹去原有图片水印
一般水印颜色与图片背景和内容颜色都不同,可以设置多个水印颜色全部抹去,用“|”分隔,如“#FAFAFA|#FF0000|#00FF00”
但是
章节内容过滤规则上面两端代码里面所有你不想要的内容都可以写在这里.这里是我去掉的一些,大家可以根据需要自己弄
cmfu.com
可多个过滤规则,每个规则必须一行,可使用替换标签,如:
!
是否采集图片内容到本地 是 否 根据需要自己选择(下面都自己选择吧,累死了,闪了 )
采集到本地的图片处理,需要GD库支持
是否启用图片处理 是 否 启用图片处理对采集速度有一定影响
采集图片是否加上水印 是 否
加水印的设置在本模块的参数设置里面,于手工上传图片加水印方式相同。
采集图片背景颜色
这里留空则系统自动判断
按区域抹去原有图片水印
按照图片内的矩形坐标,抹去该区域内容。一个矩形用四个数值表示(用“,”分隔),分别是矩形左上角X,Y和左下角X,Y。当X,Y大于0时候表示从图片左上角开始加多少像素,当X,Y小于0时候表示从图片右下角开始减多少像素。多个区域用“|”分割。
例如:本项设置成“1,1,100,50|-100,-50,-1,-1”,分别表示左上角和右下角100*50的矩形区域。
按照颜色抹去原有图片水印
一般水印颜色与图片背景和内容颜色都不同,可以设置多个水印颜色全部抹去,用“|”分隔,如“#FAFAFA|#FF0000|#00FF00”
81楼 游客51071:
財布 ギンガムチェック
グッチ 財布 店舗
ガールフレンド(仮) bvlgari ルメール 入手
クロエ レイチェル 財布
louis vuitton backpack men sale
プラダ キャンディi-phoneケース シャネル ビンテージ バッグ プラダ holiday giftナイロンリュックキーホルダー
cheapest louis vuitton bags
グッチheart ラウンドファスナー長財布(グッチッシマ/メタリックフリージアローズ
コーチ アウトレット 見分け
louis vuitton neverfull gm replica
louis vuitton bags cheap fake07-08 03:55
財布 ギンガムチェック
グッチ 財布 店舗
ガールフレンド(仮) bvlgari ルメール 入手
クロエ レイチェル 財布
louis vuitton backpack men sale
プラダ キャンディi-phoneケース シャネル ビンテージ バッグ プラダ holiday giftナイロンリュックキーホルダー
cheapest louis vuitton bags
グッチheart ラウンドファスナー長財布(グッチッシマ/メタリックフリージアローズ
コーチ アウトレット 見分け
louis vuitton neverfull gm replica
louis vuitton bags cheap fake07-08 03:55
80楼 游客75267:
セリーヌ バッグ パリ 価格 celine et julie vont en bateau
louis vuitton bum bag
クロエ 財布 長財布 サイフ さいふ オレンジレッド 3p0501-015-379 chloe クロエ
louis vuitton uk outlet store
fendi通販
シャネル 財布 使いやすさ
ミキモト コピー
best place to buy used louis vuitton
エルメス ヴォヤージュ メンズ激安大特集
bvlgari il cafe ランチ
louis vuitton speedy 30 damier ebene ebay
バーバリー時計ブログ
ダンヒル バッグ 安
louis vuitton speedy 30 measurements
グッチ 時計 取説 グッチ トート キッズ
cartier usa online
ミウミウ miumiu 公式
リボン ケートスペード マザーズバッグ07-08 03:28
セリーヌ バッグ パリ 価格 celine et julie vont en bateau
louis vuitton bum bag
クロエ 財布 長財布 サイフ さいふ オレンジレッド 3p0501-015-379 chloe クロエ
louis vuitton uk outlet store
fendi通販
シャネル 財布 使いやすさ
ミキモト コピー
best place to buy used louis vuitton
エルメス ヴォヤージュ メンズ激安大特集
bvlgari il cafe ランチ
louis vuitton speedy 30 damier ebene ebay
バーバリー時計ブログ
ダンヒル バッグ 安
louis vuitton speedy 30 measurements
グッチ 時計 取説 グッチ トート キッズ
cartier usa online
ミウミウ miumiu 公式
リボン ケートスペード マザーズバッグ07-08 03:28
79楼 游客51140:
シャネル 長財布 ピンク
シャネル 長財布 青
cheap jordans shoes
シャネル 男性 財布 人気
jordan for cheap
chanel 財布 メンズ 人気07-08 03:25
シャネル 長財布 ピンク
シャネル 長財布 青
cheap jordans shoes
シャネル 男性 財布 人気
jordan for cheap
chanel 財布 メンズ 人気07-08 03:25
78楼 游客12164:
バーバリー トレンチコート 歴史
フェンディ トートバッグ
エルメス ペアリング
博多駅 iphoneカバー 花柄
louis vuitton pl?nbok online
ミュウミュウ madras fiocco リボン付き 二つ折長財布(ルビーレッド)【2013/14年秋冬新作】
プラダ バッグ レッド
黄色 バッグ
ブルガリ ハートリング 偽物
louis vuitton bum bag
louis vuitton bags on sale cheap
real louis vuitton handbags for sale
コーチ ファクトリー メンズ財布07-08 03:11
バーバリー トレンチコート 歴史
フェンディ トートバッグ
エルメス ペアリング
博多駅 iphoneカバー 花柄
louis vuitton pl?nbok online
ミュウミュウ madras fiocco リボン付き 二つ折長財布(ルビーレッド)【2013/14年秋冬新作】
プラダ バッグ レッド
黄色 バッグ
ブルガリ ハートリング 偽物
louis vuitton bum bag
louis vuitton bags on sale cheap
real louis vuitton handbags for sale
コーチ ファクトリー メンズ財布07-08 03:11
77楼 游客82932:
コーチ アウトレット 見分け
カルティエサントスlm
エルメス ガーデンパーティ tpm ゴールド ネゴンダ
シャネル チェーンショルダーバッグ マトラッセ ココマーク チェーンアラウンド a49914 バッグ
セリーヌ バッグ トート バーミリオン×マゼンタ 16926-3ebt-27vm celine セリーヌ
ミューミュー 札幌 ミュウミュウ フィレンツェ
bvlgari ネクタイ
louis vuitton bags outlet in london
buy gucci shoes
フェンディ トートバッグ
ディオール クラッチバッグ ネイビー
グッチ ラッシュ 口コミ グッチ フローラ シューズ
バーバリー お財布 がま口
louis vuitton rayures neverfull mm bag07-08 03:08
コーチ アウトレット 見分け
カルティエサントスlm
エルメス ガーデンパーティ tpm ゴールド ネゴンダ
シャネル チェーンショルダーバッグ マトラッセ ココマーク チェーンアラウンド a49914 バッグ
セリーヌ バッグ トート バーミリオン×マゼンタ 16926-3ebt-27vm celine セリーヌ
ミューミュー 札幌 ミュウミュウ フィレンツェ
bvlgari ネクタイ
louis vuitton bags outlet in london
buy gucci shoes
フェンディ トートバッグ
ディオール クラッチバッグ ネイビー
グッチ ラッシュ 口コミ グッチ フローラ シューズ
バーバリー お財布 がま口
louis vuitton rayures neverfull mm bag07-08 03:08
用著作权法来保护软件是否真的有 07-28
杀毒软件:只在搞娱乐,从未杀过 07-28
小谈高通反垄断 07-28
印度将推出百元智能机 山寨厂商 07-28
高通垄断之痛:不是国产手机大而 07-28
一张图读懂阿里巴巴眼花缭乱资本 07-28
滴滴打车副总裁张晶离职 高层换 07-28
小米官网明日首发小米4 预约即 07-28
如何勾引马云马化腾花钱买你公司 07-28
云智慧成为2014 Web性能 07-28
顺丰试水微信扫码支付:发快递无 07-28
从Facebook看百度的移动 07-28
返回采集教程-返回首页
杀毒软件:只在搞娱乐,从未杀过 07-28
小谈高通反垄断 07-28
印度将推出百元智能机 山寨厂商 07-28
高通垄断之痛:不是国产手机大而 07-28
一张图读懂阿里巴巴眼花缭乱资本 07-28
滴滴打车副总裁张晶离职 高层换 07-28
小米官网明日首发小米4 预约即 07-28
如何勾引马云马化腾花钱买你公司 07-28
云智慧成为2014 Web性能 07-28
顺丰试水微信扫码支付:发快递无 07-28
从Facebook看百度的移动 07-28
发表评论