.
img
注册时间:--
  • 纯文字版本
    开 关闭
  • 消息
  • 收藏
  • 退出
注意:文章中$$符号只有一个,因程序问题提交后变成了两个。

详细的杰奇小说采集规则编写教程

点击下载(txt)
----------

添加采集规则
规则说明
系统默认变量:<{articleid}> - 文章序号,<{chapterid}> - 章节序号, <{subarticleid}> - 文章子序号, <{subchapterid}> - 章节子序号。
系统标签 * 可以替代任意字符串。
系统标签 ! 可以替代除了<和>以外的任意字符串。
系统标签 ~ 可以替代除了<>'"以外的任意字符串。
系统标签 ^ 可以替代除了数字和<>之外字符串。
系统标签 $ 可以替代数字字符串。
采集规则中,需要获取的内容部分用四个以上系统标签代替,如 !!!!

基本设置

网站标识configs\article\collectsite.php中所添写的标识,可随便填写,一般为所采集站点的域名简写,以和其他规则区分。例:feiku

网站名称所采集站的名称。例:飞库

网站地址所采集站的地址。例:http://www.feiku.com

文章子序号运算方式不是必须添写的,我这里就留空了。
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)

章节子序号运算方式不是必须添写的,我这里就留空了。(谁知道他一个文件夹放多少书啊,他不按规则放,我不是采集不到 )
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)

代理服务器地址 不使用代理服务器请留空

代理服务器端口

现有章节无法对应时候是否全部清空重新采集 是 否 根据自己需要选择

是否默认把采集到的文章设置为全本 是 否 根据自己需要选择,如果选择"是"无论文章是连载还是完结,你站上都显示全本,建议选“否”

发送HTTP_REFERER标志,用于突破防采集设置 是 否 默认选“是”,不知道什么用,我选“是”先突破下再说

对方网页编码 (自动检测 GB2312 UTF8 BIG5)默认“自动检测” 编码与本站不同将自动尝试转换
文章信息页面采集规则

文章信息页面地址书籍信息页网址,书籍ID用<{articleid}>代替。例:
http://feiku.com/Book/<{articleid}>/Index.html

文章标题采集规则要求会查看网页的源文件啊 ,不会的可以停止了 .查看下信息页面的源文件,然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是
《我的美女大小姐》
把上面代码复制到文章标题采集规则的那个框里,然后把我的美女大小姐这个真实的标题替换为!!!!当然也可以替换成其他的替换符号比如****不过讲究的是在能表达意思的情况下范围越小越好(习惯问题,这里当然只能采集到文章标题了,但是其他的一些采集的时候就有你不想要的东西).

作者采集规则
  • 李兴禹
  • 这里的李兴禹是要采集的内容,用!!!!代替不过144238只对这个文章有用,其他文章有其他的数字,所以用任意数字串$代替.所以作者采集规则就是
  • !!!!


  • 文章类型采集规则
  • 都市
  • 由上面两个采集规则的写法不难看出这里的规则是
  • !!!!


  • 文章类型对应关系这个就自己写吧,呵呵,给出飞库的对应关系,大家参考下.玄幻=>1||奇幻=>1||武侠=>2||仙侠=>2||言情=>3||都市=>3||科幻=>7||灵异=>8||游戏=>6||竞技=>6||历史=>4||军事=>4||美文=>10||同人=>9||传记=>10||名著=>10||札记=>10||笑话=>10||外国=>10||古典=>10||少儿=>10||侦探=>5||经管=>10||时尚=>10||英语=>10||电脑=>10||学习=>10||法律=>10||其它=>10
    对方类型名称和本站类型序号的用“=>”分割,两个类型之间用“||”分割,类型名称“default”标识默认的类型对应关系
    本站类型和序号对应关系如下:
    玄幻魔法=>1||武侠修真=>2||都市言情=>3||历史军事=>4||侦探推理=>5||网游动漫=>6||科幻小说=>7||恐怖灵异=>8||散文诗词=>9||其他类型=>10

    关键字采集规则 找到关键字附近的代码主角检索关键字 —— 我的美女 李兴禹 美女 都市
    这里的"我的美女 李兴禹 美女 都市"用****代替.结果规则是主角检索关键字 ——****


    内容简介采集规则
    ‘大‘小姐和大‘小‘姐,你们别折腾我了行不?我求你们了~~!
      拥有亿万身家的刘星不愿意朱门酒肉臭和勾心斗角的生活,放弃了家族的大公司,而是选择在一个小公司当一个普普通通的白领。
      在餐厅的一次英雄救美使他结识了一位大美女,而这个美女竟然是刘星所在公司在上海总公司老板的女儿,换句话来说也就是他的大小姐。
      但是表面上很美看似优雅的大小姐却有不为人知的一面,真是要人命呀!
      给我当保姆?大小姐,你开什么玩笑,你什么都不会做,还给我当保姆?
      老板有两个女儿?这么说自己白天刁难的那美女是二小姐?
      恩?什么?你也决定住在这里?啊!别折腾我了~~!一个就够我受的了,又来一个。可真是‘大'‘小'姐呀!
      ‘大'小姐外表优雅温柔但却十分迷糊大条,大‘小'姐外表冰艳绝伦但却十分热辣泼妇,而且两姐妹从小到大水火不容,这回都住在我家,这家……可真是热闹了!
      想泡美女的却被‘大'‘小'姐给‘泡'了!啊~~!还让不让人活了~~!

    根据上面说的,结果规则是
    ****


    注意:源文件里面有的代码换行什么的,你复制进去的时候除了用替换符替换要采集的内容外,不要改格式,别看他换行了,你给退几各和前面的连接到一起.

    封面图片采集规则
    结果规则是
    这里width="100" height="125"也可以弄成width="$" height="$"不过如果采集站封面图片都一样大小就不用理了.找封面图片在源文件里的位置的时候,可以到信息页面查看图片的属性,看图片什么名字,然后到源文件里搜索.

    过滤的封面图片找到个没有封面图片的文章,然后看下img src="和"里面是什么,给写上就可以了,这里是/img/noimg.gif

    目录页面链接采集规则由于上面子序号我们都没有写,这里我们利用这个规则采集子序号就可以了.在文章信息页面的源文件里找到目录页面连接附近的代码(一般都在点击阅读附近,飞库里是【点击阅读】在源文件里附近的代码)
    点击阅读
    这里要采集的是内容168而144238可以当任意数字代替,所以结果规则是
    点击阅读
    本规则采集到的内容将作为标记<{indexlink}>(下面出现的子序号就可以用这个代替了,呵呵)使用,可以应用在下面的“文章目录页面地址”里面

    全文标记采集规则需要找个全本作品了, 在信息页面源文件里找到写作进程附近代码(带上进程"完接")
  • 写作进程

  • 完结

  • 写作进程用!!!!代替,所以结果规则是
  • !!!!

  • 完结

  • 本规则不是采集内容保存,而是匹配就认为是全本,不匹配则认为是连载
    文章目录页面采集规则

    文章目录页面地址就是目录页面的地址
    http://feiku.com/html/book/168/144238/List.shtm
    不过里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替,结果规则是
    http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm

    分卷名称采集规则查看目录页面的源文件,找到分卷名称附近代码
    正文 里面的正文是我们要采集的东西,用!!!!代替,结果规则是
    !!!!

    章节名称采集规则找到章节名称附近代码 更新字数:3402">第一章 大象~~大象~~!这里第一章 大象~~大象~~!是要采集的内容用!!!!或者****代替3402是任意数字用$代替,结果规则是更新字数">!!!!

    章节序号采集规则找到章节序号附近代码
  • 章节内容

  • 上面的
    里面有的书籍章节内容代码里面不是BookText比如有的是
    但是

    暂无评论!
    返回采集教程-返回首页