小蜜蜂采集器采集范例讲解

小蜜蜂采集器采集范例讲解》摘要: 说废话:要用好采集,务必预备好DW、UltraEdit软件,要有足够耐心分析HTML代码,坚持不懈的采集测试优化采集设置。 采集目标:康易网 女性频道 美容 彩妆 目标URL:http://health.511511.com/l…
  

说废话:要用好采集,务必预备好DW、UltraEdit软件,要有足够耐心分析HTML代码,坚持不懈的采集测试优化采集设置。
采集目标:康易网 > 女性频道 > 美容 > 彩妆
目标URL:http://health.511511.com/lady/titivatelist.shtml
基础知识:采集任何目标,都需要先找到频道更新索引文件,通过该文件分析最终文章页的链接地址,然后才能进入文章页分析内容。

采集规则定义操作:
1、添加站点
登录小蜜蜂以后,点“添加站点”,设置网站名称处输入内容后提交;如本范例为:康易网。定义站点是方便治理,将来您要采集该站点的其他频道内容,就可以统一设置到该站点名下;也就是说同一网站只需要设置一次站点名称就可以。

2、设置频道名称
点“添加站点”,设置频道名称处输入内容后提交;如本范例为:彩妆

3、定义规则
点“站点列表”---“添加规则”功能,选择对应栏目名称;
以下规则内容说明:
1)URL---一条非凡的链接:这里就是您要采集目标的更新索引文件地址;本文对应值为:http://health.511511.com/lady/titivatelist.shtml。
URL---多条非凡的链接:这里指一些非凡链接,比如某些网站更新索引页有多页,地址形式为:
http://www.123.com/suoyin_01.html
.......
http://www.123.com/suoyin_09.html
http://www.123.com/suoyin_10.html
....
http://www.123.com/suoyin_21.html
前面的01~09就是非凡链接
URL---有规律的链接:对应上述例子就是10~21顺序增加的,那么有规律的链接这里输入:http://www.123.com/suoyin_10.html,将10替换为[variable]变量标签,参数设置为10~21就可以。
2)链接 这里是设置索引页上文章链接的规则
查看本例索引页HTML源代码,对照网页上的标题链接查询后可以看见以下代码:
---------------------
<li><a href="/lady/20065/titivate41885.shtml">图解拥有靓丽妆容全过程</a></li><li><a href="/lady/20065/titivate41882.shtml">提升5倍妆效 韩妆专业秘笈</a></li><li><a href="/lady/20064/titivate40285.shtml">修出精致眉型的5个小高招</a></li><li><a href="/lady/20064/titivate40282.shtml">只需五分钟化妆遮盖黑眼圈</a></li><li><a href="/lady/20064/titivate40281.shtml">10步骤本真肌肤浑然天成</a></li><li><a href="/lady/20064/titivate37103.shtml">看好莱坞明星春妆10大热点</a></li><li><a href="/lady/20064/titivate37101.shtml">两大绝招 把你画成韩妆美人</a></li><li><a href="/lady/20064/titivate37082.shtml">媚力眼妆 让眼睛再美一点</a></li><li><a href="/lady/20064/titivate34164.shtml">睫毛 就这样长起来</a></li>
---------------------
分析出规律<li><a href="/lady/20065/titivate41885.shtml">图解拥有靓丽妆容全过程</a></li>,分别用链接、标题标签替换为<li><a href="[link]">[title]</a></li>。

保存以后点“采集测试”可以测试规则是否正确,假如出现测试链接列表结果,就证实前面定义的文章链接规则正确,可以进入后面的文章内容采集规则定义了。

共3页: 上一页 1 [2] [3] 下一页
你的位置:电脑故障网 >> 网站制作 >> CSS+DIV教程 >> 小蜜蜂采集器采集范例讲解