位置：GZ医疗队 > 公益纪实 > 公益站长 > 网络技术 >

dedecms3.1分页文字采集过滤规则详说(图)

来源：速得论坛作者：速得论坛点击:次时间：2008-02-22

dede3.1分页文字采集过滤规则详说(图)

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本，通过简单的变通和改动，解决一般性文字分页的采集问题

一、范例部分
范例分页区域代码：

范例分页区域取样代码：

范例分页内容过滤规则：

范例采集内容预览：

范例全代码(说明：此代码为在原基础上进行更改后的代码，原代码版本不同，直接导入后无效，因此在dede论坛中有许多朋友说过‘直接导入人家的代码都不能用’，确实如此)：
输出结果：http://wen.soudata.net/html/guizeceshi/caijibiji/20070327/2044_2.html
与原文比较下吧：http://www.xiaocao.com/text/class1/class1/200609/text_28623.html
这是全部的代码，可导入试下：

稍微了解dede采集规则的朋友上篇内容完全可以略过，下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址：
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面，是因为以上的两个页面一个有分页，而另一个没有，并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的，个别地方会显得蛇足，只为说明的方便。

目标文字部分头部代码1：

目标文字部分头部代码2：

通过比较不难发现，两个文字部分的开始采集部分能确定下来为描黑部分，开头部分好说，代码如下：