粤ICP备11076303号  广州青年志愿者协会医疗服务总队 www.gzyld.org.cn
加入医疗队
加入志愿者

位置:GZ医疗队公益纪实公益站长网络技术

dedecms3.1分页文字采集过滤规则详说(图)(2)


来源:速得论坛      作者:速得论坛      点击:次      时间:2008-02-22



下面进行分页匹配和过滤:

第一步:确定分页匹配代码
比较一下面四个图:
范例




目标

 

第四张图红圈里差了个“空格”,实际写代码的时候改过来。

通过比较上面的四张图,其实就是两个文件的分页代码区域。懒人懒办法、笨人笨办法:把与范例中最相似、相近,甚至相同的分页代码截留下来:
<td align='center' height='30'>首页 上页[var:分页区域]页次


如图:

 

至此,分页内容匹配进行完毕。

文章内容匹配、分页内容匹配都进行完后,最后就只有“过滤”了,包括分页区域过滤和文章内容过滤。据本人的感觉,上面的两个规则都好写,只要找到全部链接中的“唯一性”代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙……哈哈,感觉就是这样。尤其如我一般的新手,对“正则”这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了。

好了,闲话了。也累了,听听《加州旅馆》吧,在这:加州旅馆_老鹰乐队94现场 放松下吧。

你一眼看出来了过滤规则怎么写么,反正我是没能看得出来,没办法,新手就是新手呀。不管它,那就依照原范例的分页过滤规则写个规则试试看看结果吧:
{dede:trim}<td align='center' height='30'>(.*)页次{/dede:trim}


采集一下:


分页成功了,但废码多我,不行还得改!

看下多余的代码特征,好象是过滤范围不够,后面的很多内容都要过滤掉。那好,把过滤区域再往后移,直接移至描红部分吧(其实我在改过滤规则的时候,改了好几次,这里就一次到位吧,不耽误朋友们的时间了):



写个完整的分页过滤规则:

{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}



再采集下,看看结果:



好了,分页成功,无多余代码。至此,全部主要的代码部分完成。
结果在这里:
有分页的:党员干部作风整顿剖析材料
无分页的: 文艺部工作计划

新活动 回顶部
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片
最新评论 进入详细评论页>>