站长之家 - 站长资讯 - 易采站长站

当前位置: > 建站教程 > 源码教程 > CMS 教程 >

帝国cms分页采集正则及过滤技巧

2015-11-02 12:56 | 来源:网络整理 | 编辑:秋军 |

老实说我并不主张网站采集,不过做为站长,网页采集实在是一大利器。拿帝国CMS来说,采集功能很强大。虽然帝国CMS采集方法简单易学,但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。

从文章的源代码中获得的

第一种:

<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>[2]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_3.html'>[3]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_4.html'>[4]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>下一页</a> </b></p>

编写的规则:

选全部列出式

区域正则:

<p align='center'><b><font color='red'>[!--smallpageallzz--]'>下一页

链接正则:

<a href='[!--pageallzz--]'>

第二种

采集代码

<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/lw/3/lw_31205_2.html'>[2]</a>&nbsp;<a href='/lw/3/lw_31205_2.html'>下一页</a> </b></p> <center>《

编写的规则:

选用上下导航式:

分页区域正则:<font color='red'>[!--smallpagezz--]下一页

分页链接正则:<a href='[!--pagezz--]'

新闻正文正则:

src="http://pagead2.googlesyndication.com/pagead/show_ads.js">

</script></td>

</tr>

</table>[!--newstext--]</td>

</tr>

<tr>

<td width=5></td>

过滤广告正则:

</p> <center>[!--ad--]</center>,</p><p align='center'>[!--ad--]</b>

例如:http://www.3edu.net/lw/3/lw_31205.html

第三种

<p align="center"><img src="/bgy/Images_1/sy8.gif" border="0" align="absbottom"> <FONT style="COLOR: #ff0000">【1】</font> <a class=page href="094221656-2.html" target=_self>【2】</a> <a class=page href="094221656-3.html" target=_self>【3】</a> <a class=page href="094221656-4.html" target=_self>【4】</a> <a class=page href="094221656-5.html" target=_self>【5】</a> <a href="094221656-2.html"><img src="/gwy/Images1/xy.gif" border="0" align="absbottom"></a></p>

编写的规则:

"全部列出"式正则设置:

分页区域正则(无)

分页链接正则: <a class=page href="[!--pageallzz--]" target=_self>

第四种:

<DIV class=pageContainer> <DIV class=pager><span class="nextprev">&lt;&lt; 前一页</span><span class="current">1</span><a href="0731_3493_686224_1.shtml" title="转到第2页">2</a><a href="0731_3493_686224_2.shtml" title="转到第3页">3</a><a href="0731_3493_686224_1.shtml" class="nextprev" title="后一页">后一页 &gt;&gt;</a></DIV></DIV></DIV>

</div>

选全部列出式

区域正则:

<DIV class=pageContainer> <DIV class=pager><span class="nextprev">[!--smallpageallzz--]" class="nextprev" title="后一页">

链接正则:

<a href="[!--pageallzz--]"

以上就是关于帝国cms分页采集正则及过滤技巧,希望对大家有所帮助。

  • dedecms教程:定时生成站点地图sitemap.xml-DedeCms教程
  • 织梦CMS上传服务器后出现数据连接失败是怎么回事如何解决-DedeCms教程
  • 织梦DEDECMS 计划任务使用教程-DedeCms教程
  • DEDECMS自定义表单加入验证码问题修正-DedeCms教程
  • 分享Dedecms的一些seo优化简单技巧-DedeCms教程
  • 怎么解决DedecmsV5.7 SP1广告不能显示-DedeCms教程
  • 谈谈怎样防止Dedecms被挂马的问题-DedeCms教程
  • DedeCMS 5.7不兼容PHP 5.4版本的解决办法-DedeCms教程
  • dedecms实现任意页面调用当前会员信息的方法-DedeCms教程
  • 织梦百度结构化数据地图提交插件常见问题及解决方案-DedeCms教程
  • 网友评论

    关于我们 - 联系我们 - 广告服务 - 版权声明 - 人才招聘 - 友情链接 - 网站地图 - 帮助 - -

    CopyRight © 2010-2016 源码下载 easck.com , All Rights Reserved

    蒙公网安备 15052402000103号

    蒙ICP备14002389-1号