老实说我并不主张网站采集,不过做为站长,网页采集实在是一大利器。拿帝国CMS来说,采集功能很强大。虽然帝国CMS采集方法简单易学,但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。
从文章的源代码中获得的
第一种:
<p><b><font color='red'>[1]</font> <a href='http://www.dede58.com/Eat/RMenu/200806/38611_2.html'>[2]</a> <a href='http://www.dede58.com/Eat/RMenu/200806/38611_3.html'>[3]</a> <a href='http://www.dede58.com/Eat/RMenu/200806/38611_4.html'>[4]</a> <a href='http://www.dede58.com/Eat/RMenu/200806/38611_2.html'>下一页</a> </b></p>
编写的规则:
选全部列出式
区域正则:
<p><b><font color='red'>[!--smallpageallzz--]'>下一页
链接正则:
<a href='http://www.dede58.com/web/empire/[!--pageallzz--]'>
--------------------------------------------------------------------------------
第二种
采集代码
<p><b><font color='red'>[1]</font> <a href='http://www.dede58.com/lw/3/lw_31205_2.html'>[2]</a> <a href='http://www.dede58.com/lw/3/lw_31205_2.html'>下一页</a> </b></p> <center>《
编写的规则:
选用上下导航式:
分页区域正则:<font color='red'>[!--smallpagezz--]下一页
分页链接正则:<a href='http://www.dede58.com/web/empire/[!--pagezz--]'
新闻正文正则:
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script></td>
</tr>
</table>[!--newstext--]</td>
</tr>
<tr>
<td width=5></td>
过滤广告正则:
</p> <center>[!--ad--]</center>,</p><p>[!--ad--]</b>
例如:
--------------------------------------------------------------------------------
第三种
<p><img src="http://www.dede58.com/bgy/Images_1/sy8.gif"> <FONT>【1】</font> <a class=page href="http://www.dede58.com/web/empire/094221656-2.html" target=_self>【2】</a> <a class=page href="http://www.dede58.com/web/empire/094221656-3.html" target=_self>【3】</a> <a class=page href="http://www.dede58.com/web/empire/094221656-4.html" target=_self>【4】</a> <a class=page href="http://www.dede58.com/web/empire/094221656-5.html" target=_self>【5】</a> <a href="http://www.dede58.com/web/empire/094221656-2.html"><img src="http://www.dede58.com/gwy/Images1/xy.gif"></a></p>
编写的规则:
"全部列出"式正则设置:
分页区域正则(无)
分页链接正则:
<a class=page href="http://www.dede58.com/web/empire/[!--pageallzz--]" target=_self>
--------------------------------------------------------------------------------
第四种:
<DIV class=pageContainer> <DIV class=pager><span><< 前一页</span><span>1</span><a href="http://www.dede58.com/web/empire/0731_3493_686224_1.shtml" title="转到第2页">2</a><a href="http://www.dede58.com/web/empire/0731_3493_686224_2.shtml" title="转到第3页">3</a><a href="http://www.dede58.com/web/empire/0731_3493_686224_1.shtml" title="后一页">后一页 >></a></DIV></DIV></DIV>
</div>
选全部列出式
区域正则:
<DIV class=pageContainer> <DIV class=pager><span>[!--smallpageallzz--]" title="后一页">
链接正则:
<a href="http://www.dede58.com/web/empire/[!--pageallzz--]"