织梦采集中用到的一些过滤规则
织梦dedecms的过滤规则写起来不是很难,规则如下:
代码示例:
{dede:trim}要过滤的内容{/dede:trim}
如果要过滤的内容很简单,完全可以把过滤规则直接写在“{dede:trim}”和“{/dede:trim}”之间。
对于比较复杂的情况,请考虑使用正则,你懂的,正则表达式,那是相当强劲的。
以下是一些过滤规则的例子,供大家参考。
1、采集中去除内容里的超链接:
代码示例:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
假如要将所有超链接内容都去除,规则是:
代码示例:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
这两个规则的不同通过下面代码来解释
例如文章代码中包含着如下内容:
<a href="#">超链接</a>
通过第一个规则,采集结果是:超链接
2、过滤广告
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如
代码示例:
<script src=http://www.dede58.com/a/dedejq/’/plus/ad_js.php?aid=4′ language=’javascript’></script>
这样的规则只需
代码示例:
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是:
代码示例:
{dede:trim}<script>(.*)</script>{/dede:trim}
3、一些测试过的过滤规则
代码示例:
{dede:trim}<!–(.*)–>{/dede:trim} {dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim} {dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim} {dede:trim}<select([^>]*)>{/dede:trim} {dede:trim}</select>{/dede:trim} {dede:trim}<param([^>]*)>{/dede:trim} {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} {dede:trim}<embed([^>]*)>{/dede:trim} {dede:trim}</embed>{/dede:trim} {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} {dede:trim}<object([^>]*)>{/dede:trim} {dede:trim}</object>{/dede:trim} {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} {dede:trim}<OBJECT([^>]*)>{/dede:trim} {dede:trim}</OBJECT>{/dede:trim} {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} {dede:trim}<iframe([^>]*)>{/dede:trim} //by {dede:trim}</iframe>{/dede:trim} {dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} {dede:trim}<IFRAME([^>]*)>{/dede:trim} {dede:trim}</IFRAME>{/dede:trim} {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} {dede:trim}<font([^>]*)>{/dede:trim} {dede:trim}</font>{/dede:trim} {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} {dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim} {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} {dede:trim}<td([^>]*)>{/dede:trim} {dede:trim}</td>{/dede:trim} {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} {dede:trim}<tr([^>]*)>{/dede:trim} {dede:trim}</tr>{/dede:trim} {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} {dede:trim}<tbody>{/dede:trim} {dede:trim}</tbody>{/dede:trim} // 内容来自 {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} {dede:trim}<table([^>]*)>{/dede:trim} {dede:trim}</table>{/dede:trim} {dede:trim}<span([^>]*)>{/dede:trim} {dede:trim}</span>{/dede:trim} {dede:trim}</IFRAME>{/dede:trim} {dede:trim}<script>(.*)</script>{/dede:trim} {dede:trim}<script(.*)>{/dede:trim} {dede:trim}</script>{/dede:trim}
☉本站的源码不会像其它下载站一样植入大量的广告。为了更好的用户体验以后坚持不打水印
☉本站只提供精品源码,源码在于可用,不在多!!希望在这里找到你合适的。
☉本站提供的整站程序,均带数据及演示地址。可以在任一源码详情页查看演示地址
☉本站所有资源(包括源码、模板、素材、特效等)仅供学习与参考,请勿用于商业用途。
☉如有其他问题,请加网站客服QQ(984818011)进行交流。
- 织梦dede首页列表页获取文章对应的tag标签
- 织梦dede导航栏目顶级和二级判断二级输出不同url
- 织梦dede标签array runphp静态生成乱码BUG解决方法
- 织梦dede如何禁止会员发布文章内容带超链接
- 织梦ajax跨域提交自定义表单和跨域验证码问题
- 织梦CMS MIP文章内容页图片适配百度MIP规范
- 织梦CMS时间格式实现XX秒前、XX分钟前、XX天前
- 织梦DedeCMS更新系统缓存增加清理沉余缓存的功能
- 织梦CMS让channelartlist标签支持currentstyle属性的
- 织梦dede自带编辑器替换百度ueditor编辑器
- 织梦DEDECMS整站动态化或整站静态化设置方法
- 织梦dede 模板路径templets目录都有什么?