织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法
今天打开火车头采集器需要更新下织梦网站,可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了,仔细一看该目标站的文章列表页将文章url地址做了处理。
表现:
常规的文章列表文章URL应该是 <a href=http://www.dede58.com/a/dedejq/"https:/www.dede58.com/URL.html">才对,而该站处理成了<a href="//www.dede58.com/URL.html">,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://www.dede58.com/www.dede58.com/URL.html,这样的话就无法正确采集内容了。
解决方法:在网址获取选项里点选“手动填写链接地址规则”,
右侧脚本规则填写【a class="item" href=http://www.dede58.com/a/dedejq/"[参数]" title="(*)" target="_blank">】这里的参数就是原始目前的不带协议头的网址。
实际连接:填写【http:[参数1]】如果该网站是https的这里就填写【https:[参数1]】
结果:
以上操作后点获取网址测试正确,从采集,入库等都OK了。
PS:
这个网址问题以前看到过,用DEDECMS织梦采集就是网址错误,今天在火车头上总算是解决了。
☉本站的源码不会像其它下载站一样植入大量的广告。为了更好的用户体验以后坚持不打水印
☉本站只提供精品源码,源码在于可用,不在多!!希望在这里找到你合适的。
☉本站提供的整站程序,均带数据及演示地址。可以在任一源码详情页查看演示地址
☉本站所有资源(包括源码、模板、素材、特效等)仅供学习与参考,请勿用于商业用途。
☉如有其他问题,请加网站客服QQ(984818011)进行交流。
- 织梦dede首页列表页获取文章对应的tag标签
- 织梦dede导航栏目顶级和二级判断二级输出不同url
- 织梦dede标签array runphp静态生成乱码BUG解决方法
- 织梦dede如何禁止会员发布文章内容带超链接
- 织梦ajax跨域提交自定义表单和跨域验证码问题
- 织梦CMS MIP文章内容页图片适配百度MIP规范
- 织梦CMS时间格式实现XX秒前、XX分钟前、XX天前
- 织梦DedeCMS更新系统缓存增加清理沉余缓存的功能
- 织梦CMS让channelartlist标签支持currentstyle属性的
- 织梦dede自带编辑器替换百度ueditor编辑器
- 织梦DEDECMS整站动态化或整站静态化设置方法
- 织梦dede 模板路径templets目录都有什么?