主页
文章
交流
项目
购买
客服

 

关于网址相关匹配

欢迎讨论 » 表达式交流 » 关于网址相关匹配 »


   

关于网址相关匹配
发表:星空,2010-5-12 22:30:59

回复

 
  史老师,您好,又有问题来麻烦您了。以下是一段文本:
(正文)XXXXXXXXXXXX    www.xiaoshuo8.com     XXXXXXXXX《小说网手机访问 http://wap.16kxs.CoM》XXXXXXXXXXXXXXX    www.pashu8.com 爬书网首发    XXXXXXXXXXXXXXXX             =小 说 5 2 0 首 发==       XXXXXXXXXXXX
  想要匹配“www.pashu8.com 爬书网首发”该如何写表达式呢?本想用非贪婪模式,但是好像是根据前面的内容定位后面的位置,而这个问题相反。请您指教了,谢谢。
  祝一切顺利。

   

Re: 关于网址相关匹配
发表:史寿伟,2010-5-14 2:00:43

回复

 
没明白你的问题,为什么要匹配 pashu8 而不匹配 xiaoshuo8 ,什么依据?

你先按照你的思路去尝试,说出你的思路,我可以帮你纠正你的理解。

   

Re: 关于网址相关匹配
发表:星空,2010-5-14 11:23:12

回复

 
  麻烦史老师了,因为XX代表正文,即有用的部分。所以需要去掉除XXX外的“www.xiaoshuo8.com”、“《小说网手机访问 http://wap.16kxs.CoM》”、“www.pashu8.com 爬书网首发”和“=小 说 5 2 0 首 发==”。其他三个我都可以解决,只是当匹配“www.pashu8.com 爬书网首发”的时候,总是从“www.xiaoshuo8.com”开始匹配,而无法只匹配“www.pashu8.com 爬书网首发”,这样就会把中间一些正文也包括进去的。不知我表达明白了没有。

   

Re: 关于网址相关匹配
发表:史寿伟,2010-5-16 8:26:14

回复

 
你把你现有写成的表达式贴出来看下

   

Re: 关于网址相关匹配
发表:星空,2010-5-22 10:41:46

回复

 
  不好意思,最近有点忙,没及时回复。目的是把除X(正文)外的广告过滤掉,我用的表达式如下:
www\..+?\.com|《.+(www|http).+》|\s\b[\u4E00-\u9FA5]+?首发|=.+=


第 1 页,共 1 页: 第一页 上一页 下一页 最后一页


相关赞助商链接

 
 

RegExLab.com © 2005 - 2009  渝ICP备05015140号