视频网页点击数、评论数、发布日期、简介等特征提取
发表时间:2007-11-19 12:20:58  
楼主:chentao_666
最近需要对网页上一些特征进行提取,如:视频网页点击数、评论数、发布日期、简介等特征提取。以前是对各个网站写正则模板,来取得这些信息的,但是视频网站数量大,各个子域名的特征又不一样,而且某些网站总是变化。维护起来很费劲。
现在想通过网页上的关键词进行匹配。如“点击数”对应的关键词为“点击数”,“人气”,“浏览数”等关键词。把它后面的数字提取出来。但是遇见了几个问题:
1,网页中出现了一个特征对应的多个关键词
2,关键词后面的数字是通过javascrip获得的
对应上面的两个问题大家有没有好的解决方法?
使用自动包装器(Wrapper)来自动生成正则应该才是正道.
我对自动包装器,不是很了解能否,介绍一下
能否给一个详尽的解决方案
