首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包

搜索引擎技术 [加入]

探讨搜索引擎技术和应用,申请加入请注明身份。
视频网页点击数、评论数、发布日期、简介等特征提取
发表时间:2007-11-19 12:20:58   楼主:chentao_666

最近需要对网页上一些特征进行提取,如:视频网页点击数、评论数、发布日期、简介等特征提取。以前是对各个网站写正则模板,来取得这些信息的,但是视频网站数量大,各个子域名的特征又不一样,而且某些网站总是变化。维护起来很费劲。

现在想通过网页上的关键词进行匹配。如“点击数”对应的关键词为“点击数”,“人气”,“浏览数”等关键词。把它后面的数字提取出来。但是遇见了几个问题:

1,网页中出现了一个特征对应的多个关键词

2,关键词后面的数字是通过javascrip获得的

对应上面的两个问题大家有没有好的解决方法?

 

 





 
发表时间:2008-02-15 11:29:05 1 楼:zdg
使用自动包装器(Wrapper)来自动生成正则应该才是正道.
发表时间:2008-02-18 10:53:40 2 楼:chentao_666

我对自动包装器,不是很了解能否,介绍一下

发表时间:2008-02-18 14:34:26 3 楼:chentao_666

能否给一个详尽的解决方案

网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|版权声明|问题报告
世纪乐知(北京)网络技术有限公司 版权所有, 京 ICP 证 020026 号
北京创新乐知广告有限公司 提供技术支持
Copyright © 2000-2007, CSDN.NET, All Rights Reserved
GongshangLogo