首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包

搜索引擎技术 [加入]

探讨搜索引擎技术和应用,申请加入请注明身份。
推荐一篇文章介绍HTML内容萃取
发表时间:2007-08-15 19:33:18   楼主:zdg
赖勇浩翻译的 "从HTML文件中抽取正文的简单方案"
http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx

HTML内容萃取是搜索引擎最基本的模块,不知道各位有没有其他好的参考文献?



 
发表时间:2007-09-20 21:47:43 1 楼:splade

这么好的一个连接怎么就没人回呢!

发表时间:2007-09-21 09:27:18 2 楼:xsc2001
这种方法只能当作一个参考,理论性太强,不一定有效,网页正文的提取应该是对网页html代码进行完全地解析,对各元素坐标化,通过判断大段文字出现的坐标位置找到正文元素的父元素,再对找到的元素通过距离进行进一步排除,最后输出元素的内容。这种方法比较实用而且准确率比较高,通用性也比较强。
发表时间:2008-07-30 09:36:02 3 楼:mirrorzhao
up
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|版权声明|问题报告
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright © 2000-2008, CSDN.NET, All Rights Reserved
GongshangLogo