推荐一篇文章介绍HTML内容萃取
发表时间:2007-08-15 19:33:18  
楼主:zdg
赖勇浩翻译的 "从HTML文件中抽取正文的简单方案"
http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
HTML内容萃取是搜索引擎最基本的模块,不知道各位有没有其他好的参考文献?
http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
HTML内容萃取是搜索引擎最基本的模块,不知道各位有没有其他好的参考文献?
这么好的一个连接怎么就没人回呢!
这种方法只能当作一个参考,理论性太强,不一定有效,网页正文的提取应该是对网页html代码进行完全地解析,对各元素坐标化,通过判断大段文字出现的坐标位置找到正文元素的父元素,再对找到的元素通过距离进行进一步排除,最后输出元素的内容。这种方法比较实用而且准确率比较高,通用性也比较强。
up
