你们的采集能否去除网页广告及重复的文章?
发布时间:2008-01-16
问题回复:可以
        1.可以去除网页广告及其它没有用的链接及代码,准确的抽取文章的正文和标题。
 
        2.系统既支持URL去重,还支持基于网页内容的去重,方法是文章主题意思80%相同的视为相同的文章。
 
相关技术:
         内容抽取
         系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
 
        自动去重
        通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
 
 
谷尼国际软件(北京)有限公司 版权所有 Copyright Gooniesoft Co.,Ltd All Rights Reserved
北京海淀公安分局备案号:1101085030 京ICP备09060067号

谷尼内容管理系统http://www.goonie.cn 授权用户:http://www.goonie.cn