网站首页
新闻资讯
产品服务
产品体验
业绩案例
媒体报道
研究成果
关于谷尼
联系我们
当前位置:
首页
>>
技术支持
>>
产品问答
你们的采集能否去除网页广告及重复的文章?
发布时间:2008-01-16
问题回复:可以
1.可以去除网页广告及其它没有用的链接及代码,准确的抽取文章的正文和标题。
2.系统既支持URL去重,还支持基于网页内容的去重,方法是文章主题意思80%相同的视为相同的文章。
相关技术:
内容抽取
系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
自动去重
通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
更多>>
公司新闻
·《2010-2011中国网络舆情…
·谷尼成为最具影响力的网络舆情服务…
·《2011中国网络舆情报告》书即…
·推出国内首家微博舆情监测系统
·《2011国八条新政网络舆情报告…
·谷尼网络舆情分析报告 服务倍受关…
·谷尼舆情软件+网络危机公关服务新…
·北京大学风险沟通新闻发言人培训取…
更多>>
相关报道
·
你们
的采
集可以应用在什么方向?
·
你们
的采
集系统是否支持关键词的自…
·
你们
的采
集系统试用版与正式版区别…
·请问
你们
采集
软件是否支持动静态网…
·
你们
的产品可以实现内网
的文
档和网…
·
你们
检索支持
的文
档格式?
·
你们
的全文检索系统是否支持数据库…
·我不知道要
采集
网站
能否
自动发现我…
谷尼网络舆情监控系统
谷尼企业竞争情报系统
微博舆情监测预警系统
谷尼国际软件(北京)有限公司 版权所有 Copyright Gooniesoft Co.,Ltd All Rights Reserved
北京海淀公安分局备案号:1101085030 京ICP备09060067号
谷尼内容管理系统http://www.goonie.cn 授权用户:http://www.goonie.cn