技术助力转型,宣传阵线岂能少了它

互联网时代,各种媒介技术飞速发展,新媒体层出不穷,不断向传统媒体的舆论引导力提出挑战,在这样的大环境下,很多传统媒体积极寻求转型,努力利用新媒体、新技术发挥自身优势,寻求发展新途径。为了帮助这些传统媒体实现转型目标,中科基大数据研发出平台(技术支持:迅奥科技),以期针对新媒体传播力建立一套有效的评价体系,并建立有关新闻传播力的评估模型等。通过研究“传播力”这个点,来撬动提高传统媒体传播力的“大门”。

i-Get互联网爬虫系统是一款专业的网络数据采集/信息挖掘处理系统,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台、各种应用系统,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。

功能上支持采集需要登录查看的内容,支持探测文件真实地址并下载远程文件,支持代理采集,支持采集数据直接入库等许多功能特点。同时又具有无限级网址采集、无限级多页和分页规则采集、多语言、多编码支持、支持下载源权重设置、广告排除、垃圾信息排除、URL排重、正文排重等功能。可以完成在浏览器内能看到的各类信息的提取。强大的接口支持,可以通过二次开发实现对数据的萃取要求、定时任务及分布式采集端又能保证对数据的及时性及数据量的要求。

功能说明:

1、支持90%以上互联网信息采集

覆盖媒体范围包括:新闻、论坛、新闻评论、论坛回帖、博客、微博、搜索引擎、WAP网站、电子版的报媒、杂志等国内大部分的主流媒体及国外相关媒体。

2、动态网页信息采集

支持主流动态脚本技术PERL、ASP、PHP和JSP站点动态的页面内容的抓取,同时系统具有避免“搜索机器人陷阱(spidertraps)”的脚本错误的机制。

、新站点发现

快速及时地发现新的数据源,支持新站点的下载策略,快速实现对新站点的网页覆盖率。

4、镜像网页识别

网络中,镜像网页现象严重。75%的网页是以镜像、转载方式存在。识别镜像网站,避免对镜像网站的页面下载,能够有效提高下载效率,节省下载带宽。

5、网站权重设置

采集系统是带宽敏感性应用,带宽是系统性能主要瓶颈。系统可对灵活配置网站、网页下载权重和优先级,从而为重点站点、重要网页提供更快的更新频率和更充足的带宽。

6、网站模板自动识别

无需每个网站制作复杂的模板,匹配下载格式,系统自带云模板库及网站分析工具,自动识别网站内容进行下载,准确率高达80%以上。

7、增量下载模式

由于带宽限制,我们采用增量学习的方法选进行下载,借助现有的关键词库,以及系统下载日志,可以有效自动增量下载,尽可能减少下载的量,同时保证覆盖率。

8、统一多编码方式

对中文信息来讲,主要有GB、BIG5和UTF8(UNICODE)、GBK等几种格式;而对于其他语种则有更多的编码格式如:UNICODE、UUENCODE、BASE64、QuotedPrintable等,可以实现对以上多种编码格式的支持。

9.、先进的下载排重技术

Spider在网际“爬动”时,会找到大量的重复信息。i-Get会对信息源进行URL排重、标题排重、正文排重的三重排重,可以避免下载大量的重复信息,不仅节省了系统资源,同时也可以节省大量的网络带宽,从而大大提高信息采集服务质量。

10、下载出错预警

i-Get具备服务器内存监控、带宽监控、下载日志统计、下载源出错邮件预警等机制,保障下载信息的连续性。

11、云模板库

系统提供上万的模板库供下载系统调用,80%以上网站无需定制模板。

服务方式

系统采用独立部署和数据推送两种方式提供服务。

独立部署:a)需提供充足的带宽,1台或多台下载机,下载源可自行配制无功能限制。数据推送:

b)可根据网站、关键字、媒体类型、频道等多种分类方式,将迅奥数据中心数据定时、定期推送至客户端,推送格式可定制。

服务优势a)可享受全网数据,数据更全面。b)服务更稳定、性能更优。c)与独立部署系统,可随时增删监控源。d)提供7x24小时人工服务

想要了解更多关于企业数字化转型产品的内容或具体案例,可以多多


转载请注明:http://www.aierlanlan.com/grrz/8602.html