数(shu)(shu)据(ju)(ju)(ju)(ju)智能采集平台全(quan)网(wang)捕获(huo)所需互联网(wang)公开(kai)信息,所见(jian)即所得式(shi)采集,为用(yong)户提(ti)供持续(xu)获(huo)取外部海量数(shu)(shu)据(ju)(ju)(ju)(ju)的服(fu)务(wu)。通过数(shu)(shu)据(ju)(ju)(ju)(ju)治(zhi)(zhi)理算法组件,对数(shu)(shu)据(ju)(ju)(ju)(ju)进行清洗、治(zhi)(zhi)理,保证数(shu)(shu)据(ju)(ju)(ju)(ju)质量,为数(shu)(shu)据(ju)(ju)(ju)(ju)应用(yong)提(ti)供有效支撑(cheng)。
支持对定向网站、社(she)交(jiao)平台(tai)等数(shu)据源进行配置管(guan)理。
将采集的定(ding)向网(wang)站、社(she)交平(ping)台转换为采集任(ren)务,协调(diao)监(jian)控每个任(ren)务队列的情(qing)况。
支持对采(cai)集任(ren)务异常情况进行(xing)监控预警(jing)。
支持对(dui)信息进行初(chu)步处理(li)后,将其(qi)结构化入(ru)库,数据治理(li)算法(fa)组(zu)件包(bao)括:标题抽取(qu)、新(xin)闻正文抽取(qu)、人名(ming)地名(ming)抽取(qu)、热词发现、自动聚类等。
数据采集采用先进的分布式(shi)架构集群部署(shu),可以(yi)抓(zhua)取(qu)海量的网(wang)页,消除单点抓(zhua)取(qu)瓶(ping)颈。数据支持缓存(cun)处理和分库(ku)存(cun)储(chu),保(bao)证采集系(xi)统稳定高效运(yun)行。
采用流(liu)式(shi)计算技(ji)术,对用户(hu)的(de)数据(ju)请求(qiu)能够(gou)秒级快(kuai)速响应。智(zhi)能的(de)调(diao)度机制,对于实时性(xing)要求(qiu)较高的(de)源网(wang)站优先调(diao)度处理。
采用先(xian)进的数据(ju)采集(ji)容(rong)错机制,确(que)保数据(ju)传(chuan)输的性能和(he)正(zheng)确(que)性。对于传(chuan)输错误的数据(ju)能够(gou)进行重传(chuan)。
不展示!