时间:2016年11月30日
当前位置:首页 > 宣传推广 > 创新科技 > 正文

科技|大数据成为国家基础性战略资源

发布时间:2017-03-10 17:34:11     浏览次数:

数据的获取、处理与应用在人类社会发展中一直扮演着重要角色。信息技术的出现为数据处理提供了自动化的方法和手段,推动数据(信息)成为继物质、能源之后的第三大战略资源。大数据作为信息技术及其普适应用发展到一定阶段的“自然现象”,源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断廉价化。

根据统计,全球数据规模持续呈指数级增长,2020年前全球数据量大约 2年增加 1 倍(2000年800TB,2012年2.7ZB,2020年预计44ZB)。举个例子,假设一首长为3分钟的歌曲录制成MP3文件,大小为 10MB,那么 1ZB的数据存储空间可存储超过14000亿首 MP3格式的歌曲,如果全部听一遍,需要8亿多年。

 

 

大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行感知、获取、管理、处理和服务的巨量数据集合,具有海量性、多样性、时效性和可变性等特征,需要可伸缩的体系结构以支持其存储、处理和分析。大数据逐渐成为学术界、产业界和政府共同关注的热点,源自一系列事件:2008年和 2011年,《自然》和《科学》分别发表大数据专刊,2011年易安信(EMC)和国际文献资料中心(IDC)联合发表《从混沌中萃取价值》的研究报告,2012 年奥巴马政府启动“大数据研究和发展计划”。这些事件标志着大数据时代的到来。

 

大数据蕴含巨大的价值和发展潜力,具有重要的战略意义。在信息时代,没有“数据”参与社会或经济活动,已不可想象。数据源于人类认识自然、改造自然、推动社会经济发展的各类活动,信息技术推进数据的规范化和格式化,使数据不断升华为信息和知识,最终成为全人类的“数据宝藏”,又被重新投入到新一轮的各类社会经济活动中,创造出更大的价值。

大数据的价值及意义体现在四个方面:①提供了人类认识复杂系统的新思维和新手段。2007 年,数据库软件领域的先驱人物吉姆·格雷(Jim Gray)提出了“第四范式”的概念,指出大数据现象的出现,为人类提供了基于大数据触摸、理解和逼近现实复杂系统的可能性,从而使数据密集型科研成为继实验科学、理论科学和计算科学之后,人类探索未知、求解问题的一种新型范式。②成为促进经济转型增长的新引擎。一方面,大数据将大幅度促进产业转型、催生新业态;另一方面,对大数据的采集、管理、交易、分析等业务也将成长为具有巨大潜力的新兴市场。根据麦肯锡的估计,到 2020 年大数据将为美国经济带来 1550 亿~3250 亿美元的增长,占GDP 的0.8%~1.7%。③成为提升国家综合能力和保障国家安全的新利器。数据资源成为国家核心战略资产和社会财富,国家信息能力是重塑国家竞争优势的决定性因素。掌握数据并利用好数据将大幅提高情报收集和分析能力,促进国家安全。④成为提升政府治理能力的新途径。政府应用大数据技术将可以通过数据揭示政治、经济、社会事务中传统技术难以展现的关联关系,为有效处理复杂社会问题提供新的手段。

 

 

近年来,大数据分析和应用的成功案例不断涌现,并受到媒体的广泛报道。按照数据分析深入程度的不同,这些应用可分为三个层次。

第一个层次,称为描述性分析(descriptive analytics)应用,此类应用试图从海量、琐碎的数据中,分析发现更高抽象层次且能为人理解的模式和关联,从而帮助人们认知发生了什么,以及事物发展的过程。例如:著名的数据分析公司 Palantir 通过扫描和分析美国政府情报机构和金融机构掌握的财务数据、DNA 样本、语音资料、录像片段、地图等多个数据库,帮助非科技用户发现关键联系,并寻找复杂问题的答案,它曾协助美国政府发现了麦道夫(Bernie Madoff)的“庞氏骗局”,并在一些重要军事行动中发挥了关键作用。

 

第二个层次,称为预测性分析(predictive analytics)应用,指从大数据中分析事物之间的关联关系、发展模式等,并从统计学的角度预测事态发展的概率性趋势。典型案例是谷歌的流行感冒预测应用。2008 年谷歌推出了“谷歌流感趋势”(GFT)系统,其基本原理是认为流感相关搜索关键字的数量与流感疫情发生概率呈正相关性。2009 年 GFT 对 H1N1 在全美的传播做出准确预测,较美国疾控中心滞后 1~2 周的数据,其预测更及时和有效。这一事件作为大数据成功应用的典型案例,在 2009 年取得了轰动性效果,被媒体争相报道。然而,此后几年,GFT预测的准确性不断下降,2013 年 1 月,GTF 预测值大失水准,甚至达到实际值的 2 倍。这一现象也引发了对 “仅关注关联、不问因果”的所谓“大数据新思维”的质疑和思考,推动了大数据方法和思维方式向更深入、更理性的方向发展。
 

第三个层次,称为指导性分析(prescriptive analytics)应用,指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行选择和优化。例如,谷歌的无人驾驶汽车,装备了激光仪、雷达、摄像头等传感器,每秒可采集 750MB 感知数据,并且融合精细到英寸的详细城市地图,对汽车当前位置做出精准判断,同时,基于对上述数据的融合分析,估计汽车自动驾驶行为的可能后果,并不断对驾驶行为做出决策。

 

 

当前大部分大数据分析应用仍以描述性分析为主,也有部分预测性分析的应用,但是分析最深入、最具价值的指导性分析应用却十分少见。浅层应用较多、深层应用较少的现状,反映出大数据分析应用技术尚存在很大发展空间。

大数据技术是以大数据为操作对象的技术,涉及数据的生成获取、存储管理、处理分析、展示应用等环节。大数据对现有信息技术体系,特别是计算技术体系,带来了一系列挑战,也催生了近年来一批新技术的产生。

 

在数据存储管理方面:传统关系数据库技术不适合管理图片、视频、自由文本、网页等非结构和半结构化的数据,并且难以建立包括大量服务器的大规模集群,因此难以适应大数据管理的需求。近年来涌现了一批采用更简单数据模型的非关系型数据库系统(NoSQL 数据库),以及通过对传统关系数据库实现技术深度改造的新关系数据库系统(NewSQL 数据库),并建立起一批包括上百甚至数千台服务器的超大规模数据库集群,以满足大数据存储管理的需求。

在并行处理模型与系统方面:由于受到电路集成度物理极限的限制,近年来处理器的多核化以及计算模型的并行化成为大数据处理的技术选择。当前涌现了一批支持并行数据处理的模型和系统,例如:支持大量已存储于系统中数据批量处理的 MapReduce 模型和 Hadoop、Spark 系统,支持高速数据流实时处理的 Storm 系统,以及支持亿万个顶点级别大规模图的处理的图处理模型和 Pregel 系统等。

在大数据分析方法与模型方面:适合对原始数据进行分析,具有更强的抽象特征提取和复杂数据关系分析能力的深度学习模型得到了快速发展,并在自然语言处理、语音图像识别等领域取得了令人瞩目的成就。另外,直接利用计算机硬件对大脑进行仿生模拟的类脑计算技术也在大数据的推动下快速萌发。如:美国政府的 BRAIN Initiative12 年研究计划,拟在 5 年内着重开发探知大脑的新技术,在未来 10 年内力争用新技术支撑脑科学的研究。

在计算机体系结构方面:基于通用 CPU 的计算环境面临挑战,为此学术界展开了一系列针对大数据特征的新型计算机体系结构的研究,如:面向特定领域(神经计算、深度学习、图计算等)的通用加速器部件的设计、计算与数据紧密耦合的内存计算体系结构等。另外,一些有大量大数据分析应用需求的企业,则设计并构造了专用的大型计算系统。例如:为了满足深度学习及大数据处理的巨量计算需求,谷歌采用了超过 1000 个节点的 CPU 集群来进行 GoogleNet 的计算。

当前,大批企业投身于大数据相关的软硬件基础设施、分析方法、领域应用及数据生产等方面的技术研发,开源技术成为大数据生态系统中的主流,大数据产业生态系统的雏形已经形成,涵盖了大数据的获取、存储、处理、分析、服务、安全等诸多环节,并逐步与传统产业 / 行业结合,释放出巨大的能量。


近年来,我国也掀起了大数据研究与应用的热潮。在国家支持下,我国启动了一系列与大数据相关的科研计划。例如:国家自然科学基金委启动了重大研究计划,支持对大数据应用于商业、管理等领域时的基础科学问题探索;国家重点基础研究发展计划(“973”)则着重部署研究大数据技术本身的理论和机理,以及在网络空间、智慧城市等领域的应用理论和关键技术;国家高技术发展研究计划(“863”)启动了面向内存计算、大数据智能等核心关键技术与系统的研发等。作为“十三五”的科技重大布局,我国已经启动了“云计算与大数据”国家重点研发计划专项,而“大数据重大科技工程”也正在立项论证过程中。

为了促进我国大数据技术的研发和标准化,推动产业链整合,2014 年 12 月成立了全国信息技术标准化技术委员会大数据标准工作组。工作组从共性技术、产品平台、安全保障等技术领域,以及工业制造、电子商务等应用领域设立了专门的工作组,开展标准化研发与推广工作。

 

 

在产业界,我国企业也开展了一系列大数据共性服务的研发。例如:内容管理系统推出的“内容管理系统大数据 +”平台,面向社会提供数据分析接口与工具;阿里发布了“数加”平台,为小型电子商务数据的分析商提供数据分析支持;腾讯也建立了自己的数据分析平台,并将深度学习工具应用于微信数据的分析中。另外,还有一些企业也研发出了一批基于大数据分析的智能服务与应用系统。例如:高德公司基于其采集的 4 亿多地图用户的出行数据,融合多个城市出租车和物流车辆的轨迹数据,得出了全国城市拥堵排名,并基于道路拥堵情况为出行者提供优选路线。从产业界的发展态势看,大数据的开放共享已成为驱动大数据应用发展的重要因素,其中,来自产业界的民间数据与来自政府机构的官方数据的开放共享进而融合应用,尤其值得期待。


2015年9 月5日,国务院发布《国务院关于印发促进大数据发展行动纲要的通知》(以下简称《纲要》),将大数据确定为我国信息化建设的核心主题和战略抉择。《纲要》从国家信息化发展的层次,给出了三方面主要任务:加深对大数据概念内涵与范畴的宏观理解,加快政府数据开放共享,推动资源整合,提升治理能力;推动产业创新发展,培育新兴业态,助力经济转型;强化安全保障,提高管理水平,促进健康发展。《纲要》的发布为我国大数据技术和产业的发展,提供了政策性的指导和保障机制。2015 年 10 月,党的十八届五中全会公报中也明确写入要实施“国家大数据战略”。

 

近年来大数据受到各界的高度重视和媒体的广泛宣传,在引发思考、加大投入、促进技术发展的同时,也导致了一些对大数据概念的炒作现象。在此情况下,需要保持清醒和理性,在大力推进的同时意识到大数据发展仍然处于初级阶段,还存在许多问题与挑战。

 

大数据理论和技术都还处于发展早期阶段,远未成熟

 

当前对大数据的特征和定义已经形成较为一致的认知,但是,对大数据相关的一些核心命题仍然存在争议,例如:数据“大”与“小”的对立统一,“关联”与“因果”的辩证性,“全数据”的相对性等。近年来,虽然出现了一批数据应用的成功案例,但是针对大数据本质特征、规律以及利用大数据求解问题的科学方法论体系等相关基础理论的研究却相对滞后。在大数据技术方面,虽然近年来发展迅速,但大都是针对特定数据集和特定问题提出的专用解决方案,是否有可能形成统一的通用技术体系,仍有待未来的技术发展给出答案。由于存在大量的需求,应用超前于技术发展,数据分析的结论缺乏坚实的理论基础,对这些结论的使用仍须保持谨慎态度。

 

促进大数据发展的数据开放、共享的有效机制尚未建立

 

大数据应用的真正价值应该体现在数据挖掘的深度和多源(跨界)数据融合的广度,而非仅仅是数据的“海量”。而要实现这一目标,需要建立相应的数据开放、共享的机制。在国务院发布的《纲要》中,59 次提到“共享”,36 次提到“开放”,是《纲要》强调的主题。然而,实践中真正实现数据的开放和共享,不仅需要研发有针对性的技术和标准,而且还需要从数据所有权、隐私保护、信息安全等角度出台系列法规和政策。《纲要》为上述工作提供了指导,然而落实《纲要》的精神,达到预期目标,仍需要较大的投入和努力。

 

大数据人才缺口很大,亟须建立跨学科的人才培养体系

大数据涉及计算机科学、统计学和其他应用领域,以及作为上述领域交叉的数据科学,其知识体系将是多学科的交叉集成。当前针对大数据人才所需知识体系的交叉学科培养机制尚未建立,需要积极研究和探索。

 

超前投资、重复投资导致资源浪费

 

随着大数据热的出现,也出现了“一哄而上”的发展态势,借概念“新瓶装旧酒”者有之,不顾本身应用需求和环境约束盲目上马者有之,已出现超前投资、重复投资导致的资源浪费现象。因此,发展大数据应需求驱动,因地制宜,做好顶层规划和示范引导,积极谋划,审慎推进。

 

来源:科协改革进行时