大数据的缘起、冲击及应对
来源:中国网
本文对大数据的概念、缘起与发展进行了分析,对大数据应用与研究状况进行了梳理,并针对现有的冲击与挑战,提出了相应的对策与思考。
随着物联网、移动互联网、智能便携终端和云计算技术的发展,人类社会进入了“大数据”时代。本文对大数据的概念、缘起与发展进行了分析,对大数据应用与研究状况进行了梳理,并针对现有的冲击与挑战,提出了相应的对策与思考。
一、大数据的缘起:概念及其形成
(一)大数据概念的内涵和外延广义
大数据概念,除了大数据技术及其应用之外,还包括大数据工程和大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程。大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。从概念外延上讲,大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域,是适应信息经济时代发展需要而产生的科学技术发展趋势。
狭义的大数据概念,主要指大数据技术及其应用,是指从各种各样类型的数据中,快速获得有价值信息的能力,一方面,强调从海量数据、多样数据提取微价值,即具有价值(Value)特征;另一方面,强调数据获取、数据传递、数据处理、数据利用等层面的高速高效,即具有快速处理(Velocity)特征。大数据概念里的“数据”,是指具有可追踪、可分析、可量化特性的数据。大数据概念里的“大”,是指“大数据”所应具有的“大量化”(Volume)、“多样化”(Variety)两个特征。从概念内涵上讲,“大数据”(Big Data),一方面,反映的是规模大到无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合;另一方面,主要是指海量数据的获取、存储、管理、分析、挖掘与运用的全新技术体系。
事实上,大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。很显然,挖掘大数据价值、提供大数据服务的能力,是大数据时代的核心竞争力。
(二)大数据形成的必然性
1.数据管理理念不断变革,大数据成为信息技术发展的必然选择
大数据技术及其应用的驱动原因,在于数据管理理念的不断变革。数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。数据管理技术的发展先后经历了四个阶段,即人工管理阶段、文件系统阶段、数据库阶段、面向应用的数据管理阶段。1996年,高德纳(Gartner Group)提出“商业智能”概念,又称商务智能(Business Intelligence,简写为BI)。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业作出明智的业务经营决策的工具。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们作出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三部分。
随着现代信息传播技术手段和方式不断丰富,信息获取、信息传递、信息处理、信息再生、信息利用等功能应用日益多样化,智能化信息系统逐渐形成一个信息网络体系,人类社会的生产方式、工作方式、学习方式、交往方式、生活方式、思维方式等发生了极其深刻的变革,互动化、即时性、全媒体等,成为常态性的信息生态环境,传统的数据库组织架构和信息服务模式已经难以适应信息社会现实需要,整个信息技术架构的革命性重构势在必行,大数据成为信息技术发展的必由之路。
2.大数据源于虚拟网络的迅速发展和现实世界的快速网络化
一方面,虚拟网络社会迅猛发展,形成了海量数据的持续生成空间,改变了人类的生存方式和活动方式,形成了人类的虚拟生活方式。
另一方面,云计算、物联网、社交网络、电子商务、网络社区、即时通信等技术形式的涌现,推动现实世界快速切换到网络社会形态,衍生了规模巨大、类型多样的数据资源。其中两类数据尤其引人注意,一类是企业与企业和消费者之间的“大交易数据”,另一类是来自互联网、社区网、企业服务网、物联网等的“大交互数据”。
虚拟网络的迅速发展和现实世界的快速网络化,两者交互影响,最终导致海量数据的持续生成和繁杂数据的不断出现。目前,我们正处于一个信息爆炸的年代,全球每年产生的数据量是ZB级。2012年全球产生24ZB的数据,相当于3Trillion(万亿)的DVD,到2020年,数据还将增加14倍,达到40ZB。
大数据概念的提出,最初正是由于需要处理的信息量过大,超出了一般电脑的数据处理能力,无法透过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯,因此工程师们必须改进处理数据的工具,这导致了新的处理技术的诞生,比如雅虎的开源Hadoop平台,这类技术使人们可以处理的数据量大大增加。
3.大数据成了决定我们未来数字生活方式的重大技术命题
大数据概念最初起源于美国,是由思科、威睿、甲骨文、IBM等公司倡议发展起来的。
大约从2009年始,“大数据”成为互联网信息技术行业的流行词汇。事实上,大数据产业是指建立在对互联网、物联网、云计算等渠道广泛、大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息服务业,大数据企业大多致力于让所有用户几乎能够从任何数据中获得可转换为业务执行的洞察力,包括之前隐藏在非结构化数据中的洞察力。
最早提出 “大数据时代已经到来”的机构是全球知名咨询公司麦肯锡。2011年,麦肯锡在题为《海量数据,创新、竞争和提高生成率的下一个新领域》的研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。黄升民、刘珊:《“大数据”背景下营销体系的解构与重构》,《现代传播》,2012年第11期。
大数据是一个不断演变的概念,当前的兴起,是因为从IT技术到数据积累,都已经发生重大变化。仅仅数年时间,大数据就从大型互联网公司高管嘴里的专业术语,演变成决定我们未来数字生活方式的重大技术命题。2012年,联合国发表大数据政务白皮书《大数据促发展:挑战与机遇》;EMC、IBM、Oracle等跨国IT巨头纷纷发布大数据战略及产品;几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业;无论社交平台逐鹿、电商价格大战还是门户网站竞争,都有它的影子;美国政府投资2亿美元启动“大数据研究和发展计划”,更将大数据上升到国家战略层面。2013年,大数据正由技术热词变成一股社会浪潮,将影响社会生活的方方面面。
二、大数据应用状况
1.大数据市场规模及增长趋势
针对大数据的商业应用前景,有关研究机构给出了一系列分析报告。例如,技术研究和咨询公司Gartner发布了一份关于企业在大数据方面的支出情况报告,指出大数据将带动2012年全球280亿美元的IT支出,2013年带动的IT支出规模可望进一步增至340亿美元。 而到2016年全球在大数据方面的总花费将达到2320亿美元。中国大数据应用市场已然初露峥嵘,2012年市场规模达到45亿元,2013年还将持续发酵,未来三年内有望突破40亿元,2016年有望达到百亿规模,预计政府、电信、银行将是最先使用大数据工具的行业。
2011年麦肯锡公司的报告预计,若把大数据用于美国的医疗保健,一年产生潜在价值3000亿美元,若用于欧洲的公共管理可获得年度潜在价值2500亿欧元;若服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元。2012年3月,美国政府发布《大数据研究与发展倡议》,这是继其1993年宣布“信息高速公路”之后推动实施的又一重大科技部署。据日矢野经济研究所发布的报告显示,日本大数据产业2011年为1900亿日元,预计在2020年这个产业将会达到1万亿日元。
2.大数据商业实践典型案例举例
大数据商业实践可以划分为两类:一类是大数据行业,以IBM、微软、惠普、Oracle、EMC、SAP等公司提供“硬件+软件+数据”的整体解决方案,它们以平台性为特征,提供基础性服务;另一类是大数据应用,以脸谱、亚马逊、谷歌、淘宝、百度等公司为代表,基于自身拥有的海量用户信息,提供精准化营销和个性化广告推介等。以上两类中,大数据应用发展最为吸引眼球。从个人层面来说,大数据应用涉及智能道路选择、车载定位通讯、基于LBS的服务等;从组织层面来说,大数据应用涉及地理位置定向广告、保险定价、紧急情况响应等;从宏观层面来说,大数据应用涉及城市规划、零售商业智能、新商业模式等。
在国外,一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。
在国内,中国联通、海康威视、北京亿赞普、搜狐、京东等也都在自己熟悉的行业内实施并推进大数据的应用实践。中国市值最大的三大互联网公司,腾讯、阿里巴巴和百度,数据资产的最多拥有者——腾讯拥有最大的网络通讯数据,阿里巴巴拥有最大的网络交易数据,而百度则拥有最大的搜索数据资产,它们都在积极布局未来的大数据业务体系。
典型领域大数据行业应用行业应用特性分析应用案例零售业需要及时响应客户需求,实现精准营销;需要增强产品流转率,实现快速营销肖恩•麦登在亚马逊网站客服处提交了Kindle的故障问题。仅仅30秒后,他的手机便响了。一位叫芭芭拉的客户问候他之后说:“我了解到你的Kindle有一个问题。”亚马逊在两分钟内便解决了肖恩的问题,并跳过了要求他详细拼写他的名字和地址的部分,而且她并没有进一步向他销售任何东西金融业金融智能决策;金融服务创新以阿里巴巴金融之类的小额信贷公司为例,通过在线分析小微企业的交易数据、财务数据,甚至可以计算出应提供多少贷款,多长时间可以收回等关键问题,把坏账风险降到最低互联网数据爆炸增长,结构类型复杂;用户行为丰富,Web社群关系复杂;提升用户体验,增加用户黏性Match com等交友网站也经常会仔细查看其网站上列出的个人特征、回应和交流信息,用来改进其算法,从而为想要约会的男女提供更好的配对①交通行业系统性,数据量大;复杂性,涉及多方面数据;动态性,信息实时处理要求高UPS等货运公司对卡车交货时间和交通模式等相关数据进行分析,以此对其运输路线进行微调安保行业多变量长期监测,多因素综合分析以纽约市为首的警方部门也正在使用计算机化的地图以及对历史性逮捕模式、发薪日、体育项目、降雨天气和假日等变量进行分析,从而试图对最可能发生罪案的“热点”地区作出预测,并预先在这些地区部署警力传媒行业新闻呈现与新闻点击联动,及时反馈,及时调整《赫芬顿邮报》和Gawker网站上传播的新闻通常取决于数据,而不再取决于编辑的新闻敏感度,数据比有经验的记者更能揭示出哪些是符合大众口味的新闻①〔美〕贾斯汀-格里莫:《大数据时代降临》,2012年2月13日《纽约时报》。
三、大数据带来的冲击与挑战
(一)“大数据的生态系统”各环节商业需求将催生数据技术体系变革
有研究者提出“大数据的生态系统”Stephen Watt:《Deriving new business insights with Big Data》,(2013-1-29),http://www.ibm.com/developerworks/opensource/library/os-bigdata/indexhtml这一概念,简而言之,就是数据的生存周期,是指数据从产生、到处理、再到价值提取、最后被消费掉的整个过程。
在这个生态系统中,不同环节的商业需求正在催生新的技术模式和方法以实现新的商业模式。由于大数据产业链贯穿整个数据生命周期过程,涉及数据中心建设与维护、数据处理与分析、视频识别技术、语音识别技术、商业智能软件开发、IT咨询与方案实施、信息安全等诸多领域,因此,大数据产业,能够催生更大的市场和利润空间,将构建数据行业技术应用新体系。
(二)电子商务进一步发展,需求日益社会化、移动化、媒体化
所谓社会化媒体,是指基于用户社会关系的内容生产与交换平台。电子商务转向社会化媒体主要有三方面的表现:第一,社会化媒体平台上的主角是用户,而不是网站的运营者。第二,社会化媒体是内容生产与社交的结合,也就是说,社会关系与内容生产两者间是相互融合在一起的,社会关系的需求促进了社会化媒体平台上的内容生产,反过来,这些平台上的内容也成为联结人们关系的纽带。第三,电子商务在不断社会化的同时,也在不断媒体化,日益成为信息流动的渠道和平台,逐渐具有了信息整合的媒体属性。有关统计显示,阿里巴巴营收中有60%~80%来自淘宝和天猫的广告费收入。
根据中国电子商务研究中心发布的《2012年度中国网络零售市场数据监测报告》,截至2012年12月底,中国移动电子商务市场交易规模达到965亿元,同比增135%,依然保持快速增长的趋势。预计2013年这一数字有望达1300亿元。移动电子商务用户规模逐年递增。2009年我国移动电子商务用户规模达3600万,2010年这一数字攀升到7700万人。2011年移动电子商务用户规模达到1.5亿人,同比增长94.8%。在刚过去的2012年移动电子商务用户规模约达25050万人,同比增长67%。预计到2013年,这个数字将增长到37250万人。
(三)数字媒体的转型发展,需要基于大数据分析开展资源整合
大数据背景下,信息的内涵已不仅仅是消息、通讯、评论等新闻,而是各种各样的数据。这就要求媒体行业必须适应新的信息生产和传播方式,以多元化媒介形态来承担信息传播的职能。大数据时代,媒体面临的挑战有以下几个方面:第一,缺乏专门的数据分析方法、使用体系和高端专业人才;需要不断提升专业技术人员的大数据分析水平,使其掌握从海量数据中快速挖掘出“微价值”的方法和能力;第二,技术(设备)水平亟须提升,数据的搜集、处理、分享、挖掘、分析等工作所需的基础技术架构和应用系统需要不断提高;第三,数据资源再加工能力和数据产品创新能力薄弱,缺乏未来媒体竞争必备的获取、分析、解读数据等技能;第四,数据真实性、可靠性等方面保障能力薄弱,如何确保数据驱动的信息产品质量成为制约媒介行业的一大难题。
大数据背景下,媒体的转型发展既是战略问题,也是技术问题,而这些问题的有效破解,将对未来的媒体形态和格局产生深远影响。
(四)政治竞选团队面临大数据挑战,亟须有效利用数据驱动的机制优势
据《美国时代周刊》报道,数据驱动的竞选决策是奥巴马竞选获胜的关键。新浪新闻中心:《深度分析:数据驱动奥巴马胜选》,2012年11月11日。根据各种各样的数据,依照科学的数据分析方法,基于数据驱动的竞选决策,将深刻影响未来的美国大选。可以预见,未来的政治竞选,数据分析人员将扮演重要角色。大数据分析,将深刻改变总统选举的现有筹划战略和宣传策略。
(五)大数据挖掘,催生用户数据安全难题和用户隐私保护难题
美国互联网数据中心预计,互联网上的数据每年将增长50%,每两年将翻一番,而目前世界上90%以上的数据是最近几年才产生的。大数据,一方面使我们的城市和地球更加智慧;另一方面,这也将催生一系列大数据信息挖掘业务,直接带来新的网络信息安全生态环境。可以预见,大数据将成为网络攻击的显著目标,加大政府、企业和个人隐私信息泄露风险,对现有的存储和安防措施提出挑战,还有可能成为高级可持续的网络攻击载体。
四、应对大数据的几点思考
(一)培植大数据产业链,促进数据技术研发政府层面,应创造良好的大数据产业发展环境
第一,制定大数据的技术标准和运营标准,鼓励企业进行大数据相关技术研发与应用创新,在海量数据存储、数据挖掘、语音数据处理领域、视频数据处理领域、语义识别领域、图像数据处理领域、信息传输、信息安全等技术的研发领域设立重大专项,给予政策和财政资金支持;第二,加快实施“宽带中国”战略,大力加强网络基础设施建设,突破关键技术,以基础设施和技术创新保障大数据产业发展;第三,启动大数据立法,从法律层面保障信息安全。
(二)深刻洞察用户需求,构建新型电子商务模式
日益社会化、移动化、媒体化的电子商务发展趋势,将会带来海量数据的汇集,因此,电商企业亟须把大数据资源转化为大数据资产、把大数据分析转化为大智慧决策。大数据可视化信息图谱输出,使人们更加深入了解客户的需求信息,赋予大数据系统洞察未来的能力,从而更加智能和科学地构建新型电子商务模式。
(三)数据驱动内容生产与传播,提升传媒核心竞争力
大数据背景下的媒体转型,在处理好硬件架构、应用系统、人才队伍等基础问题之后,就必须确立明确的发展方向,即数据驱动的内容生产与传播。
数据驱动内容传播,将会使定制化、精准化和个性化的信息平台成为一种发展趋势。面向个人的信息推送服务,媒介是移动终端(如智能手机),应用是移动互联,卖点是定制、精准和个性化,它能在最短时间内,最有效率、最具针对性地满足个性化信息需求。其操作模式表现为:通过一定的数据采集、挖掘和分析之后,会形成一个清晰的“模型”(也可以叫“路线图”)。然后,系统会根据这个模型,自动抓取个体关注的信息,然后向每个订阅者推送。相较于手机报,它更小众;相对于RSS订阅,它更具个性。
(四)数据驱动竞选决策,赋予政治传播新机制优势
政治传播效果评估,一直是一个难题。大数据时代能够获得更多数据分析样本,建构更为庞大的基础数据库资源,形成连续、可靠的长期数据跟踪监测,及时获取最新政治传播效果数据信息,并以此编制更为精确、高效的政治传播效果分析评估报告,提升竞选团队的洞察力及决策水平。