normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; mso-pagination: widow-orphan" align=justify>摘要:【目的】对国内外大数据经济监测预测研究现状进行述评。【文献范围】以“Big data + Economics/ Economy”、“大数据+经济”等主题词检索WOS、CNKI、EI等数据库,结合主题筛查和引文溯源,获得中文论文163篇、英文论文107篇,以及以大数据经济学为主题的中外文专著7部,结合主题相关度和文献质量等因素,确定代表性文献157篇。【方法】采用文献综述的手段,对近十余年来国内外经济学、信息科学等领域学者研究大数据经济监测预测的研究手段、数据来源、核心观点进行归纳梳理。【结果】从监测和预测两方面总结了7种典型研究路径,前者包括基于大数据改进传统调查、构建新型经济监测指标、“现时预测”(Nowcasting)和经济运行态势分析等4条路径,后者包括构建先行性经济预测指标、改进传统预测模型、建立全新预测模型等3条路径。【局限】仅从过去十几年间相关领域研究进展进行述评,研究跨度和学科视角有待进一步拓展。【结论】既要理性看待大数据应用于宏观经济监测预测巨大潜力和现实困境,又要从经济学理论发展史的角度思考大数据与传统经济数据分析的区别与联系,深入思考其方法论内涵与影响。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; mso-pagination: widow-orphan" align=justify>关键词:大数据 经济监测 经济预测 现时预测
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; mso-pagination: widow-orphan" align=justify>分类号:TP391
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; mso-pagination: widow-orphan" align=justify>
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%" align=justify>
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>大数据是近十余年来学术界和产业界高度关注的新兴研究领域。1995年,费亚德(U. M. Fayyad)在国际数据挖掘领域的顶级峰会——知识发现会议(KDD)上首次提出了大数据的概念[],并将其基本目标概括为两个方面:描述(Descriptive)与预测(Predictive)。前者是针对海量数据背后所隐藏的各种关联模式开展挖掘。维克托·迈尔·舍恩伯格认为,由于大数据突破了传统样本采集方式的数据规模局限,而得以在很大程度上采用全样本海量数据开展分析,因此其可以大量使用相关性挖掘的方法,发现隐藏在海量数据背后的线索性信息 []。后者则是根据数据中潜在的模式来进行预测。不同于传统统计学主要基于有限统计样本数据的预测方法,大数据可以帮助人们突破样本采集方法的局限,实现对全样本、全天候、全场景、全方位数据的采集,从而有助于提升对经济社会运行主体的预测能力。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>近年来,随着大数据的兴起,运用各种非传统统计数据开展宏观经济分析研判不仅成为经济学者关注的焦点问题,同时还吸引了包括信息科学、生物学、物理学、社会学等多学科研究者共同关注的热点领域。据笔者不完全统计,近十年来国内外期刊上直接以大数据经济学为主题的文章已不下150篇。本文拟全面回顾近十余年间经济学、信息科学等不同学科研究者对于宏观经济大数据分析的关注,梳理大数据在宏观经济分析中的应用研究脉络,并对下一步研究趋势和发展方向进行展望。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>宏观经济大数据分析是一个典型的多学科交叉研究领域。从该领域较为活跃的研究团队的学科背景看,经济学家是其中的重要力量,但绝不是唯一关注这一领域的学科群体。近年来,来自信息科学、生命科学、物理学、复杂科学等其他领域的研究者也开始大量关注宏观经济运行中的大数据分析,从而使得宏观经济大数据研究变成了一个多学科交叉的综合性领域。一个简单例证是,直接以标题中包含“Big data + Economics/ Economy”检索SCI网站,检索结果中经济学相关领域(经济学、商学、管理学、金融学等)文献占比为42%,而信息科学相关领域(计算机、通信、人工智能、图书信息学、自动化等)文献占比43.5%,已超过经济学,其他如生命科学、物理学、社会学、工程科学、城市规划等领域学者也开始关注宏观经济大数据分析。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>总体而言,当前经济学界对于数据的研究主要还是基于统计样本数据,对于近年来兴起的大数据,经济学界尽管已经开始高度关注,但认为其“在某种程度上仍然是较新的、非主流的领域”[],主流经济学界对于大数据的意义、作用和价值的观点尚未完全统一。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>无论如何,近年来主流经济学界对于大数据的关注无疑已经进入了一个全新高度。以美国经济研究局(NBER)为例,其近两年明显强化了对宏观经济大数据方向研究的资助。2018年举办了主题为“人工智能经济学”(Economics of Artificial Intelligence)的会议,与会者对AI多主体互动、机器学习与就业预测、机器人对就业的替代效应等问题进行了集中研讨。2019年更是先后举办了三场大数据相关学术会议,分别是“面向21世纪的经济统计大数据”(Big Data for 21st Century Economic Statistics,华盛顿)、“大数据对金融市场和企业的长期影响”(Big data: Long-Term Implications for Financial Markets and Firms,剑桥)以及“数字化经济学”(Economics of Digitization,斯坦福)。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>近年来,国内经济学界对宏观经济大数据的研究也在不断升温,但总体而言,目前绝大多数研究还停留在对理论可行性或概念内涵进行论述的初级阶段,较为系统地针对宏观经济大数据监测预测问题开展实证分析的团队尚较为少见。在理论阐述方面,俞立平[]、钟穗[]、徐晋[]、尹伯成[]、宋圭武[]等人提出了所谓“大数据经济学”的概念。特别是俞立平较早也较为系统地提出并论述了大数据经济学( Big Data Economics或Economics of Big Data)的概念体系。他认为,大数据经济学是在经济学研究和应用中采用大数据并且采用大数据思想对传统经济学进行深化的新兴交叉学科[4],并将大数据经济学研究内容概括为大数据计量经济学、大数据统计学和大数据领域经济学三个方面[]。此外,少量经济学者对宏观经济大数据分析进行了较为系统的实证分析。如复旦大学经济学院吴力波教授牵头的社科基金重大项目“基于大数据的宏观经济现时预测理论与方法研究”[],围绕基于大数据的宏观经济预测体系优化,开展了针对劳动力市场、金融市场、商品市场和国际贸易等四个领域的实证研究。清华大学经济学研究所刘涛雄、徐晓飞团队依托教育部人文社科项目“大数据视角下宏观经济预测的技术与方法研究”等课题,针对宏观经济大数据预测的技术框架进行了系统分析,并提出“两步法”改进传统经济预测模型 [-]。但总体而言,国内经济学界开展的宏观经济大数据实证研究并不多见,大量研究停留在意义探讨和概念论述等阶段。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>与经济学界出于某种“方法论惯性”或基础理论的质疑而对宏观经济大数据分析存在种种质疑不同,信息科学领域既是“大数据”概念最早的提出者和倡导者,更是“拥抱”宏观经济大数据分析最为坚决的学科领域。信息科学领域对经济运行大数据的关注最早是从商业智能领域开始的。在商业领域,大数据手段已经与商业场景紧密结合,使得商业智能从过去的报告和决策支持模式跃升到商业预测和未来决策(Next-move Decision Making)模式[]。相比经济学界而言,信息科学领域的研究者高度强调大数据给传统经济学带来的巨大冲击和影响,斯坦福大学教授、沃尔玛全球电子商务高级副总裁Anand Rajaraman发明了一个新词Econinformatics,指将计算机科学和信息技术,特别是大数据技术应用于经济研究领域 []。英国学者Renaud Di Francesco对大数据时代的经济学研究[]进行了系统分析,他以大数据背景下的数据源发挥机制为出发点,提出大数据经济学的研究既要依赖源数据和经济学历史的相关知识,又要具备IT行业的传统开发技能;既要能灵活运用因特网上的所有可用信息,又要具备强大的分析推理能力。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>信息科学领域的研究者相信,当收集的经济社会运行微观主体相关信息量足够多、内容足够丰富时,大数据就会对宏观经济运行产生很强的监测预测能力。著名学者Barabasi指出,“如果你知道一个人过去的所有社会数据,那么你对他未来行为的预测的准确性将达到93%”[]。2008年,Google公司发布谷歌流感趋势(Google Flu Trends,GFT)产品,基于网民搜索数据对流感爆发趋势进行预测,其研究成果被Nature[]正式刊登,成为运用大数据开展宏观趋势预测的里程碑之作。之后,谷歌首席经济学家哈尔. 瓦里安(Hal R.Varian)带领的团队[-]先后将谷歌搜索指数应用于汽车销量、旅游、消费走势、就业等诸多领域。2010年以来,基于多类数据源综合比对开展宏观经济大数据分析研判,成果该领域研究的共同特点。较有代表性的如美国斯坦福大学Susan Athey教授团队,其一直关注大数据、机器学习与经济学的交叉研究领域,运用手机位置信息、搜索数据、精准营销、新媒体等数据源针对宏观经济运行、公共政策评估等领域开展了一系列高水平研究,形成了较大影响力[]。国内方面,中国人民大学信息学院许伟团队出版了专著《基于网络大数据的社会经济监测预警研究》[],提出了基于网络大数据开展经济社会监测预测的研究框架,并围绕就业、CPI、汇率、房地产、电商等领域开展了一系列实证分析,是国内较早专门论述宏观经济大数据分析的学术专著。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>与经济学界总是试图将大数据分析与经济学理论框架相结合不同,信息科学背景的研究者更倾向于直接针对海量数据背后所隐藏各种关联模式开展挖掘,从而揭示样本数据无法涵盖的各种细节信息。换言之,大数据分析不关心因果逻辑,而只是通过对海量数据背后关系的分析挖掘,找到对人们生产生活具有指导意义的关联关系——典型案例就是“啤酒+尿布”的案例。而经济学界则有人指出,大数据分析这种只关注相关性,而回避因果关系的研究思路,既限制了基于大数据的经济分析结果解释力,又反应出其某些理论基础尚未完全夯实的困境[3]。即以谷歌流感趋势为例,2013 年2月,Nature[]又以头条新闻的方式报道了谷歌流感趋势过高地估计了流感疑似病例的占比,这个差错是真实数据的1倍多。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>以下部分,拟分别从费亚德[1]所提到的大数据描述(Descriptive)与预测(Predictive)两个基本功能出发,对基于大数据的宏观经济监测和预测研究进行系统介绍。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>经济系统是由无数个政府机构、企业、个体消费者、媒体和各类社会组织共同组成的巨复杂系统。从经济学诞生之初,经济学家就致力于通过采集各类数据观察经济现象运行的内在规律,但这个问题从来就是困扰经济学家和统计学家的最大难题之一[]。传统经济学研究开展经济监测的主要手段就是开展经济普查,通过层层报送归集数据的方式汇总计算相应宏观经济指标,如国民生产总值(GDP)、通胀率、消费品物价指数、生产者价格指数、失业率等等[]。但正如前文所论述的,这种基于传统调查统计方式开展宏观经济监测的方法存在着数据时滞较长、成本居高不下、样本覆盖面较窄、无法进行细颗粒度分析等问题。在这种情况下,基于大数据手段改进经济监测效果,就成为学术界和政府决策者共同关注的热点问题。总体而言,大数据在经济监测中的应用方面主要包括四个大的方面。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>近年来,大量文献开始关注大数据对于传统经济普查和政府统计的改进[-]。有学者认为,GDP指标源于上世纪30年代,当时尚未形成政府利用数据和统计来改善系统性经济弊病的传统,所以GDP 这样的指标就有助于决策者在绝望的时刻驾驭很多政策试验。但是今天,人们如果还使用现行指标,就会造成在一些国家阻止了政策的创新而非促进创新[],因此国民经济核算体系有必要对自身做出一定的改进甚至改革[]。李红艳等[]提出新型国民经济核算体系的概念,并提出新体系应当实现对全社会经济活动进行全方位动态跟踪,对每一个产品(服务)从其产生到被消费(消亡)的全过程进行跟踪记录,对市场中每笔交易活动进行跟踪记录,对每个经济主体的每次经济活动和经济关联活动进行跟踪记录。在政府实践层面,早在2013年11 月,国家统计局就与百度、阿里巴巴等11 家企业签署了《大数据战略合作框架协议》,就建立大数据应用的统计标准,完善政府统计数据的内容、形式和实施步骤等达成合作。在2020 年的全美经济普查中,美国普查局也计划采取“网络抓取技术”等多种模式进行数据收集,试图实现企业数据与普查、调查数据的全面融合,提高统计调查的效率和质量[11]。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>随着互联网的飞速发展,人们逐渐具备了一些快速归集反映经济运行某一个剖面的全样本数据的手段和技术工具,从而可以构建观测经济运行某一个剖面的相对全样本新型监测指标。最著名的非直接经济指标之一就是克强指数[]。所谓克强指数(Li keqiang index),是英国著名政经杂志《经济学人》在2010年推出的用于评估中国GDP增长量的指标,其源于李克强总理2007年任职辽宁省委书记时,喜欢通过耗电量、铁路货运量和贷款发放量三个指标分析当时辽宁省经济状况。该指数是三种经济指标:工业用电量新增、铁路货运量新增和银行中长期贷款新增的结合。自推出后,受到花旗银行在内的众多国际机构认可。再比如,最早由三一重工集团推出的挖掘机指数[],通过对三一重工集团运营管理的遍布全国的重型机械上机载控制器、传感器和无线通讯模块所汇集的汇聚,描述各个经济区域的基础建设开工率,进而成为宏观经济部门分析固定资产投资进度的重要参考指标。此外,近年来被人们所广泛关注的各种非传统经济指标还有所谓榨菜指数、啤酒指数、男士内裤指数、床垫指数、算力消费指数等等。这些指数的共同特征,是选择了经济社会运行的某一个环节,通过对相对全样本范围内数据的归集分析,从而推测经济运行的实际情况,并与传统统计指标相互印证。此外,在以互联网、大数据、分享经济等为代表的新经济领域,由于缺乏较为完善的统计指标体系,大量由大型互联网企业和社会组织提出的创新型指标不断出现。如阿里巴巴基于覆盖阿里电商平台数百万种商品数据构建的中国县域电商发展指数aEDI、阿里巴巴网购价格系列指数aSPI[],财新智库和数联铭品(BBD)联合推出的新经济指数(NEI)[],国家信息中心近年来主持发布的中国大数据发展指数[]、分享经济发展指数[]等。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>近年来,很多研究者开始利用大数据高频、即时的特点,通过构建与传统经济监测指标具有高度关联性同步指标,提高经济监测的效率,也就是近年来十分热门的 “现时预测”(Nowcasting)研究。第二类研究相比,这类研究所构建的经济指标往往是对标某一个主流统计经济指标,并利用大数据即时获取的特点,利用大数据与统计数据的“时间差”优势比传统统计方法更早获取经济运行情况。从实际研究来看,从事这方面研究的学者最多,成果也最集中。举例来说,运用电力大数据开展宏观经济分析研判[-];利用夜间卫星灯光亮度数据对区域和国别经济生产率数据进行现时预测[-];基于用户移动通话行为模式[-]和社交网络结构特征[-]现时预测区域经济活跃度;基于银行支付结算数据现时预测宏观经济增长态势[];利用搜索指数数据提高对消费者信心指数[-]和通胀增长情况[]的现时预测水平;基于各类电商平台数据[-]、搜索数据[-]和媒体数据[]预测全社会商品价格波动情况;利用网络搜索数据[19,-]、手机通话记录数据[-]和在线招聘数据[]现时预测失业率变化;利用搜索引擎数据[-]和新闻数据[]现时预测房地产市场走势,等等。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>在大数据时代,运用大数据进行产业和区域运行情况分析,提升信息分析效率是大势所趋[],这方面研究大致可以分为几类。第一类是在微观层面上,针对各类企业运行情况的大数据分析监测。如Li 等[]基于271 家中小型美国绿色食品和制造公司网站信息数据分析中小企业业绩受和政府、行业、学术界联系的影响。Daepp等[]分析了北美超过25000家上市公司,发现任何商业类型公司的生命半衰期大约都为10年。国内一些地方政府还利用各类政府业务数据,建立起区域企业运行情况监测大数据平台,对企业经营状况、财务状况、投资状况、产销能力、盈利能力、偿债能力、缴纳情况和能耗情况等进行全面监测[-]。第二类是在中观层面上,对区域产业发展情况进行分析。这方面研究也非常多,主要集中在对区域产业集聚路径[]、区域经济禀赋[]、经济均衡度[-]、产业配套设施分布[]、产业空间分布[]、消费空间[]、经济活动多样性[]、功能区划定[-]、城市群网络结构[-]、贸易网络[]等方面分析上。第三类是在宏观层面上,运用大数据手段开展宏观经济调控研究[]。如有研究者提出,应当运用大数据手段形成“全面+定向”宏观调控政策手段组合,全面提高宏观调控工具的精确度和效力,实现针对国民经济薄弱环节例如服务业、“三农”问题和小微企业精准发力,有的放矢的降低税率、费用、利息[]。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>经济预测是经济学最重要的职能之一,也是政府、企业、个人等进行决策的参考和依据。然而长期以来,人们对于经济学的预测理论一直存在质疑。哈耶克就曾作出论断,认为人类经济行为是不可预测的。他指出:“尽管我们拥有关于人类理智运行原理的知识,但主要事实依然是,我们不可能对导致个人在特定时间做了一件特定的事情之全部具体事实加以说明。对于我们来说,个人的个性仍然是一种非常独特的、难以计算的现象,我们有望通过一些从经验中发展出来的做法,比如赞扬和谴责,从可取的方向对它施加影响,但是对于它的具体行为,我们无法进行预测或控制,因为我们无法了解决定着它的全部具体事实”[]。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>大数据时代的到来,使得人们对于经济学的预测从过去基于因果推断的预测理论范式转向基于概率论的预测理论范式。蔡跃洲认为,大数据对经济预测的影响涉及数据来源、预测方法、预测结果等几乎每一个环节,在某种程度上改变了常规经济预测所遵循的基本范式。他从经济预测的数据基础、指标生成方式和预测方法与工具等几个方面对大数据经济预测和传统经济预测进行了系统比较[]。随着大数据广泛获取经济社会主体各类行为数据能力的日益提升,将为测量经济社会主体预期和量化主体情绪提供了新的路径,有望渐进打开经济主体预期形成过程的“黑箱”[],大大提高预测分析能力。李华杰等认为,基于大数据的预测方法在很多方面不是对传统经济学研究方法的颠覆,它更是一个对传统研究方法的补充[3]。从现有研究成果来看,可以将大数据在经济学预测研究中的应用划分为构建先行指标、改进传统预测模型、构建预测模型和复杂性预测等几大类,后文将逐一详细论述。需要指出的是,很多文献将现时预测研究也纳入经济学大数据预测的范畴,但笔者认为其实质还是对当前发生的情况的即时分析,只不过利用统计方法相对滞后的“时间差”而实现了一定程度上的超前性,对其的介绍在上一小节已经有所展开,此处不再赘述。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>先行性指标预测具体又可以划分为三大类研究。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>其一,是从人类经济行为链条的角度,通过对行为链条上一环节的分析来实现对下一环节行为的预测。如Liu 等[]用PLSA 算法(Probability Latent Semantic Analysis)从博客内容数据中挖掘用户观点和情绪用以预测电影票房销售情况。Schneider 等[]引入词袋模型(Bag-of-Words),基于Amazon.com的用户评论预测一周后的笔记本电脑的销售情况。Khadivi 等[]通过分析Wikipedia使用数据预测夏威夷旅游需求。再比如,大量研究者基于股票论坛、微博、推特等自媒体公众言论情绪[-],以及金融搜索数据[]判断人们对股市的心理预期,从而进一步预测股市运行走势。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>其二是基于各种经济学理论构建能够超前反映经济运行走势的先行性指标。例如笔者曾基于税务发票数据构建了“润滑油采购指数”,并认为制造业企业普遍会根据订单储备情况预估开工所需的润滑油数理,因而润滑油采购量的变化能够在一定程度上反映制造业开工率实际情况,研究表明,该指数走势相比采购经理人指数(PMI)可以实现三个月左右的先行性。但由于数据来源所限,这类研究目前并不多见。较为典型的如Askitas等[]用德国收费站记录的月度重型卡车越境数据建立了收费站指数,作为生产指数这一GNP 指数先导指标的先行指标,并实证了该指数能有效先行反映德国统计办公室官方发布的生产指数;钱斌华[]基于职工人数变化率、总资产变化率、所有者权益变化率等指标构建宁波市税收发展先行指标;崔趁欣等[]基于河北省国库收入指数预测地区国民生产总值走势。张秋雁等[43]基于电力消费情况预测经济景气度走势;曲延玲[51]提出基于存贷款关键指标和社会融资结构变化等数据预测宏观经济走势;BRANDYN等[]基于纽约联储银行实时数据和动态因子模型预测GDP 增速,等等。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>其三是在海量非统计指标中析取具有一定先行性的指标,并合成为新的先行性指标。百度[]曾基于自身所掌握的海量搜索数据开发了百度经济指数预测,其基本原则就是在海量搜索数据中析取出与企业需求和用户经济行为信息相关的搜索指数,并合成为先行指数。LEVENBERG 等[]提出了一种利用复合异质网络数据流来合成经济预测变量的方法,采用贝叶斯分类器组合模型对非农就业指数进行了高精度预测。SOBOLEVSKY 等[]在分析西班牙个人银行转账记录数据的基础上,提出了35种个体经济行为量化指标,能够预测GDP、房屋价格、失业率、犯罪率、高等教育比例、生活成本和预期寿命等社会经济统计指标。IBM日本公司基于互联网新闻数据析取出制造业相关的480项经济指标,用于预测采购经理人指数。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>清华大学刘涛雄等[]曾提出利用大数据优化改进传统统计预测模型的“两步法”,是这方面非常有代表性的理论方法。其基本步骤:首先,仅使用政府统计信息选择初步最优预测模型;其次,将互联网搜索行为加入选择的模型中,最终确定最优模型。Götz等[]利用Google 网络搜索数据结合偏最小二乘法、LASSO 方法等选择指标加入传统的桥梁方程模型(Bridge Equation Models)预测德国的GDP。Kholodilin等[]通过主成分分析法(PCA)来对Google Insights进行降维后整合进基于统计数据的美国私人消费增长率预测模型,发现可以提高20% 的预测准确率。AMURI等[]使用互联网求职指标(谷歌指数GI)扩展传统失业率预测模型,发现大多数州级预测和与专业预测者调查的比较中均有更好表现。ARTOLAS等[]通过增加相关Google搜索指数优化改进传统的ARIMA模型,发现其短期针对德国、英国和法国去西班牙旅游人数的预测精度提高了42%。许伟[21]通过结合 Google 搜索数据和网络新闻情感,构建了基于网络情感和搜索行为的数据挖掘集成模型,在其中加入房地产价格指数时间序列的滞后项,利用支持向量回归SVR模型,实现了对房地产价格指数的更好预测。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24.2pt; mso-char-indent-count: 2.0200" align=justify>大数据在发现海量经济变量间关联关系和关联模式方面具有传统统计数据所无法比拟的优势。利用大数据的这一特性,很多研究者开始积极探索通过相关性分析挖掘建立经济变量间的联系,从而形成全新的经济学预测模型。在这方面被大量应用的是被统称为复杂性方法或非线性方法的复杂网络、非线性迭代、混沌分析等一系列方法。布莱恩.阿瑟详细探讨了资本市场中“泡沫和崩溃”、 集群波动(clusted volatility)和突然渗透(sudden percolation)等三种非均衡现象的复杂性建模预测方法[]。王国成[]指出,通过利用大数据方法,对个体的冲动行为、情绪因子、羊群行为和不同主体对政策信息响应的不对称等有限理性或“非”理性行为进行分析,能够更合理地解释和预见股市诸多异象的微观成因、影响方式、演变路径及走势。此外,HIDALGO等[]提出解释经济增长和发展的新观点,发现所构建的“国家-产品”二部分网络的结构特征可以定量刻画国家经济的复杂性;经济复杂性与国家的收入水平非常相关,甚至可以用来预测国家未来的经济发展水平。高见等[]基于企业注册信息数据分析和定量刻画了中国区域经济复杂性,结果发现经济复杂性与人均GDP有很强正相关。BUSTOS等[]发现“国家-产品”二部分网络的嵌套结构不仅随时间保持稳定,还能用来预测产业在某个区域的出现和消失。CRISTELLI []提出了一种数据驱动的非线性方法来预测国家经济发展趋势。TACCHELLA 等[]提出了一种基于“国家-产品”矩阵的非线性迭代算法,同时刻画国家发展潜力和产品复杂性,所得结果比文献[145]更好地解释不同国家的经济竞争力。
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24pt; mso-char-indent-count: 2.0000" align=justify>大数据作为一种新兴的技术手段,其所具有的及时性、精准性、客观性高等特点,使得人们可以构建面向个体、企业、事件、商品等微观主体数据模型,并运用离散数学和计算数学的方法进行中观层面的模式识别和规律总结,从而为宏观层面的决策提供依据,这对经济学发展意义十分重大。正如P. A. Attewell等人所指出的[],以人的行为为基点,探讨深化经济研究与大数据及类似概念之间的内在关联,具有历史使然的规律性。但同时也要看到,大数据当前在技术手段和理论范式等方面依然存在诸多局限。比如,大数据分析中大量应用的语义理解等技术依然存在不可靠性问题,针对当前在中文论坛中大量使用的网民口语化语言进行情绪分析、观点抽取、命名主体识别等自然语言处理时,其准确性往往很低,难以像统计数据那样形成权威结论。再比如,基于大数据所构建的宏观经济模型,由于其大量引入了数据挖掘和高纬度建模技术,在对分析结果进行传统经济学理论解读时,往往会因为和被解释变量相关的解释变量数量过多而产生所谓“维数灾难”[]问题,在对数据进行降维时,又会导致大量有效信息的损失,从而使得数据分析结果只具有概率论意义,而很难从经济学理论上加以解释[3]。在这种情况下,过度强调大数据的优势,甚至抛弃原有经济学理论框架而单纯依靠数据分析进行宏观经济分析研判,也会存在很大隐患。在此,笔者还是想引用冯·诺伊曼在《博弈论和经济行为》中所阐述的另一个观点:“用精确的方法处理根本就不明晰的概念和问题是毫无意义的。因此,要想用精确的方法处理经济问题,第一步是通过更细致的描述工作澄清人们对事物的认识。”因此,“在经济学的某些分支里,最有成效的工作也许是耐心的解释描述;事实上,在目前和今后一段时间内,这种工作将占经济学研究的绝大部分。” []
normal style="TEXT-ALIGN: justify; TEXT-JUSTIFY: inter-ideograph; LINE-HEIGHT: 125%; TEXT-INDENT: 24pt; mso-char-indent-count: 2.0000" align=justify>从目前的研究成果来看,学者们更加倾向于将大数据纳入现有的宏观经济分析框架之中,将基于大数据的各种新型指标作为传统统计指标的完善或补充,并将其纳入传统的宏观经济预测模型。然而,笔者认为,要想在大数据时代实现经济学理论自身“决定性的转折”,仅仅将宏观经济大数据分析作为传统经济学理论框架的补充是远远不够的。国内信息经济学创始人乌家培教授提出,数字经济对经济学理论的影响主要是“通过两个途径实现的:一个途径是以新的视野或新的方法来解释原有的理论,使其有新发展;另一个途径是从新的经济现象出发,研究和确立新的经济理论”[]。从历史视角看,过去数百年间,经济学理论一直沿着均衡范式和演化范式两条路径前进。前者遵循社会物理学范式,视图把经济学建成类似于经典物理一样精密的科学体系,在数据分析方面,形成了一整套基于经济统计的计量经济学体系,并将当前的大数据非传统指标作为统计指标的有效补充,视图对现有的经济学均衡框架进行修补和完善;后者遵循社会生物学范式,则将经济社会系统视为一个动态演化的生态系统,在数据建模分析方面,则将复杂性科学、演化博弈论等现代数学方法和建模工具引入经济分析之中,这一路径下的经济学家同样视图将各种反映经济社会运行细节的大数据引入模型之中,视图提高对宏观经济走向的预测预警能力。而上述两种路径的研究方法尽管视角不同,但相比历史上任何一个时期而言,其所基于的微观数据基础却前所未有地实现了统一。从这个意义上说,经济学经过数百年的理论发展,沿着“均衡-物理学范式”和“演化-生物学范式”两条路径的研究方法体系面临着在大数据时代实现“殊途同归”的可能性。从我们的综述也可以看到,很多原本从属于新古典经济学流派的经济学家也开始尝试运用演化经济学中的主体建模(ABM)[]、复杂网络[147]、非线性迭代[149]等方法来分析宏观经济走势,尽管这类研究目前尚不多见,但这种学科共同体间相互融合的态势却已经初见端倪了。