2019年10月24日晚,来自IBM中国研究院的开发工程师王宜明为同学们带来了“产业之光”系列讲座《机器学习在沪深300股指期货交易中心的应用》。王宜明老师在CDL SPSS团队从事大数据开发工作,参与指挥交通项目。在CDL CAES团队从事知识图谱开发工作,参与知识图谱的设计与开发工作,为保险和医疗机构提供知识图谱辅助问答解决方案。其后参与了图计算相关工作,主要从事于各大银行的图分析平台的开发工作。目前,主要着重于智能问答方面的研究和开发工作。
首先,王老师先介绍了机器学习在各领域中的应用,方便同学们直观认识其作用。例如在金融领域,它可以使银行保险放贷更加的稳定,使放贷的风险更低。在政府行业,它可以揭露一些公务人员的欺诈行为。还有在电信医院交通等领域都能够用大数据分析技术,然后从其数据中挖掘出来一些价值。所以王老师的工作给生活带来一些真正的有益的事。在这个时代中,人们接触到数据很多,就需要利用了解到的数据知识,还有基于学习的算法,帮助人们更好的去理解数据,然后在商业上创造出价值。
那么数据是什么?这里王老师主要从三方面做解释。传统软件开发行业主要关注的是软件开发能力,以及一些对业务行情的理解。基于这两个能力,可以开发一些企业的软件,比如一些财务软件。另外如果利用一些开发的技能以及一些数据统计和数学知识,就可以做一些深度学习的研究。但是若没有专业知识,深度学习研究只能存在于实验室里,不能够真实的去创造商业价值。数据科学则是这三者的融合,它既要有一定基础的软件开发能力,也要学学会用一些数据的统计和基础的数学知识分析业务场景。此外还需要去真实了解客户,以及一些真实商业上具体的知识,然后真正地把这些在实验室里、在书本上学到的机器学习算法运用到实践中去,最终得到商业上认可的结论,帮助商业上做决策支持。
整个商业分析的过程主要有以下几个阶段:首先客户会提供一些真实数据,经过分析,便知道企业中正在发生什么。然后会对该企业和整个行业的未来进行预测,将预测的返还给企业,企业便可据此来调整战略,在竞争中占据有利位置。在此之后,王老师的团队就会得到反馈数据,从而进行下一阶段的预测。最终达到用数据说话,将数据作为一种思维方式,提高商业的整体宏观价值。
为了更好的理解商业分析的过程,需要借助一些技术,主要分为探索、预处理、建模、预测和集成。下面王老师对这些算法一一进行了介绍。
数据探索,即用统计学指标对数据做尝试性分析,基于不同的统计指标,将数据划归为不同类型的问题,然后选取模型进行分析。有了初步印象,后续操作就更有目的性。
数据预处理,即在同一尺度下补充缺失值、修正异常值、将连续数据离散化。这依赖于一个自动处理的算法和数据筛选,软件会筛选出一些关键的因素,最终利用这些因素去进行操作。
建模中一种方法可根据输出结果的离散与连续性不同可以分为回归和分类问题。例如,有一个银行信贷员,他已经测算过700个客户的信贷业务,收集到了这700个客户的基本信息,对这些信息进行分类,主要目的是为了判断给哪些人贷款风险高。首先经过数据探索,就发觉一些因素可能会作为决定性因素,之后对这些因素做回归。最终发现其中有三个因素在职的年数、债务的收入比以及当前记录的成分。然后筛选出了126个放贷风险很高的人,则建议信贷员多做调查,判断到底是否应该给他们放贷。另一种方法是频繁项集挖掘法,主要关注点是对关联规则的探索。例如,超市通过分析顾客购买记录,得出买蔬菜和冻肉的人很大一部分会去买啤酒,因而将蔬菜冻肉与啤酒货架放置在较近距离,可大大提高啤酒的销量。合理安排货架位置提高营业额,这是机器学习商业价值的体现。
预测方法包括时间预测、空间预测。例如,运营商决定在哪些地方增加网线密度时,则需通过数据分析,得出特定范围内用网量变化较大的时段与地点,进行网线的添置,满足客户需求,又避免资源浪费。又如气温也是随时间和空间进行连续性变化,想要预测温度,则需使用聚类,将相似的归到一起,找到关联性。
集成,即将多种模型的预测进行整合。因为一个事件往往会受到多种因素的影响,可能无法满足客户对高精度的要求,而集成正是为了弥补这一缺陷。例如,股票除了受到国家宏观调控的影响,还受到股票内部,股票行业之间等多种因素的影响。因而想要了解某一只股票的走势,就要了解对其产生影响的行业和受其影响的行业,还要考虑大盘走向和影响大盘走向的重要股票,只有将所有信息集成,才能较准确的预测一只股票未来的走势。预测企业则更是如此。
如何分析行业之间的关联性?这就用到了二维时空分析法。主要流程如下:首先进行数据探索,探索完之后进行处理。因为这个模型要求做时间的预测,要求时间的序列必须得是完整的,连续的,不能缺失。所以就需要去做数据预测模型,要求得到真实的可以读取的数据。最后提取出真正影响比较大的,当然这只是初步的,有可能有偏差。然后通过技术做时间上的分析,分析出两只股票变化趋势。然后再进一步做空间上的分析,利用关联性做一些时间分析上的修正。然后将这些数据提供给有关部门,有关部门就可以去分析,其背后的原因是经营策略还是干预手段,同时为检验规划是否有效做侧面印证。
最后,王老师总结道,用数据创造价值不单单是拥有数据,而是要了解数据,了解商业模式,将对数据的理解和挖掘出的内在的逻辑和洞察应用到商业模式中去,才能真正地体现数据金矿的价值。