刘志远 教授
东南大学交通学院副院长
一、城市智慧交通
智慧交通是一个很大的主题,2020年8月30日交通部发布了新基建的解读,对于“智慧”这个词解释得非常明确。其中有两个很重要的概念,一个概念是基础设施,另一个概念是人工智能。当然人工智能以各种各样的形式来出现,比如以通讯、数据的形式,以及其它一些算法的形式出现。这些东西从方法理论的角度来考量,其背后核心的理论和方法就是大数据分析算法。因为我们看到的这些智能化工具,去指导它进行思维的往往是大数据的各类算法(机器学习、强化学习等)。比如被大家熟悉的AlphaGo,他背后的算法就是强化学习。其它的各类大数据分析任务,也都采用了监督学习、无监督学习、深度学习等机器学习方法。所以我们这里所提的新一代方法体系,是指的基于机器学习、强化学习等AI和数据科学中的算法为支撑的方法体系,但如果仅仅是用传统的统计学和优化方法来分析大数据,不是我们这里所讨论的新一代的方法体系的范畴。
图1:四种维度的数据
对于大数据的方法理论体系,交通专家经常会谈到两个概念,一个概念为问题导向,另一个概念为领域知识。将这两个概念深度、有效地融合起来,才能解决好交通大数据问题,问题导向的分析更加难能可贵。
二、理论分析体系的科学问题
什么是机器学习的算法结合问题导向和领域知识,这里面有一个很好的比喻,就是《庄子》里庖丁解牛的故事,这个故事非常能代表中国的传统文化。我们结合具体问题让大数据来发挥作用,就好比是把牛肉从牛身上片下来。传统的领域是一个庖丁做到了问题导向,可以游刃有余的把牛肉片下来。现在大数据来了,好比是一把快刀,我们要是不知道问题的结构,一刀切下去,肉还是连在骨头上,没有很好地解决问题。所以要真正做好是把刀和好的技术结合起来。牛到底是什么?牛身上这些交通工程、交通仿真、交通规划、交通设计等老前辈们百年积累下来的学科知识体系,结合大数据分析技术就构成了牛。作为一个从方法理论角度来做模型的从业者,我给出了三个科学问题,来作为“牛到底是什么”的答案。
图2:城市智慧交通:理论分析体系
我们要解决交通体系里的瓶颈,它有三个关键科学问题,第一是交通流量的全网络、全时空的精准感知。美妙就在“精准”两个字,现在的本科生课程,很多传统的方法都是在做感知,并没有做到精准。正是因为我们没有做到精准,导致模型出现问题,结果出现问题,从而导致结论出现问题,最后决策支持的整个体系也有问题。
第二个关键科学问题是交通供需交互作用的精准分析。交通专家往往是要改变现状,我们发现问题以后,交通专家存在的意义是帮助我们来改善这些交通问题。改善交通问题有很多种方法,交通规划、交通设计、交通管理、信号灯、收费等等,交通问题是牵一发而动全身的,任何一个方法产生了任何一点变化都会对现实造成一个无法预知的结果,因此我们需要用一把尺子对每个影响进行度量。
第三个关键科学问题是城市(城市群)总和交通系统一体化评估。交通强国给我们指引了未来25年的发展方向,智能交通青年论坛也把新基建作为一个关键词融合在主题当中,交通强国中强调了基础设施的互联互通,这里面就提到了多种模式共同融合。如果分析我们的授课体系和方法体系会发现,现在不存在一个工具能够把不同的模式融合起来,他们各自为政,或者说是想到了却做不到。因此把这几个科学问题结合起来,就是我们新一代的理论。
三、现有城市交通分析方法
纵观交通工程百年方法理论的历史,要去解决这三个关键科学问题,我们是有自己的思维体系方法的,基本上可以梳理成两个大的方法理论体系,第一个方法就是解析模型。目前,学校教的主要课程还是50年代、60年代构建起来的四阶段模型。四阶段模型是一批经济学家、物理学家构建起来的他们中。这一套理论方法就是拿原来经济学的体系、数学解析模型的体系来解析交通。它有什么缺点?因为要得到一个比较完美的解,它必须是可解析的,它就存在一些很强的假设,比如每个人都选择最短路,这显然是不符合实际的。第二个方法理论体系,就是传统的仿真方法理论,这类方法理论体系跟解析模型相比较而言,它打破了解析模型那些很强的假设。仿真方法理论利用仿生学,通过人和车的移动演绎出结果,它的缺点有两个,第一个缺点是任何仿真都严格依赖随机数,为了精准地利用随机数,我们就要对现实中随机数模拟的问题找到精准的分布形式,但是这是无法综合获取的。所以交通强国对我们提出的精准、精细的要求也是做不到的。第二个很大的缺陷就是它的计算时间过长。对现实中的交通管理,太长的计算时间是一个灾难,因为它不可用。
图3:“四阶段模型”和“仿真方法理论”
四、交通大数据
大数据和机器学习除了量大、精准、全息之外,还有什么样的优势?其实大数据在2011年刚出来的时候,它带给大家的更多是哲学思维体系的创新,在交通工程方法上带来的也是一个哲学思维体系上的变革,因为前两类方法其实有一个共同点,就是哲学思维上的一种演绎法,它对于实际的世界有一个假设,有一个基础建模,然后它不断地推导、不断地仿真,最后随着它的演绎,离现实世界也越来越远,于是它最后出来的解精细化、精准性就很差。但是机器学习这个体系,机器学习的模型,经常会出现一个假设,就是对数据分布空间的直面,因此,大数据模型不管是好的还是坏的模型,它都是一种归纳法,它并没有在这个基础上再进行演绎和演变,所以它可以保障更好的精准性,这个思维体系的突破就带来了新一代交通工程方法理论体系。大数据方法所需要的三个模块如图4所示,左边的模块需要基础的数据,最后一个模块是业务层的模块,我们要明白图2中的牛是什么,业务层的架构体系是什么,但是到今天我们并没有做的很好,将来我们交通专家更大有可为的一个地方是中间的这个算法层面。比如手机数据,移动的手机并不是交通人真正需要的,移动的车和人才是交通人需要的,怎么样才能够仅仅利用手机数据,最后获取车和人流,这是我们需要解决的问题。现在的方法体系,站在刚才的解析模型和仿真模型的基础上面来,我们给它一个名字叫“交通模型3.0”,它不一定意味着比1.0、2.0好,只是我们要打造一条全新的路径。
图4:交通模型3.0
交通模型3.0是机器学习和领域知识的深度融合。比如交通分配和网络设计,只要还有城市、还有人,这个问题就一直存在,解决这个问题的传统方法是四阶段模型,到今天为止在学术界交通分配依然是一个非常火热的问题,可以说是在模型方面最火热的领域。但是在大数据新一代的方法体系下面,不用以往的模型,我们用监督学习、迁移学习和时下比较新的对抗算法等新的方法来分析交通问题。出行需求管理与交通控制,我们可以用强化学习来构建它的理论分析方法。道路交通安全的监管和事故成因,有一个很重要的底层的理论基础是三参数的交通流模型,在大数据的全息感知的环境下面,我们基于仿真优化,基于贝叶斯模型来构建全新的交通流模型体系。
五、案例分析
1.基于多源数据的城市路网流量全时空感知
第一个科学问题,交通流量的全网络、全时空的精准感知。在城市交通系统里面数据的采集不难,难的是怎么样来进行精准的感知?哪一种数据可以实现两个百分之百的精准感知,即时间的百分百和空间的百分百?答案是没有一个数据可以实现两个精准的百分百。要做到精准感知,首先是空间上的精准,比如深圳市每一个地方现在有多少辆车,有多少人。然后是时间上的精准,比如深圳市过去一个月每分每秒到底有多少辆车、有多少人。这两个维度的精准,没有任何一种数据可以做到,但是我们可以找到一种数据在空间上精准,另外一种数据在时间上精准,然后利用机器学习、强化学习等算法,做中间的粘合剂,最后把两个融合到一起,然后就做到两个精准。
基于这样一个思维体系方式的转变,下面就是选择哪类数据能在空间上做到百分之百精准?答案是手机数据,有人的地方就有手机,手机数据遍布在城市任何一个角落。手机数据有信令数据,但是它的误差很大,比信令数据更精准的是三角定位数据,它的误差也难以缩小到50米以下,这样的误差就导致了城市范围内我们并不知道这个手机用户到底是在哪一条路上,就带来一个很大的交通分配的误差。
所以可以把手机数据和另外一种在时间上面非常精准的数据粘合在一起,在我们国家的一些城市单点上面精准的数据最好的是卡口测速、车牌识别的数据,当然别的国家有不同的情况,有的国家是线圈,有的国家是地感。卡口数据也有它的缺点,它的空间覆盖率比较差,空间的覆盖率只有1/3。所以这两类数据很有代表性,它们的因果是互换的。因此两者如果能够找到一个很好的粘合剂结合起来,实现双结合,实现交通分配和决策支持的精准分析,就是我们所提的基于新的机器学习的理论体系。
这样一个模型(粘合剂),机器学习里面给我们提供了非常多的选择,比如最通用、最直接的监督学习模型,把手机数据作为输入,把卡口数据作为输出,训练后得到一个模型,它可以在没有卡口数据和精准的车流量数据的地方仅仅依靠手机数据,就能得到不需要扩样,百分之百精确的流量数据。我们利用新一代的模型可以把数据本身的优势发挥出来,所以新一代体系的优点和真正起到的作用一定是要超乎数据本身的,如果说哪个数据拿出来直接就解决了某个问题,是不需要模型的,是不需要我们的交通工程方法体系的。每一个模型出来,必须要是能够发挥数据不存在的优势,比数据要更高一层的优势。
图5:监督学习模型
2.基于手机大数据的交通规划理论方法体系
第二个例子是基于手机大数据的交通规划的方法理论体系。我们传统的感知就像是只摸到了大象的一角,并没有多维的全息的构建。在多源的数据,尤其是在手机数据覆盖率、采样率这么高的基础上,我们可以做到对城市交通系统内的全时空的出行进行一个比较详细的全方位的感知。如何去构建交通规划的整个方法体系,需要对这里面的一些科学问题需要进行一一突破。
第一个问题是数据处理的问题。我们研究的对象是苏州市的8000平方公里范围内的手机数据,每一天的打点就达到了20亿,这是一个超大规模的大数据分析,苏州市有2万个以上可用于数据分析和控规层面的交通小区的匹配,一天数据处理的计算时间就要达到几个星期乃至上月,所以首先需要解决的是快速计算问题。
我们以手机数据为主,通过多源数据构建交通规划的模块体系,重构了8个不同的职能模块。从创新的角度出发,彻底地绕开以往的方法体系;和传统模型之间进行对比,首先和四阶段当中的交通出行、交通分配等等进行对比,在相对精细化的场景下,居民入户调查的采样率是比较低的,基本上在2%、3%以下,手机数据是可以重现它的优势,而手机数据的另一个优势是它的成本几乎是0。居民入户调查类似人口普查,我们要做一个城市的一轮调查采样率只有2%、3%,但是手机数据可以轻松做到40%、50%的采样率,最后还可以实现一个比较好的精准行为。
对于出行感知、出行管控、客流分析和特殊场景的事件分析,包括多模式的分析,大数据都可以发挥更好的作用。有时候大数据放到传统的业务体系下面,可以起到迎刃而解的业务效果。比如地铁的客流分析,以往的客流分析我们用经济学的模型来进行估测,但是它的误差、精准性都是非常大的问题,而手机数据在地下有专门的基站,因此可以进行非常精准的重现。所以这样一个问题,其实不需要方法体系,手机数据直接拿过来就可以把传统的方法进行一个更高量的集成,这是它的优势。
在人物画像方面,在这样一个数据体系底下,我们可以把一些传统的并不是交通系统的数据进行融合分析,比如在进行出行生成的时候,我们要知道这个小区里面到底有多少人,基于人物画像的全息的感知,我们就可以对于每个潜在的出行者进行更加丰富、更加多元的分析,从而使我们传统模型的体系也得到更好的提升。
图6:用户基本信息和人物画像