搭建大数据伪分布式环境,将用户手机信令数据作为数据集,数据的处理主要经过数据输入、数据清洗、数据缓冲、数据处理、数据存储和数据可视化六步。首先采用Flume的Taildir Source清洗手机信令数据,通过设计数据处理算法,利用Spark编程处理,之后将处理结果存入redis、mysql、Hbase数据库中,来分析人口热力密度、用户驻留和出行行为。创建SpringBoot后台,引用高德地图API,将处理所得的数据可视化,方便交通管理部门对交通状况的掌控和交通工具的调度。
近年来,全世界对大数据应用的关注日益提高,不断在数据中挖掘其内在潜力和价值。大数据在集成和组合数据上具有优势,可帮助形成高效的智能调度能力,优化公共交通信息资源的配置,同时辅助制定出较好的统筹协调方案。
交通信息化的核心技术逐渐转向智能交通。采用信息化的技术方法,让政府以及交通管理部门能及时了解整体的交通状况,根据实际数据做出准确的客流分析并提出切实可效的策略,解决现有的交通问题。
手机信令数据是一种新型的大数据源,与其他类型的数据相比,其具有实时性、完整性、出行时空全覆盖性等其他数据源所不拥有的优势,在各类规划中尤其是交通大数据分析中具有独特的应用优势。
另外,作为人们生活中必不可少的交流工具,手机通常一直在工作,故数据记录时间长。而且生活中手机的普及率较高,几乎所有城市居民都可以通过移动手机进行监控,而无需额外的成本[1]。
国外方面,文献[2]提出能够识别用户驻留地点的方法,将测试用户作为实验样本研究用户的出行特征和规律。文献[3]中作者开发一种基于手机数据的智能工具,帮助交通管理机构探索市民的移动规律和优化公共交通。
国内方面,吴乃星[1]等将手机信令数据作为数据集,分析出行需求的空间结构、连续空间分布特征和人口区域运动规律,将分析结果以OD 图、密度图和流线图的形式可视化。杨飞[4]通过手机定位平面坐标对用户进行追踪,获取居民运动状态,分析活动位置的集中特征,来得到用户的出行OD 数据。
本文以手机信令数据作为数据集,搭建大数据伪分布式环境,将数据清洗后,根据设计的算法处理得到用户分布密度数据、出行轨迹数据、出行方式数据,之后开发数据可视化后台系统将数据直观地呈现给系统的用户。
2. 系统整体架构 以用户手机信令数据作为待处理数据,数据的处理主要分为数据输入、数据清洗、数据缓冲、数据处理、数据存储和数据可视化六步。首先在Linux 系统下配置数据处理每个步骤所需的环境,然后设计数据处理的数据流向,具体的设计如图1 数据处理过程设计图所示。