从出租车GPS轨迹数据中可挖掘出丰富的居民出行规律信息,但数据量的不断增加,对数据挖掘的准确性和效率提出了新的要求。本文以成都市出租车GPS轨迹数据为研究对象,首先对原始数据进行失真数据剔除、多余字段删除和部分时段数据过滤三方面的预处理,其次进行地图匹配,最后利用Spark大数据处理平台,实现K-Means||算法,分为工作日和休息日的不同时段进行挖掘分析,得到成都市居民出行热点区域及其时空分布特征,并将单机K-Means算法和K-Means||算法的性能进行对比分析,结果表明:相比于单机,K-Means||算法在准确性和时间效率上具有优越性。
随着城市中出租车数量的不断增多,GPS 卫星定位技术的不断发展与普及,装有车载GPS 的出租车在行驶过程中产生了大量的出租车轨迹数据,记录了车辆的位置、时间、方位和速度等信息,通过挖掘出租车GPS 轨迹数据可用于分析车辆移动轨迹特征、预测交通流、改善交通服务[1] [2] [3],对城市交通管理、道路规划具有重要意义。
城市热点区域通常是人流量大、商业发达、经济水平发展高的中心地区,利用出租车轨迹数据提取城市热点区域的方法主要有根据数据场势值阈值法探测轨迹点的聚集模式进行提取[4],基于高斯定律的轨迹挖掘方法[5],将轨迹转换为网格序列进行聚类[6] [7]。但由于出租车GPS 轨迹数据数量庞大且分布状态多样,因此对轨迹数据挖掘的方法提出了新的要求,需要研究高效的分布式并行轨迹数据挖掘算法[8] [9] [10]。
借鉴传统研究方法之后, 结合现在流行的Spark 大数据处理平台, 优化K-Means 聚类算法[11] [12] [13] [14] [15],将成都市出租车GPS 轨迹数据进行研究,挖掘分析工作日休息日不同时段的数据, 得到居民出行热点区域及其分布特点, 并将单机K-Means 算法和K-Means||算法的时间效率进行对比, 结果表明后者在处理大数据量的时间效率上有较好的效果。
2. 数据预处理 本文选取2014 年8 月3~4 日成都市出租车GPS 轨迹数据为实验对象, 原始数据中包含出租车编号、经纬度、载客状态(1 代表载客,0 代表空车)、速度、方位角、时间戳七个字段,但由于受到噪声、通信故障和传感器硬件故障等外界因素的干扰,可能存在噪声数据、数据缺失和数据失真等现象,并不能直接用于处理和分析,因此需要从失真数据剔除、多余字段删除和部分时段数据过滤三方面对数据进行预处理。
2.1. 失真数据剔除 失真数据主要包括以下情况:① 轨迹数据经纬度超出成都市范围;② 源数据中存在信息不完整的