:决策树是数据挖掘的一种重要手段,在数据挖掘知识发现中有广泛的应用。本文在SQL Server Business Intelligence Development Studio 平台上,通过决策树模型绘制了决策树并且得出了关于预测项住房状况的影响因子以及影响程度的强弱,最后对数据挖掘结果进行分析与预测且得到了比较理想的预测与结论。
本文是利用SQL Server 数据挖掘对大规模数据集MovieClick 进行挖掘, 以便从大量繁杂的数据中获取隐含中其中的信息[1,2]。
MovieClick 数据库是通过收集客户喜欢的电影的相关内容以及客户自身数据的一个数据集, 如Num bedrooms、Num cars、Marry Status、Age、Num bathrooms 等信息。
对影响用户的住房的状况的因素进行分析,得出影响因素的具体条件。
本文的主要流程如图1。
2.数据挖掘方法 数据挖掘(Data Mining)是通过分析每个数据,从 大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3 个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
3. 数据清洗 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等[6-9]。
数据清理是将数据库精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是将数据输入到数据清理处理器,通过一系列步骤“清理”数据,然后以期望的格 Copyright © 2013 Hanspub 80