位置：文档库 > Python > python机器学习决策树详细介绍

python机器学习决策树详细介绍

萨达特上传于 2021-07-09 00:32

《Python机器学习决策树详细介绍》

决策树（Decision Tree）是机器学习中经典的监督学习算法，因其直观的模型结构和可解释性强的特点，被广泛应用于分类和回归任务。本文将从决策树的数学原理、Python实现、可视化方法、调参技巧及实际应用场景等方面进行系统介绍，帮助读者全面掌握这一工具。

一、决策树基础理论

决策树通过递归地将数据集划分为更小的子集，构建树状结构模型。每个内部节点代表一个特征上的测试，每个分支代表测试结果，每个叶节点代表预测结果。其核心问题包括特征选择、分裂标准、停止条件等。

1.1 特征选择与分裂标准

决策树的关键在于如何选择最优特征进行分裂。常用分裂标准包括：

信息增益（ID3算法）：基于信息熵的减少量选择特征。
信息增益比（C4.5算法）：修正信息增益对多值特征的偏好。
基尼指数（CART算法）：衡量数据不纯度，适用于分类和回归。

信息熵公式：

H(D) = -∑(p_i * log₂p_i)

其中，D为数据集，p_i为第i类样本的比例。

基尼指数公式：

Gini(D) = 1 - ∑(p_i²)

1.2 决策树构建流程

1. 从根节点开始，计算所有特征的信息增益/基尼指数。

2. 选择最优特征作为当前节点的分裂标准。

3. 根据特征取值划分数据集，递归构建子树。

4. 终止条件：达到最大深度、样本数小于阈值或信息增益小于阈值。

二、Python实现决策树

Scikit-learn库提供了高效的决策树实现，支持分类（DecisionTreeClassifier）和回归（DecisionTreeRegressor）。

2.1 数据准备

以鸢尾花数据集为例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

2.2 模型训练与预测

from sklearn.tree import DecisionTreeClassifier

# 创建决策树分类器
clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)
print("Accuracy:", clf.score(X_test, y_test))

2.3 关键参数说明

criterion：分裂标准（'gini'或'entropy'）。
max_depth：树的最大深度，防止过拟合。
min_samples_split：节点分裂所需的最小样本数。
min_samples_leaf：叶节点所需的最小样本数。
max_features：寻找最优分裂时考虑的特征数。

三、决策树可视化

使用graphviz和sklearn.tree模块可直观展示决策树结构。

3.1 安装依赖

pip install graphviz
# 还需安装Graphviz软件（官网下载）

3.2 可视化代码

from sklearn.tree import export_graphviz
import graphviz

dot_data = export_graphviz(
    clf,
    out_file=None,
    feature_names=iris.feature_names,
    class_names=iris.target_names,
    filled=True,
    rounded=True
)
graph = graphviz.Source(dot_data)
graph.render("iris_decision_tree")  # 保存为PDF文件

生成的决策树如图1所示，每个节点显示分裂特征、基尼指数、样本数和类别分布。

四、决策树优缺点与改进

4.1 优点

模型直观，易于解释。
无需数据预处理（如归一化）。
能处理混合类型特征（数值和类别）。

4.2 缺点

容易过拟合，尤其是树深度较大时。
对数据噪声敏感。
不稳定的模型（数据微小变化可能导致树结构剧变）。

4.3 改进方法

（1）剪枝（Pruning）

通过预剪枝（设置max_depth等参数）或后剪枝（成本复杂度剪枝）降低过拟合风险。

from sklearn.tree import DecisionTreeClassifier

# 使用成本复杂度剪枝
clf_pruned = DecisionTreeClassifier(
    criterion='gini',
    ccp_alpha=0.01  # 剪枝参数，值越大剪枝越激进
)
clf_pruned.fit(X_train, y_train)

（2）集成方法

随机森林（Random Forest）和梯度提升树（GBDT）通过集成多棵决策树提升性能。

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
rf.fit(X_train, y_train)
print("RF Accuracy:", rf.score(X_test, y_test))

五、实际应用案例

5.1 医疗诊断

使用决策树预测患者是否患有糖尿病：

import pandas as pd
from sklearn.tree import DecisionTreeClassifier

# 加载数据（示例）
data = pd.read_csv('diabetes.csv')
X = data.drop('Outcome', axis=1)
y = data['Outcome']

# 训练模型
clf = DecisionTreeClassifier(max_depth=4)
clf.fit(X, y)

# 特征重要性分析
importances = clf.feature_importances_
features = X.columns
for feature, importance in zip(features, importances):
    print(f"{feature}: {importance:.4f}")

5.2 客户分群

根据用户行为数据划分客户群体：

from sklearn.preprocessing import LabelEncoder

# 假设data包含用户行为数据
le = LabelEncoder()
data['Gender'] = le.fit_transform(data['Gender'])

clf = DecisionTreeClassifier(criterion='entropy')
clf.fit(data.drop('Segment', axis=1), data['Segment'])

# 可视化特征重要性
import matplotlib.pyplot as plt

plt.barh(features, importances)
plt.xlabel('Feature Importance')
plt.show()

六、决策树回归

决策树也可用于回归任务，通过均值预测连续值。

from sklearn.tree import DecisionTreeRegressor
from sklearn.datasets import load_boston

boston = load_boston()
X, y = boston.data, boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

reg = DecisionTreeRegressor(max_depth=5)
reg.fit(X_train, y_train)
print("MSE:", ((reg.predict(X_test) - y_test) ** 2).mean())