统计与机器学习算法及客户倾向模型构建指南
1. 统计与机器学习算法介绍
1.1 支持向量机(SVM)
支持向量机(SVM)由Bernhard E. Boser、Isabelle Guyon和Vladimir N. Vapnik于1992年在学习理论会议(COLOT)上提出。它基于统计学习理论技术,是一种基于核的学习算法。
SVM的核心思想是找到一个分离超平面,将训练数据分为两类,并使两类之间的间隔(或边距)尽可能宽。当只有两个输入变量时,用一条直线将数据分为两类;在高维空间(即输入变量多于两个)中,用超平面将训练数据分为两类。
假设一家电信公司有n个客户的训练数据,其中50个客户会流失,另外50个客户不会。为每个客户提取10个输入变量(或特征)来表示该客户。对于一个使用了一段时间服务的客户,数据科学家和业务分析师想确定该客户是否会流失并转向其他电信提供商。
训练数据表示为((x_1,y_1), \cdots, (x_n,y_n)),其中((x_i,y_j))表示(x_i)映射到类别(y_j)。超平面决策函数为(D(x) = w\times x + w_0),其中(w)和(w_0)是系数。分离超平面需满足以下约束:
当(y_i = +1)时,(w\times x + w_0 \geq +1);当(y_i = -1)时,(w\times x + w_0 \leq -1)。
最优分离超平面能使两类之间的边距最大,这些约束可以用方程(y_i[(w\times x + w_0)] \geq 1)表示。由于直接计算(|w|)的范数有困难,通常不直接求解该方程的原始形式,而是使用其对偶形式来求解优化问题,以确定最优超平面