客户流失-生存分析

客户流失

不同行业、处于不同的客户生命周期，对客户流失的定义均有差异。但总的来说，客户流失指的就是在一定时期内不再使用公司产品和服务的客户。

针对客户流失的预测，有许多机器学习模型可以预测客户是否会流失。预测客户流失有几个好处：

提前对有流失可能性的客户进行干预，将留客措施前置；
针对可能会流失的客户，进行数据分析，找出流失客户与留存客户最大的差异特征；
可根据流失情况，形成及时有效的预警机制；

我们知道了哪些客户会流失，以及客户流失的概率，还必须下发某些策略来留住处于流失边缘的客户。但，还是有些问题，通过流失预测模型知道了某些客户会流失，也知道特征重要性，但仍然抓不住挽留客户的“钩子”，数据分析师只能针对这些流失客户，以及重要影响特征进行拆解，得到一些蛛丝马迹。

生存分析

COX比例风险模型（cox proportional-hazards model）

简称COX模型，是英国统计学家D.R.COX（1972）提出的一种半参数回归模型。该模型通常是用于医学研究中，分析一个或多个前定变量对患者生存时间的影响。

这种生存建模最有趣的方面是它能够检查生存时间和预测变量之间的关系。

例如，如果我们正在检查患者的存活率，那么预测变量可以是年龄、血压、性别、吸烟习惯等。这些预测变量通常被称为协变量。

模型参数解释：

风险函数 Hazard function λ(t)：给出在时间 t 处死亡的瞬时风险；
协变量Z：特征向量；
基线风险函数λo(t) ：描述的是事件风险随时间的变化，它是所有协变量都等于 0 的潜在风险；

另外，与单变量分析常用的Kaplan-Meier 曲线，COX模型是多因素生存分析的方法，并且COX模型可以包含类别变量（例如性别），还可以包含数值变量（例如年龄）。

而Kaplan-Meier 曲线只能包含类别变量。并且COX回归把生存分析方法拓展到同时评估几种风险因素对生存时间的影响，有更广泛的运用（直接好家伙?）。

模型应用

以Kaggle上的电信流失的数据集为例，利用lifelines包搭建风险模型。

读取数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('Telecom_customer churn.csv')
df = df.dropna()
df.set_index('Customer_ID', inplace=True)
复制代码

删除类别数大于2的特征

df_str = df.loc[ : , df.dtypes == object]

for i in df_str.columns:
   if len(np.unique(df_str[i].values)) >2:
       del df[i]
复制代码

特征one-hot

df_str = df.loc[:, df.dtypes == object]
for i in df_str.columns:
   one_hot = pd.get_dummies(df[i])
   one_hot.columns = [ i +'_'+j for j in one_hot.columns]
   df = df.drop(i,axis = 1)
   df = df.join(one_hot)
   
survival_time = df['months'].values
del df['months']
churn = df['churn'].values
del df['churn']
复制代码

删除相关性高的特征

corr_matrix = df.corr().abs()
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))
to_drop = [column for column in upper.columns if any(upper[column] > 0.98)]
df.drop(to_drop, axis=1, inplace=True)

df = df[list(df.columns[:69])]
df['months'] = survival_time
df['churn'] = churn
df = df[df['churn'] == 1]
复制代码

选择变量并建立cox模型

df_sampled = df.sample(n=1000)
from lifelines import CoxPHFitter

cph = CoxPHFitter(penalizer=0.01) 
cph.fit(df_sampled, duration_col='months', event_col='churn')
df_stats = cph.summary

features_valuable = list(df_stats[df_stats['exp(coef)'].values > 1.01].index) + list(df_stats[df_stats['exp(coef)'].values < 0.98].index)
df = df[features_valuable+['churn','months']]
复制代码