python中如何实现信息增益和信息增益率
发布时间:2024-09-04 20:05:00

一、信息增益与信息增益率
1、信息增益
根据特征划分数据集前后熵的差异。熵可以表示样本集的不确定性。熵越大,样本的不确定性就越大。因此,可以利用划分前后收集熵的差异来衡量样本集D划分效果的当前特征。
信息增益 = entroy(前) - entroy(后)
注意:信息增益意味着知道X的特征信息,降低Y的信息熵
2、信息增益率
增益率是利用之前的信息增益Gain(D, a)与属性a对应"固有值"(intrinsic value) [Quinlan , 共同定义了1993J的比值。
二、信息增益与python代码实现信息增益率
1、信息增益定义计算信息增益的函数:计算g(D|A)
defg(data,str1,str2):
e1=data.groupby(str1).apply(lambdax:infor(x[str2])
p1=pd.value_counts(data[str1]len(data[str1]
#计算Infor(D|A)
e2=sum(e1*p1)
returninfor(data[str2]-e2
print("学历信息增益:{}".format(g(data,"学历","类别")))
#输出结果为:0.08300749857832、信息增益率定义计算信息增益率的函数:计算gr(D,A)
defgr(data,str1,str2):
returng(data,str1,str2)/infor(data[str1]
print("学历信息增益率:",gr(data,"学历","类别"))
#输出结果为:0.052371901428302
下一篇 python实现信息熵的计算代码
