来查找分类器准确性和完整性
Posted: Wed Jan 15, 2025 8:42 am
精确度和完整性的“良好”值是主观的,取决于您的用例。
在这种疾病预测场景中,我们总是希望识别出患有这种疾病的人,即使这存在误报的风险。在这里,我们将构建比准确更完整的模型。
另一方面,如果我们要构建一个模型来阻止恶意行为者进入电子商务网站,我们可能需要更高的精度,因为阻止合法用户会导致销售额下降。
我们经常使用称为 F1 分数的指标的调和平均值。简 加拿大数据 而言之,F1 分数通过计算平均值将精确度和完整性合并为一个指标。
AUC(即曲线下面积)是用于衡量分类模型性能的另一个流行指标。算法的 AUC 告诉我们其区分正类和负类的能力。
要了解有关 AUC 等度量及其计算方式的更多信息,请关注Datacamp 的R 中的监督学习课程。
现在让我们看看不同类型的分类模型及其工作原理:
逻辑回归
逻辑回归是一种简单的分类模型,可预测事件发生的概率。
以下是逻辑回归模型如何工作的示例:
逻辑回归
作者头像
上图显示了一个逻辑函数,该函数根据文本中否定关键字的频率将电子邮件数据分为两类:“垃圾邮件”和“非垃圾邮件”。
请注意,与线性回归算法不同,逻辑回归采用 S 形曲线建模,称为逻辑函数,具有以下公式:
物流函数公式
虽然线性函数没有上限或下限,但逻辑函数的范围在 0 和 1 之间。模型预测的概率范围在 0 到 1 之间,该概率确定数据点所属的类。
在此垃圾邮件示例中,如果文本包含很少或不包含可疑关键字,则其为垃圾邮件的概率将很低且接近于 0。另一方面,包含许多可疑关键字的电子邮件将有很高的概率为垃圾邮件。 ,接近于1。
然后将该概率转换为分类结果:
分类结果
作者头像
所有红色点都是垃圾邮件的概率 >= 0.5。因此,它们被分类为垃圾邮件,逻辑回归模型将返回分类结果 1。绿色点为垃圾邮件的概率 < 0.5,因此模型将它们分类为“非垃圾邮件”并返回排名结果为 0。
对于像上面这样的二分类问题,逻辑回归模型的默认阈值是0.5,这意味着概率大于0.5的数据点将自动分配标签1。这个阈值可以根据您的情况手动修改用例以获得更好的结果。
在这种疾病预测场景中,我们总是希望识别出患有这种疾病的人,即使这存在误报的风险。在这里,我们将构建比准确更完整的模型。
另一方面,如果我们要构建一个模型来阻止恶意行为者进入电子商务网站,我们可能需要更高的精度,因为阻止合法用户会导致销售额下降。
我们经常使用称为 F1 分数的指标的调和平均值。简 加拿大数据 而言之,F1 分数通过计算平均值将精确度和完整性合并为一个指标。
AUC(即曲线下面积)是用于衡量分类模型性能的另一个流行指标。算法的 AUC 告诉我们其区分正类和负类的能力。
要了解有关 AUC 等度量及其计算方式的更多信息,请关注Datacamp 的R 中的监督学习课程。
现在让我们看看不同类型的分类模型及其工作原理:
逻辑回归
逻辑回归是一种简单的分类模型,可预测事件发生的概率。
以下是逻辑回归模型如何工作的示例:
逻辑回归
作者头像
上图显示了一个逻辑函数,该函数根据文本中否定关键字的频率将电子邮件数据分为两类:“垃圾邮件”和“非垃圾邮件”。
请注意,与线性回归算法不同,逻辑回归采用 S 形曲线建模,称为逻辑函数,具有以下公式:
物流函数公式
虽然线性函数没有上限或下限,但逻辑函数的范围在 0 和 1 之间。模型预测的概率范围在 0 到 1 之间,该概率确定数据点所属的类。
在此垃圾邮件示例中,如果文本包含很少或不包含可疑关键字,则其为垃圾邮件的概率将很低且接近于 0。另一方面,包含许多可疑关键字的电子邮件将有很高的概率为垃圾邮件。 ,接近于1。
然后将该概率转换为分类结果:
分类结果
作者头像
所有红色点都是垃圾邮件的概率 >= 0.5。因此,它们被分类为垃圾邮件,逻辑回归模型将返回分类结果 1。绿色点为垃圾邮件的概率 < 0.5,因此模型将它们分类为“非垃圾邮件”并返回排名结果为 0。
对于像上面这样的二分类问题,逻辑回归模型的默认阈值是0.5,这意味着概率大于0.5的数据点将自动分配标签1。这个阈值可以根据您的情况手动修改用例以获得更好的结果。