4. 机器学习中的特征重要性是什么?它是如何确定的?
特征重要性是指根据输入特征在预测目标变量中的有用性为输入特征分配分数的技术。它在理解数据的底层结构、模型的行为并使其更具可解释性方面发挥着关键作用。
有多种方法可以确定特征的重要性:
基于模型的重要性:一些算法,例如决策树和随机森林,结合了评估特征重要性的方法。例如,随机森林计算节点的杂质衰减,并按到达该节点的概率加权,对所有树进行平均。
排列的重要性:这涉及将各个变量混入验证集中并观察对模型性能的影响。模型性能的显着下降表明其重要性很高。
SHAP(SHapley Additive exPlanations):这种方法使用博弈论来衡量每个特征对复杂模型中预测的贡献。SHAP 值提供对模型行为的深入洞察,对于梯度增强机或神经网络等复杂模型特别有用。
相关系数:简单的统计测量(例如 Pearson 或 Spearman 相关性)可以提供有关每个特征与目标变量之间的线性关系的信息。
了解特征的重要性对于优化模型、通过删除无信息特征来减少过度拟合以及提高模型可解释性至关重要,特别是在理解模型决策过程至关重要的领域。
机器学习技术面试问题
技术面试进一步评估您对流程的了解以及管理不确定性的能力。招聘经理将询问有关数据处理、高级模型和算法的训练和验证的机器学习面试问题。
5.当特征值变化很大时,我们真的需要缩放它们吗?
是的,大多数算法都使用数据点之间的欧几里得距离,如果特征值 亚美尼亚数据 变化很大,结果就会有很大不同。在大多数情况下,异常值会导致机器学习模型在测试数据集上表现较差。
我们还使用特征缩放来减少收敛时间。如果特征未标准化,梯度下降将需要更长的时间才能达到局部最小值。
不带刻度和带刻度的渐变
不带刻度和带刻度的渐变 |知乎
特征工程技能的需求量很大。您可以通过参加 DataCamp 课程来了解该主题的所有内容,例如Python 中机器学习的特征工程。
6. 你训练的模型具有低偏差和高方差。你会如何处理?
当模型预测值接近真实值时,就会出现偏差不足。模拟训练数据集。该模型没有泛化性,这意味着如果对未观察到的数据进行测试,它会给出很差的结果。
低偏差和高方差
低偏差和高方差 |作者
为了解决这些问题,我们将使用装袋算法,因为它们通过随机采样将数据集划分为子集。然后,我们使用这些样本和单一算法生成模型集合。然后,我们使用投票分类或平均来组合模型预测。
对于高方差,我们可以使用正则化技术。它惩罚模型中的最高系数以降低其复杂性。此外,我们可以从特征重要性图中选择最重要的特征并训练模型。