你正在Stripe进行机器学习工程师面试。 面试官问: “人们经常对他们实际进行的交易提出争议。 如何构建一个监督模型来预测虚假争议? 没有标记的数据。” 你:"我会标记争议率高的卡片。" 面试结束。 你错过了以下内容: 主动学习是一种相对简单且便宜的方法,可以在没有注释数据的情况下构建监督模型。 顾名思义,这个想法是通过对模型在其挣扎的示例上进行主动的人类反馈来构建模型。 下面的视觉图总结了这一点。 1)首先手动标记你数据的极小百分比。 2)在这个小的标记数据集上构建模型。这不会是一个好的模型,但没关系。 3)接下来,对你没有标记的数据集生成预测。 由于数据集是未标记的,我们无法确定这些预测是否正确。 ...