真实数据标注:挑战与解决方案
1. 机器学习模型为何需要标注数据
机器学习(ML)模型的强大能力与训练数据和真实标签(ground truth)的质量和数量密切相关。通常,人类进行数据标注主要有两个原因:训练和测试ML模型。
1.1 训练ML模型
训练ML模型主要有四个步骤:
1. 初始化 :在训练过程开始时,模型的参数(如深度学习模型的权重和偏差)通常被设置为随机小数字,以满足随机优化过程的初始要求。随机优化过程是一种在涉及随机性和不确定性的数学问题中寻找最佳解决方案的方法。
2. 预测 :模型利用其对任务的已有知识,根据输入数据预测输出。可以想象模型在训练过程中通过拟合超平面(决策边界)来理解问题,然后将任何给定输入投影到该超平面上以给出预测。在此步骤中,仅向模型提供数据,而不提供真实标签。例如,在“猫狗”分类器中,模型会接收猫和狗的图像并被要求预测图像的类别或标签。
3. 误差计算 :根据模型的预测,需要评估预测的正确性,这就需要真实标签或标注。在此步骤中,有两个输入:模型的预测和真实标签。例如,在“猫狗”分类器中,模型可能会错误地将猫图像的类别预测为“狗”。可以使用损失函数计算模型的预测与真实标签的接近程度,损失函数取决于问题的类型。ML中主要有两种类型的问题:分类问题和回归问题。在分类问题中,ML模型学习对训练数据进行分类;在回归问题中,ML模型学习利用输入数据预测连续值。
4. 反向传播 :根据计算出的误差,需要根据输入和误差更新模型的参数或权重。如果误差较小,模型会轻微更新
超级会员免费看
订阅专栏 解锁全文
1644

被折叠的 条评论
为什么被折叠?



