什么是监督学习?
监督学习是一种创造人工智能的方法(AI)电脑在哪里算法是在已经为特定输出标记的输入数据上训练的。对模型进行训练,直到它能够检测到输入数据和输出标注之间的潜在模式和关系,使其能够在呈现前所未见的数据时产生准确的标注结果。
在监督学习中,目标是在特定问题的上下文中理解数据。监督学习擅长分类和回归问题,例如确定一篇新闻文章属于哪个类别,或者预测给定未来日期的销量。组织可以在异常检测、欺诈检测、图像分类、风险评估和垃圾邮件过滤等过程中使用监督学习。
与监督学习相反的是无监督机器学习。在这种方法中,该算法具有未标记的数据,并且被设计成自己检测模式或相似性,这是下面更详细描述的过程。
监督学习是如何工作的?
像所有人一样机器学习算法,监督学习是基于训练的。在其训练阶段,系统被输入带标签的数据集,这些数据集指示系统什么输出变量与每个特定的输入值相关。然后将测试数据呈现给训练好的模型。这是已经被标记的数据,但是这些标记还没有显示给算法。测试数据的目的是测量算法在未标记数据上执行的准确性。
实施监督学习的一般基本步骤包括:
- 确定将用作训练集的训练数据的类型。
- 收集有标签的训练数据。
- 将培训数据分为培训、测试和验证数据集.
- 确定用于机器学习模型的算法。
- 使用训练数据集运行算法。
- 评估模型的准确性。如果模型预测正确的输出,那么它是准确的。
作为一个例子,一个算法可以被训练来识别猫和狗的图像,方法是向其提供大量的训练数据,这些数据将包括猫和狗的不同标记图像。该训练数据将是来自更大的图像数据集的照片的子集。经过训练后,该模型应该能够预测图像的输出是猫还是狗。可以通过算法运行另一组图像来验证模型。
在…里神经网络算法通过不断测量模型的结果输出并微调系统以更接近其目标精度,监督学习过程得到改进。可获得的准确度取决于两件事:可用的标记数据和使用的算法。此外,以下因素会影响流程:
- 训练数据必须是平衡的和干净的。垃圾或重复数据扭曲了人工智能的理解——因此,数据科学家必须小心处理模型所依据的数据。
- 数据的多样性决定了人工智能在面对新案例时的表现;如果训练数据集中没有足够的样本,模型就会失效,无法产生可靠的答案。
- 矛盾的是,高精度并不一定是一个好的指示;这也可能意味着模型正遭受过度拟合,即,它对其特定的训练数据集过度调整。这样的数据集可能在测试场景中表现良好,但在面对现实世界的挑战时会惨败。为了避免过度拟合,重要的是测试数据不同于训练数据,以确保模型不是从其以前的经验中得出答案,而是对模型的推断进行概括。
- 另一方面,算法决定了如何将数据投入使用。举个例子,深度学习可以训练算法从数据中提取数十亿个参数,并达到前所未有的精确度,如所示OpenAI的GPT-3.
除了神经网络,还有许多其他监督学习算法。监督学习算法主要产生两种结果:分类和回归。
分类算法
监督学习算法分为两种:分类和回归。
分类算法的目的是根据它被训练的标记数据将输入分类到给定数量的类别中。分类算法可用于二元分类,例如将图像分类为狗或猫;过滤将电子邮件转换成垃圾邮件或非垃圾邮件;并将客户反馈分为正面或负面。
分类机器学习技术的例子包括如下:
- A 决策图表将数据点分成两个相似的类别,从树干到树枝,再到树叶,在类别中创建更小的类别。
- 逻辑回归分析独立变量以确定属于两个类别之一的二元结果。
- A 随机森林是决策树的集合,它收集了来自多个预测器的结果。与决策树相比,它更擅长概括,但可解释性较差。
- A 支持向量机在模型定型过程中,找到将给定集中的数据分成特定类的线,并最大化每个类的边距。这些算法可用于比较相对财务绩效、价值和投资收益。
回归模型
回归任务是不同的,因为他们期望模型产生输入和输出数据之间的数字关系。回归模型的例子包括根据邮政编码预测房地产价格,根据一天中的时间预测在线广告的点击率,以及根据客户的年龄确定他们愿意为某个产品支付多少钱。
监督学习程序中常用的算法包括:
- 贝叶斯逻辑分析统计模型,同时结合以前关于模型参数或模型本身的知识。
- 线性回归基于另一个变量值预测一个变量值。
- 非线性回归当输出不能从线性输入中再现时使用。这样,数据点共享一个非线性关系,例如,数据可能有一个非线性的曲线趋势。
- A 回归树是一个决策树,可以从目标变量中获取连续值。
在选择监督学习算法时,有几件事应该考虑。第一个是偏见和方差,因为在足够灵活和过于灵活之间有一条细微的界限。另一个是系统试图学习的模型或函数的复杂性。如上所述,在选择算法之前,还应该分析数据的异质性、准确性、冗余性和线性度。
监督与非监督学习
无监督学习和有监督学习的主要区别在于算法的学习方式。
在无监督学习中,给定算法未标记的数据作为训练集。与监督学习不同,没有正确的输出值;该算法确定数据中的模式和相似性,而不是将其与一些外部测量相关联。换句话说,算法可以自由运作,以了解更多关于数据的信息,并发现人类没有寻找的有趣或意想不到的发现。
无监督学习在聚类算法(发现数据中的组的行为)和关联(预测描述数据的规则的行为)中很流行。
因为机器学习模型独自工作来发现数据中的模式,所以该模型可能不会像监督学习那样进行相同的分类。在猫和狗的例子中,无监督学习模型可以标记猫和狗之间的差异、相似性和模式,但不能将它们标记为猫或者狗.
优点和局限性
监督学习模型比非监督方法有一些优势,但它们也有局限性。好处包括以下几点:
- 监督学习系统更有可能做出人类可以理解的判断,因为人类已经提供了决策的基础。
- 由于经验丰富的额外帮助,性能标准得到了优化。
- 它可以执行分类和回归任务。
- 用户控制训练数据中使用的类的数量。
- 模型可以根据以前的经验做出预测输出。
- 物体的类别用精确的术语标注。
监督学习的局限性包括以下几点:
- 在基于检索的方法的情况下,监督学习系统在处理新信息时有困难。如果一个有猫和狗分类的系统有了新的数据——比如说一只斑马——它就会被错误地归入某一类。如果人工智能系统生殖的——也就是说,无人监管——然而,它可能不知道斑马是什么,但它能够识别出它属于一个单独的类别。
- 监督学习通常还需要大量正确标记的数据来达到可接受的性能水平,并且这些数据可能并不总是可用的。无监督学习没有这个问题,也可以处理未标记的数据。
- 监督模型在使用前需要时间进行训练。
半监督学习
在需要监督学习但缺乏高质量数据的情况下,半监督学习可能是合适的学习方法。这种学习模式介于监督学习和非监督学习之间;它接受部分标记的数据,即大部分数据没有标记。
半监督学习确定数据点之间的相关性——就像无监督学习一样——然后使用标记的数据来标记这些数据点。最后,基于新应用的标签训练整个模型。
半监督学习可以产生准确的结果,并适用于许多现实世界的问题,其中少量的标记数据会阻止监督学习算法正常工作。根据经验,至少有25%标记数据的数据集适合半监督学习。
面部识别例如,对于半监督学习来说是理想的;不同人的大量图像通过相似性进行聚类,然后用带标签的图片进行理解,给聚类的照片赋予身份。
监督学习项目的示例
监督学习的一个可能的用例是在新闻分类中。一种方法是确定每条新闻属于哪个类别,比如商业、金融、科技或体育。为了解决这个问题,监督模型将是最合适的。
人类将向模型呈现各种新闻文章及其类别,并让模型学习哪种新闻属于每个类别。通过这种方式,该模型能够基于其先前的训练经验来识别它所查看的任何文章的新闻类别。
然而,人类也可能得出结论,根据预先确定的类别对新闻进行分类是不够信息丰富或灵活的,因为一些新闻可能会谈论气候变化技术或某个行业的劳动力问题。有数十亿篇新闻文章,将它们分成40或50类可能过于简单。
相反,更好的方法可能是找到新闻文章之间的相似之处,并相应地对新闻进行分组。这将是寻找新闻集群,相似的文章将被分组在一起。再也没有具体的类别了。
这是无监督学习通过确定数据中的模式和相似性实现的,而不是将其与一些外部测量相关联。