用人工智能实时检测物体 – YOLO
“你只看一次”,检测常见的(约9000个)物体和它们各自的,大多数是高概率的。YOLO是一种尖端的人工智能算法,用于检测图像和视频中的物体。速度、物体的学习差异和可定制性是其基本优点。它的速度可以归功于对复杂的卷积神经网络(CNN)进行优化编程。它通过对新的变化进行训练和学习来照顾对象的变化。拥有足够的训练数据–大量的图像–可以加快性能。可定制性可以通过手动标注来实现,最好是在不同的图像中标注≥200个物体,并从大型数据集的先前学习中转移智能。
要想获得更多的行动,请在詹姆斯-邦德的预告片中观看它的现场。
对象检测是计算机视觉领域的一个重要概念。它是对图像数据中物体的检测和分类。它有许多应用–从自主车辆到监视。它帮助我们仅仅通过观察就能解锁我们的手机–因为敲击手指太费劲了。
YOLO应用了你用来创造智力的相同概念。你通过检测环境中的物体并对其进行分类来学习。该算法也是如此。YOLO非常准确,而且它看到的图像越多就越准确。
它在学习物体的表征方面做得很好。当你了解到一个碗时,你就知道其他看起来像碗的物体–各种尺寸和颜色–也是碗。你不必看所有的碗就能知道一个新的物体是一个碗。
考虑到它的完整形式,YOLO只 “看一次”,即它通过创建一个神经网络,将图像分成若干区域,并预测每个区域的边界框和概率。这些边界框由预测的类别概率加权,以实现最终的分类和边界框。
该算法在每秒40帧(FPS)的情况下,给出了平均精度(真阳性/(真阳性+假阳性)),比率为78.6%。YOLO是可推广的,也能从被标记的物体周围的环境中学习。YOLO还提供物体存在的概率。它在检测到的物体周围画出方框。该算法还能检测它没有训练过的物体。
随着检测到的方框数量的增加,你会得到一个更高的IOU值(真相和预测方框的相似程度)。见下图:Y轴是IOU值,X轴是盒子的数量。
YOLO是在庞大的、有良好标签的数据集上训练的。它以复杂的神经网络为模型,迅速进行85.2亿次运算。它利用分层分类,例如,”诺福克梗 “和 “约克夏梗 “都是 “梗 “的外来语,而 “梗 “是 “猎犬 “的一种类型,是 “狗 “的一种类型。大多数其他竞争性模型将标签视为不同的。
它是可定制的,能以高精确度预测定制对象。YOLO被定制来检测微软的Hololens,它的表现很好,你可以看到下面。
定制的物体检测
YOLO在标记的图像上进行训练,并从操作这些图像中获得增强的数据–裁剪、饱和度、旋转等等。它着眼于整个图像,因此得出了物体周围的环境。该算法通过捕捉物体的基本特征和基本原理而具有良好的通用性。
我鼓励你阅读这篇论文,以了解更多细节。这篇文章提供了YOLO的深入解释和编程教程。在这里浏览代码。
用人工智能进行实时、现场物体检测–YOLO最初发表在《Nerd For Tech》杂志上,人们通过强调和回应这个故事继续对话。