视频的诞生与变迁：人工智能引领视频创新

视频的诞生与变迁：人工智能引领视频创新

2024-11-10 16:04

作为优质的信息载体，在视频诞生至今的 150 年里，它的传播过程却没有太多改变。而随着近年机器视觉技术与视频的充分融合，结合了 AI 的视频传播具有多大的社会价值？作为一家致力于机器视觉研究的云计算公司，七牛云会在这场变革中承担怎样的角色？   NIUDAY 杭州站，七牛云人工智能实验室负责人彭垚分享了他的观点。    

视频的诞生与变迁：人工智能引领视频创新

  如今在我们的生活中，摄影机、摄像机随处可见。但很少有人知道世界上第一部摄影机是如何诞生的。1872 年的一天，斯坦福大学创始人和校长——斯坦福与友人科恩打赌，斯坦福认为赛马在奔跑过程中四蹄并不是同时离地，而科恩却不认同他的看法。两人争执不休却又不能说服对方。于是斯坦福找到了一位科学家，科学家提出了连续拍摄胶片，然后回放看录像的方法。尽管最终斯坦福输了赌约，但却参与制造出了世界上第一台摄影机。   这个故事里我们可以看到，视频诞生之初的作用就是取证。相比于图片，视频的优势在于能够留下动作的过程。   图 1

图 1 第一行是常见的监控摄像头，最初是用作取证、保障城市和家中的安全。由于有一部分摄像头可以用于聊天，因此也自带社交属性。   第二行是日常使用的相机、摄像机。最初这些设备被媒体用作取证、记录新闻。而随着电影等娱乐业的发展，也渐渐带上传播属性。   第三行的摄像头就更加普遍了，我们每个人的手机智能机器人都有摄像头。它们可以用来视频通话、直播，是视频的入口和来源。   我们到底用视频做什么？最早是为防止记忆缺失留存影像，用于取证；第二个阶段是做成媒体素材与别人分享；第三个阶段是通过 RTC 与他人进行实时沟通。  

  以往视频在传播过程中，没有「机器认知」这一步骤。人们用摄录设备生产视频，再将视频给别人看。**从人到视频再到人，就是一个简单的过程，**唯一的区别是视频的载体，有可能是录像带，也有可能是在线视频。   这个过程存在观看者和拍摄者兴趣偏差的问题。观众不可能将所有视频都看一遍，他们只会根据兴趣进行挑选。   图 2

  现在，全世界视频的数量已经远远超过人能看的总量。很多场景下，我们需要这些视频都被人工看过，但即使全世界的人停下所有动作只看视频，也不可能看完。所以就需要计算机视觉发挥作用，在人到视频再到人的过程中，插入机器认知这一环节，通过摄像头录下动作，辅助人把视频先看一遍。   图 3

  计算机认知里有很多体系化的东西，最基础的是代替人做分类。而认知中最简单的就是判断视频是否合法。其次是在视频画面中将事物检查出来，有多少人，几辆车。也可能将视频主体轮廓进行分割、再加工，做一些精细化工作。最后还可能做一些更上层的业务，比如大量视频的检索和分析等。  

 七牛云计算机视觉产品的目标，就是打造一套能够完整支撑、充分理解视频内容的产品体系。我们将它称作 AI Video OS，主要包含三个子系统。   1.智能多媒体 API （DORA） 第一个子系统是智能多媒体 API（DORA），它是机器视觉的入口，整体识别及认知引擎都来自这个入口。每天互联网用户 App 上传海量富媒体数据都会调用智能多媒体 API 这个入口对视频、图像进行处理、认知。    目前七牛云官网上提供了包括内容审核、 OCR、场景识别、人脸识别、音视频处理、图片处理六大模块应用呈现。基于七牛云平台弹性扩缩容的方法，即使整个平台每天的数据处理量都在高速增长，服务器也不会承受巨大的压力。   2.深度学习平台（AVA） 第二个子系统是深度学习平台（AVA），负责生成认知模型。通过深度学习平台生产机器认知模型，并不断训练、提升，就能对获得的数据进行更精准的识别。   从 2016 年开始，七牛云就决定要做这个产品。刚开始做鉴黄等内容审核工作的时候，有两位同事负责看涉黄视频，并且进行标注。但随着视频数量增加，不得不投入更多人力进行标注。这时候我们发现最大的痛点就是大量重复劳动。   图 5

从图 5 可以看出，机器学习的过程始于用户行为（左下角）。有用户产生的数据后，就要对数据做抽样、整理、标注等工作，完成标注以后就产生了机器学习样本，这是一个很缓慢的过程。首先是因为有时候会找不到想要的数据。其次，即使找到了之后，**也有很多人工标注工作，还需要写大量脚本，用于提取数据。**所以很多人说「人工智能首先耗的是人工」。   有了样本之后，就可以进行训练集群训练，并产生一个模型。然后是对模型在大样本下的准确性、易用性进行测试，如果满足需求，就能把它用在深度学习平台。整个流程走通之后，用户就能轻松知道他的内容是否涉黄。   在整个流程中，工作量最大的是图 5 黄色部分中的「数据整理」，它会花费很多时间。   图 6

  于是，基于七牛云，我们自己搭建了一套深度学习平台框架（图 6），最上面的一行就是用来解决这些耗时的问题。主要包括：  

每日撰写迭代训练脚本 
新数据的增删和管理 
增量学习和迭代学习 
搭建半监督打标系统 
模型的比较和融合    用了这套架构，七牛云弹性深度学习平台能大量减少标注人员的工作，短期内提升模型的能力。   3.大数据富媒体知识库（LEGO） **第三个子系统是智能大数据富媒体知识库（LEGO），用于富媒体数据的结构化解构。**智能富媒体知识库将想要学习的内容进行结构化解构，从而帮助深度学习平台更高效地学习。在整个人工智能环节中，数据是最重要的单元，因此智能富媒体知识库就成了产品体系中非常重要的一环。

  2017 年底，我们意识到仅学习数据是不够的。由于这些数据不成体系，会造成高企的维护成本，于是我们搭建了大数据富媒体知识库体系。主要分为三个模块（图 7）：  

视频结构化模块，我们把视频结构化、组件化，把 OS 层要素和分割定位工作全部做完，**把较大的图片和视频变成了随时可被提取的小组件。**我们很形象地把它叫做乐高。 
知识图谱，通过关联知识图谱中的政治人物，我们能快速将对应的人物导进视频中。
海量检索的大数据检索系统，与传统主要针对文本内容的检索系统不同，我们的产品涉及人物特征、人脸特征、图像特征、视频特征，而特征上会有更复杂的系统结构。所以系统不仅支持普通的全文检索，还可以在富媒体数据，包括视觉特征基础上能够做检索。

  图 8 是通过乐高引擎做的广电行业 Demo。通过乐高平台将库中的大量视频进行解构，变成多个小乐高，再进行应用统计：**视频包含多少人脸、多少政治人物、人物出现时间段，并以时间轴的形式呈现。**除此之外还能在视频库中进行搜索，只要与该人物有关，就能显示他出现的时间段。  

  图 9

  计算机视觉诞生之后，通过整合无处不在的摄像头，能形成一个信息量最完整的传感器。通过摄像头的视觉算法，汇总这些信息，就能帮助城市运营中心在公共治安、环境改善等方面发挥十分积极的作用。社会因此能更高效地运营，实现万物互联状态。   图 10 列举了七牛云帮助解决的一部分社会问题：   图 10

  1.内容审核 摄像头每天都在产生海量的视频。通过机器认知，我们能判断这些内容是否合法，是否适合传播。   图 11

  在互联网领域做了鉴黄鉴暴之后，我们发现这不仅是互联网公司的责任。政府、广电与互联网都需要参与进来，**因为广电、网信办等政府监管机构也需要人工智能辅助审查违规内容。**所以在我们开发的过程中，渐渐能判断信息是否有效、是否良好、是否能在整个传播环节中更安全、有效地传递，避免不良信息对社会的伤害。   七牛云通过不断迭代升级视频模型解决了很多问题。例如，由于暴恐场面出现低，所以相应的鉴别就非常难，一百万视频中真正涉及暴恐的视频可能就十几个。但为了不遗漏任何一个涉暴内容，识别精度需要达到 99.999% 以上。   2.城市之眼智能监控 公安机关在路边设置了非常多的摄像头，有了机器认知之后就能跟踪不同的数据，让盗窃和各种刑事案件更快侦破，这对社会治安乃至国家安全都很有帮助。    图 12

  对于城市相关服务支撑，我们今天更多回到了行业中。以前我们认为传统安防或者是交警等应用场景会更多，但现在整个城市都需要更智能化地运转。七牛云之前做的特种车辆治理、人流密度管控等任务，对社会的治安包括都大有好处。当然这个过程中最关键的几个视觉的要素还是「人、物、场景」，其次是用到检测的识别，包括要在海量视频中检索，并且把视频当中的行为做一些分析。   图 13

  图 13 是上海特种车辆治理的大体框图，包含危化车等车辆的实时监控和管控。   值得一提的是，城市之眼系统是正是基于 AI Video OS 。其迭代过程包含整套数据运营体系：数据产生、数据认知、数据学习，最终把学习之后更精细的视频认知能力叠加上去。学习发布完之后，把分析生成好的新模型，再更新到视频分析模型和检测模型当中。随后，将视频结构化的数据库整体更新，得出更多的数据比对，包括碰撞的结果。这些结果输出后可以进行告警，或者用做第三方数据的接入，进行大数据分析。   图 14

  3.媒资智能 用在视频图片分类中就能提升平台视频图片的展示，并且根据用户喜好进行分发，让他看到他想看的内容。   比如可以把一段篮球视频结构化分割成投篮、传球等事件。也可以制作知识图谱，有了所有球员的知识图谱之后，就能快速链接到某球员 A 的所有信息。甚至可以快速知道球员 A 是否与球员 B 做过队友，是否加入了某个俱乐部。通过视频结构化，我们能快速获取各种信息，并在此基础上对海量视频进行分类、审查、再生产、智能检索以及个性化推荐。   4.创新计划   七牛云人工智能实验室根据客户各种各样的定制化的需求：识别生产线的问题、识别快递订单等识别任务，七牛云有一套独立的创新定制化体系满足需求，以更好的服务客户。   图 15

  普通的计算机视觉公司目前只是享受到了人工智能的技术红利。这些公司通过传统的软件、硬件形式将最新的技术服务于客户。而七牛云作为一家行业领先的云计算公司，与他们最大的不同点，就是我们拥有与 AI 密切相关的一整套产品，比如云存储、直播、音视频等。这些产品一旦结合 AI 的能力就能够形成一整套 AI 服务体系。七牛云正是通过这一整套 AI 服务体系来服务客户。   每天有很多生视觉内容输入到七牛云智能多媒体 API，然后 API 会结构化地进入富媒体知识库，知识库将学习资料导入深度学习平台进行学习，学习完成后就有更多高性能的模型包赋能到 API 上，给客户提供更优质、更强大的服务。   图 16

  **可自我进化的视频 AI 生态系统就是七牛云 AI 创新服务体系最核心的要点。**由于计算机视觉的计算量是非常惊人的，因此即使现在有如此多的 GPU 集群，有非常大的超算中心，其实解决的还只是几个比较共性的问题。   目前还有非常多亟待我们创新、理解的视觉问题。我们也希望通过七牛云可进化的视频 AI 闭环生态体系去构建，去解决更多创新的要求。

本文作者

以上就是本篇文章【视频的诞生与变迁：人工智能引领视频创新】的全部内容了，欢迎阅览！文章地址：http://gzhdwind.xhstdz.com/quote/3312.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://gzhdwind.xhstdz.com/mobile/ , 查看更多