安吉智能是上汽安吉物流旗下专注智能物流板块的高新技术企业,根据客户需求提供智能解决方案系统集成,其研发的安眸智能视觉管理系统对港口、园区、仓库等物流业务场景中的核心元素“人员,货物,设备”进行精准识别并提供安全保障。在智慧物流行业前沿,安吉智能正在利用人工智能技术将海量的监控数据运用于行为识别、重点安防、区域监测等场景。面对多场景下爆发式增长的海量数据,安吉智能选择格物钛TensorBay作为安眸系统研发中的AI基础设施组件之一,保障算法团队在模型迭代中的高质量数据供给,让AI创新更高效。
安吉智能算法负责人说:“我们的目标是通过引入标准化的数据管理工具,让算法团队能够以最简单快速的方式对海量数据集进行访问与操作。很高兴TensorBay这款优秀的产品能够进入市场,不同于传统的本地文件系统管理模式,它提供了一个全新的云端数据管理解决方案,让我们看到了AI非结构化数据管理的全新未来。”
以数据为中心驱动AI创新
今年MLOps形成了一股AI开发新趋势吹进全球,随之而来的是“以模型为中心”还是“以数据为中心”的争议热度不减。几年前,机器学习社区更强调构建模型、调整超参数或选择正确架构,来提升AI模型效果。人工智能和机器学习领域国际最权威学者之一吴恩达上半年发布了最新课程《MLOps:从以模型为中心到以数据为中心的AI》,他认为“以数据为中心”的时代已然来临,人们应该以数据为中心来开发机器学习系统。
对于规模精简的算法团队而言,以数据为中心的策略相比于以模型为中心的策略更具可操作性。一个机器学习项目的生命周期会经历“定义项目-收集数据-训练模型-模型部署生产”四个阶段,从数据收集到模型部署都会持续往复迭代。数据好比AI的食物,机器学习需要定制化的数据集持续投喂到模型训练中。决定模型效果的影响因素有两个:数据和算法。现实中的数据集往往都是有噪声的,对于有噪声的数据,一种是修改算法,提出能处理噪声、有泛化能力的算法(显然难度较大);还有一种修改数据集,提升数据集的质量。用工具链和系统化的方法来提升数据质量,通过不断地喂给数据,让模型保持轻微调整,这会使模型的效果批量提升成为可能。
安吉智能正在为汽车制造、机械加工、电子电商、烟草医药、日化服装等各领域客户提供一体化智能物流解决方案,为了实现供应链过程的数字智能化创新,在算法负责人看来,通过调整数据集来实现模型快速迭代,将极大改善算法团队工作效率。
激发物流行业新动能
据安吉智能算法团队负责人介绍,2020年我国物流行业占整体GDP的14.7%,物流行业数字化转型蕴含巨大潜力,且有大量的数据价值待挖掘,这是安吉开发安眸视觉管理系统的雄心所在。
利用大数据和人工智能等前沿技术为传统行业赋能,一个不容忽视的现象是视频监控和传感器等积累的非结构化数据呈指数级增长,如果缺少与之匹配的工具链和工作流程,将会对数据驱动的AI产品开发创新带来挑战。格物钛与安吉智能合作调研了目前行业内在AI开发流程中的痛点与挑战,并梳理出数据管理上的核心诉求:
1.标注数据格式、标签的一致性:方便灵活地根据特性抽取合并数据;
2.统一的数据存储路径:方便搜索和获取从传感器端采集的全量数据,并覆盖尽可能多的场景和稀缺的数据样本;
3.数据版本可追溯性:记录并比较训练过程中数据集的版本变化,以用于误差分析和反复迭代。
安眸智能视觉管理系统基于自研深度学习AI算法引擎,形成数据采集标注、深度学习算法迭代、视频数据结构化、模型部署自化,实现AI数据闭环,为港口、园区、仓库等物流业务中的核心元素“人员、货物、设备”提供安全保障。
格物钛TensorBay是一款面向AI开发者的非结构化数据管理工具,为AI开发者和团队提供统一的数据云端托管、版本管理、在线可视化和高效协同等功能,专注解决AI开发中的数据痛点。TensorBay为安吉智能提供了如下解决方案,包括:
1、让AI开发更便捷——在云端统一托管数据
通过授权云存储的方式,TensorBay可以全面托管安吉智能的原始数据,标注数据与Meta信息。个人和团队的工作区可以轻松切换,权限管理功能也在保障数据访问安全的前提下,促进跨团队协作,实现数据访问民主化。
安吉智能团队在研发过程中需要运用同一批原数据集来进行不同的训练尝试。借助TensorBay平台,团队成员无需复制数据,就可以在不影响原有数据的情况下生成fork数据集,并根据具体的模型研发目标灵活地对数据进行调整。
2、所见即所得——数据集分布实时洞察和数据版本追溯
安吉智能算法团队在研发过程中,针对不同客户的物流监控场景,需要定制化准备数据集进行模型训练。通过TensorBay的版本管理功能,安吉智能可以快速增加新数据和迭代新版本,清晰记录和追溯历史版本过程,精细化比较各领域客户数据和标注的差异,大幅提升版本迭代效率。
通常标注数据在质检之后会被直接灌入模型用于训练,但如果标注数据存在错误(如漏标、错标等),会对模型的识别能力产生很大干扰。TensorBay的可视化组件让算法工程师既能从宏观层面了解数据集的特征分布,又能从微观层面查看单个文件和标注数据。这一功能可以让算法工程师在将数据用于训练前,直接查看标注结果,有效避免了因数据质量不达标,而产生的模型调试和标注返工损耗。
3、Model is Temporary, Pipelines are Forever
机器学习的工作流程优化和自动化,所带来的增效复利效应将会更深远影响产品进程。未来安吉智能将继续选择TensorBay与其现有AI工作流程实现更深层次的融合。包括:
1)TensorBay的Action功能,将安眸智能摄像头的数据收集、筛选、触发任务、数据上传流程自动化。改变原本由人工把数据上传至网盘再到算法团队下载的方式,实现数据自动上传至云端数据集进行管理。
2)TensorBay的AI数据管理周期还可扩展至标数据标注环节。标注结果能够直接导入云端数据管理平台进行进一步数据处理,并能实现标注结果实时修改。这让AI生产环境数据的实时反馈、追溯和优化成为可能。
更好的数据带来更优的模型性能。格物钛认为整个AI行业正在由以模型为中心的开发模式,向着以数据为中心的开发模式发展。通过优化现有的AI项目工作流程来提升数据质量,从而加速AI产品的迭代,这一创新未来将在更多智慧物流场景中产生长远价值。
安吉智能算法负责人高度评价:“格物钛的机器学习数据平台TensorBay是我们AI开发流程中的关键部分,其强大的数据管理平台能够和我们的开发流程无缝衔接,为我们的数据准备过程提供了非常便利的功能和开发者工具。与格物钛的产品团队的密切合作,帮助我们安吉智能可以更加顺利地实现安眸产品的研发目标。”