开发独家影像分析AI模型与行为识别AI的Asilla股份有限公司(总部:东京都千代田区,代表董事CEO:尾上刚,以下简称「Asilla」)宣布,利用其拥有的超过700万笔监视器影像数据,开发了专门用于检测监视器影像中异常行为的独家视觉语言模型(VLM)「AsillaVision-v1-4B」。 该模型在真实环境中(如设施内跌倒、打架、使用滑板等)的异常行为识别准确率达到89%,超越了Google Gemini 3.1 Pro(84%)、Alibaba Qwen3.5-9B(64%)、NVIDIA Nemotron Nano-12B-v2-VL(61%)等主流VLM的表现。※此比较基于公司内部的评估数据集。 ## 开发背景 近年来,随着VLM(视觉语言模型)技术的迅速发展,影像分析AI的升级正加速进行。然而,由Google、OpenAI、NVIDIA等大型科技公司开发的通用VLM,其基础学习数据来自互联网上的大规模数据,缺乏对监视器影像的专业领域知识。 监视器影像通常存在于各设施的封闭网络中,几乎不会公开在互联网上。这种「监视器数据之壁」成为了通用模型在结构上的局限。 Asilla通过在全国各地设施中导入的「AI Security asilla」,自2023年起持续累积监视器影像数据(CARD)。利用截至2026年2月累计超过700万笔的独家数据,Asilla成功开发出专注于监视器影像领域的VLM。此外,在收集与使用数据时,已获得导入设施的同意并进行了匿名化处理。 ## AsillaVision-v1 的特点 ### 1. 超越大型模型的领域特化性能 尽管这是一个仅有4B(40亿)参数的轻量级模型,但在监视器影像的异常行为检测方面,展现了超越主流通用模型的领域特化性能。在真实环境的异常行为识别(如设施内的跌倒、打架、使用滑板、电扶梯上的可疑行为等)中,实现了优于其他主要VLM的准确率。 ※比较基准为设施内跌倒、打架、使用滑板的识别性能。 ※作为比较对象的模型是从2026年2月时点已公开的代表性VLM中选出。 ### 2. 边缘计算...