中央消息 (中央社台北24日电)中国人工智能(AI)新创公司DeepSeek微信公众号24日宣布,全新系列模型DeepSeek-V4的预览版本正式上线并同步开源,宣称V4拥有百万字超长上下文,在Agent能力、世界知识与推理性能均实现国内与开源领域的领先。 DeepSeek官方表示,V4模型分为Pro与Flash两个版本,DeepSeek-V4-Flash是更快捷高效的经济之选。 DeepSeek官方指出,V4开创了一种全新的注意力机制,在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),实现全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。「从现在开始,1M(100万)上下文将是DeepSeek所有官方服务的标配」。 DeepSeek官方还称,DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。 这是DeepSeek在2024年底发布V3模型后,时隔一年多再推出V4模型。 华为微信公众号24日表示,基于升腾950人工智能芯片的升腾超级节点(Ascend supernode),将全面支持DeepSeek的V4版本。 DeepSeek-V4预览版发布前一天,美国政府在一份备忘录中,指控中国以工业规模窃取美国AI实验室的知识产权。 路透社引述白宫科技政策办公室(OSTP)主任克拉茨欧斯(Michael Kratsios)在备忘录中写道:「美国政府掌握的消息显示,主要位于中国的外国实体,正在蓄意从事工业规模的行动,蒸馏(distil)美国的前沿AI系统。」 「蒸馏」指的是利用较大型AI模型的输出数据,来训练较小型的AI模型,这个方法有助于在训练强大AI新工具时降低成本。 今年2月美国AI公司Anthropic表示,DeepSeek、月之暗面(Moonshot AI)和MiniMax非法截取其聊天机器人Claude的技术能力,直指这是工业规模的知识产权窃取。(编辑:陈铠妤/杨升儒)1150424 选择与事实站在一起,您的每一份赞助,都是守护新闻自由的力量 下载中央社「一手新闻」APP,即时掌握最新消息 本网站之文本、图片及影音,非经授权,不得转载、公开播送或公开传输及利用。