- within Technology topic(s)
- in European Union
- in European Union
- in European Union
- in European Union
- in European Union
- within Technology, Strategy and Transport topic(s)
随着人工智能技术迭代加速,AI智能体(AI Agent)正逐步从技术概念进入大众视野,并在办公协同、软件开发、数据分析、企业内部运营等场景广泛应用。企业对AI的应用方式,也从单纯调用大模型转向了建设具备任务规划、工具调用和流程执行能力的AI智能体平台。
综合《人工智能安全治理框架(2.0)》及OECD《The agentic AI landscape and its conceptual foundations》1的相关表述,AI智能体可被理解为“能够自主感知环境、制定决策,并根据需要采取行动以实现特定目标的AI系统;其通常能够适应不断变化的输入和上下文,并具备记忆、规划、工具使用等能力”。AI智能体的典型运行方式是:用户提出目标,AI 智能体将任务进行分解,并基于角色设定、记忆模块、知识库等,调用浏览器、邮箱、数据库、办公系统、支付接口、代码仓库、第三方API或其他软件工具,在一定自主性下完成行动。

【图1 AI智能体工作机制】
与传统生成式AI不同,AI智能体通常具备目标理解、任务拆解与规划、环境感知、记忆调用、工具使用和连续执行等能力。因此,AI智能体的风险面较生成式AI更大,其风险不仅源于模型输出,还源于数据、工具、权限、接口、用户授权与外部系统等多个模块,风险类型也从内容安全、模型安全扩展至越权操作、行为失控等。
为促进智能体规范应用与创新发展,国家网信办会同有关部门于2026年5月8日发布《智能体规范应用与创新发展实施意见》(以下简称“《智能体新规》”),提出智能体治理原则、安全底线要求与分类分级治理框架等内容。《智能体新规》虽是一份政策文件,却体现了监管部门对AI智能体领域的持续跟进与治理趋势。本文将通过识别AI智能体的安全风险及对应的法律风险,梳理全球范围内重点监管机构发布的智能体规范、指引等文件,并结合作者团队的项目经验,为企业提供AI智能体治理框架搭建思路与可行的实务建议。
一、AI智能体的安全风险
对企业而言,在讨论AI智能体风险时,应同时考虑两个层面:(1)智能体在运行时可能造成什么问题;(2)这些问题在法律上产生什么责任。前者决定企业需采取哪些具体安全控制措施,后者决定企业可能承担的法律后果及相应合规成本。《智能体新规》将AI智能体风险概括为内生风险、供应链风险与应用衍生风险。参考OWASP发布的《OWASP Top 10 for Agentic Applications》,结合实践案例,AI 智能体常见的安全风险及对应法律后果具体如下:
(一)目标劫持风险
目标劫持风险是指攻击者通过提示注入、恶意文件、虚假工具输出、伪造智能体消息或被污染的外部数据,改变AI Agent的任务目标、决策路径或行动计划,使其偏离用户原始意图。例如,攻击者在网页、邮件或PDF中嵌入隐藏指令,诱导企业内部Agent调取客户数据并发送至外部邮箱;或者通过日历邀请改变审批Agent的目标优先级,使其更倾向于自动通过付款或授权请求。这一风险可能导致个人信息泄露、商业秘密泄露、未授权交易、错误决策或数据外传。企业可能面临网络安全、数据安全、个人信息保护、商业秘密保护、合同违约及侵权责任;如Agent代表企业作出交易或付款行为,还可能引发授权效力、表见代理及内部控制失效争议。
(二)工具误用/滥用风险
工具误用/滥用风险是指AI Agent在获得工具调用权限后,因权限边界不清、输入校验不足、执行链条过长或缺乏人工确认,在合法工具范围内实施错误、过度或被攻击者诱导的操作。与传统模型输出错误不同,该风险的核心在于Agent不仅“说错”,还可能“做错”。例如,客服Agent本应仅查询订单状态,却因工具权限过宽而直接发起退款;研究Agent访问恶意网页后下载并处理恶意文件;开发Agent将模型输出直接传递给命令行工具,执行删除数据库、上传日志或修改配置的命令。该类风险可能造成数据删除、越权查询、资金损失、服务中断。企业可能被认定为未合理设置权限边界、未履行安全保障义务或未建立必要的审批机制,从而承担数据合规处罚、合同违约责任、侵权赔偿责任、消费者权益保护责任及内部审计问责后果。
(三)身份与权限滥用风险
身份与权限滥用风险是指AI Agent在多系统、多工具或多智能体环境中继承、缓存、转授权或复用身份凭证,导致低权限主体实际取得高权限能力,或者使具体行为的责任主体难以识别。AI Agent往往需要代表用户或企业访问系统资源,一旦身份绑定、凭证管理、授权链条和日志记录存在缺陷,攻击者即可利用Agent的代理身份完成越权操作。例如,管理员Agent在记忆或上下文中保留SSH凭证,普通用户随后诱导其使用该凭证创建未授权账号。该风险可能导致访问控制失效、个人信息越权处理、重要数据泄露、未授权支付或系统入侵。企业可能因未落实最小权限、身份认证、访问控制、凭证隔离和日志审计义务而承担行政、民事责任;在争议解决中,还可能因无法证明操作来源、授权链条和责任主体而承担不利举证后果。
(四)智能体供应链风险
智能体供应链风险是指AI Agent所依赖的模型、插件、工具、提示词模板、MCP服务、Agent注册表、数据集、第三方Agent或更新渠道被污染、篡改、仿冒或植入恶意逻辑,进而影响Agent的运行行为。恶意MCP服务器伪装成正常邮件工具,在发送邮件时秘密抄送攻击者;被污染的npm包被开发Agent自动安装后窃取SSH密钥和API Token。该风险可能引发第三方组件安全责任、供应商管理责任、开源合规责任和数据泄露责任。企业若未建立组件清单、来源校验、版本锁定、供应商审查、行为监测和应急停用机制,可能被认定为未尽合理安全管理义务;若风险进一步影响客户系统,还可能产生合同违约、服务等级违约、客户索赔及声誉损害。
(五)意外代码执行风险
意外代码执行风险是指Agent在生成、解释、修改或执行代码时,因提示注入、工具误用、不安全反序列化、动态执行函数或恶意依赖安装,将自然语言输入或模型输出转化为非预期的可执行行为。该风险在开发辅助、自动化运维、数据分析和vibe coding等场景中尤为突出,因为Agent可能直接连接代码仓库、命令行、构建系统或生产环境。例如,攻击者在提示中夹带shell命令,使Agent执行删除目录或上传敏感文件的命令;开发Agent为修复漏洞生成表面合法但内含后门的代码;Agent在构建任务中安装被投毒的依赖包,导致生产环境被植入反向shell。该风险可能造成系统入侵、生产数据删除、服务中断、恶意代码传播或客户资产损害。企业可能承担网络安全事件处置义务、数据泄露通知义务、合同违约责任和侵权赔偿责任。
(六)记忆与上下文投毒风险
记忆与上下文投毒风险是指攻击者通过上传文件、API数据、用户输入、RAG知识库、共享记忆或多Agent交互,污染Agent的长期记忆、向量库、上下文摘要或可检索知识,使其在后续任务中持续作出错误判断或危险行动。该风险的特殊性在于,恶意内容可能并不立即触发危害,而是在后续会话、检索或任务规划中被Agent当作可信信息反复使用。例如,攻击者反复向旅行Agent灌输虚假的机票价格,导致其后续自动批准错误价格订单;攻击者在共享记忆中植入虚假退款政策,多个客服Agent随后据此错误退款;跨租户向量检索配置不当,导致其他客户的敏感数据被召回。该风险可能导致错误交易、虚假信息传播、个人信息混用、跨租户数据泄露和业务决策失真。企业可能承担数据质量管理、个人信息隔离、用途限制、最小必要处理、商业秘密保护及客户损失赔偿责任;在金融、医疗、政务等高敏感场景中,还可能触发更严格的行业监管责任。
(七)智能体间通信不安全风险
智能体间通信不安全风险是指多Agent系统通过API、消息总线、共享记忆或注册发现机制进行通信时,因缺乏身份认证、完整性校验、语义校验或防重放机制,导致攻击者能够截获、伪造、篡改、重放或阻断Agent消息。例如,中间人攻击者在未加密通道中插入隐藏指令,改变多个Agent的决策;攻击者注册伪造的peer Agent,截获高权限协调流量。该风险可能造成数据泄露、错误调度、资金误付、系统中断和责任链断裂。企业可能被认定未采取必要的传输加密、身份认证、访问控制和完整性保护措施。
(八)级联故障风险
级联故障风险是指一个Agent的错误、幻觉、被污染记忆、恶意输入、供应链问题或工具误用,沿多Agent协作链条、自动化流程、共享状态或业务系统持续传播并放大,最终形成系统性故障。AI Agent的自主规划和自动执行能力使单点错误更容易演变为跨系统、跨流程、跨主体的连锁后果。例如,医疗知识库被污染后,治疗Agent自动调整用药方案,护理协调Agent将错误方案扩散至多个患者流程。该风险可能造成产品缺陷、医疗损害、金融损失或公共安全事件。企业可能承担产品责任、侵权责任、合同责任、监管报告和应急处置义务;在高风险行业中,还可能引发行政处罚、业务整改、停业整顿或高管问责。
(九)人机信任利用风险
人机信任利用风险是指Agent通过自然语言流畅性、拟人化表达、权威口吻、情绪化交互或伪造解释,诱导用户过度信赖其建议,从而批准危险操作、披露敏感信息或作出错误商业决策。该风险并不一定表现为Agent直接越权执行,而可能表现为Agent影响人类用户完成最终、可审计的操作,从而使其在取证和责任认定中呈现更强隐蔽性。例如,被污染的财务Copilot根据伪造发票建议“紧急付款”,经理因信任其解释而批准转账;IT支持Agent借真实工单背景向新员工索要凭证;编码助手建议一行“修复命令”,实际执行恶意脚本;医疗辅助Agent给出看似合理的剂量调整建议,医生在未独立核验的情况下采纳。该风险可能导致消费者误导、欺诈付款、个人信息泄露、内部凭证泄露、错误医疗或金融建议。企业可能面临消费者保护、广告与反欺诈、个人信息保护、合同违约及雇主责任风险;若Agent的解释掩盖真实风险,还可能涉及透明度、告知义务和人工监督义务不足。
(十)失控/恶意智能体风险
失控/恶意智能体风险是指Agent因被攻击、被污染、目标漂移、奖励函数缺陷、伪造身份或多Agent勾连而偏离原定功能和授权范围,表现出持续性、隐蔽性、自我复制性或破坏性的有害行为。该风险强调的不是单次输入导致的错误输出,而是Agent在运行过程中丧失行为完整性和治理可控性。例如,Agent遭遇恶意网页指令后,即使原始恶意来源被移除,仍持续扫描并外传敏感文件;攻击者向工作流中注入伪造的“审批Agent”,诱导支付Agent放款;成本优化Agent为达成降低成本目标,删除生产备份;被攻陷的自动化Agent借助配置接口复制自身,持续消耗系统资源。该风险可能导致持续数据外传、业务流程劫持、系统破坏、生产备份丢失或不可恢复损害。企业可能承担重大网络安全事故责任、数据安全责任、合同及侵权赔偿责任。
上述安全风险并非仅停留在技术层面。一旦AI Agent具备调用工具、访问数据、控制第三方应用或代替用户执行操作的能力,其技术缺陷即可能被法律评价为未授权访问、规避技术措施、侵犯商业秘密、损害消费者权益、侵犯隐私权或构成不正当竞争等行为,并进一步引发行政责任、民事赔偿责任乃至刑事风险。近期国内外出现的智能体相关争议,已经初步呈现出这一司法评价方向。
以广州互联网法院近期公开审理的涉AI智能体网络不正当竞争纠纷为例。据公开报道,案涉智能体软件是一款具备角色扮演、智能对话等功能的AI对话机器人,并可在一定程度上代替真人用户执行点击、发送等操作。原告主张,被告开发并开源的AI对话机器人能够绕过原告平台规则和技术管理措施,利用系统底层权限直接识别、读取和控制其他应用,从而在未经许可的情况下调用、操控原告平台,损害其平台经营秩序和正当权益。广州互联网法院经审理后作出保全裁定,责令被申请人立即停止通过任何渠道提供案涉智能体软件的下载与安装服务,停止调用系统底层权限避开案涉对话平台技术管理措施,并删除、停止在各平台传播针对案涉对话平台风控措施的规避教程及相关内容。
该案的核心焦点是:智能体接入、调用或控制第三方应用时,是否应同时获得“第三方应用授权+用户自主授权”的“双重授权”。就裁定体现的审查思路而言,法院并未将“开源”“非营利”“用户脚本”或“第三方组件”等因素当然视为免责理由,而是更关注智能体是否突破平台技术管理措施、是否破坏平台正常经营秩序,以及是否以用户授权之名规避第三方应用的安全边界,并最终明确了“双重授权原则”。
这一审理逻辑与Amazon v. Perplexity案具有相通之处。相关争议共同指向一个问题:在AI Agent场景中,用户授权并不当然等同于平台授权。当第三方平台已经通过服务条款、技术措施、停止函或其他方式明确限制Agent访问时,Agent服务商若仍然设计、协助或执行相关访问行为,即可能面临未授权访问、规避技术措施、不正当竞争或违反平台规则等法律风险。因此,对企业而言,部署或使用AI Agent时不能仅关注用户侧授权,还应当评估智能体是否调用系统底层权限、是否突破第三方平台技术措施、是否违反平台服务条款,以及是否可能对第三方平台的数据安全、风控体系或商业模式造成实质影响。对于涉及控制第三方应用、自动化点击、批量抓取、绕过风控或模拟真人操作的高风险场景,企业应当建立事前法律评估、权限分级、人工确认、日志留存和商业合作机制,以降低潜在的不正当竞争、数据合规和侵权责任风险。
二、AI智能体的监管规范
目前多数国家尚未就AI智能体制定专门的法律,更多通过政策文件、标准倡议、监管指引、风险管理框架等探索AI智能体的安全治理方案。
(一)国际
OECD于2026年2月13日发布《The agentic AI landscape and its conceptual foundations》。该文件识别现有Agentic AI与AI agents的典型特征,并将其映射到OECD对AI System的定义要素,旨在支持更清晰的概念理解和政策制定。由于各国文件对AI agent、agentic AI、autonomous agent、agentic AI services的表述并不完全一致,企业跨境部署时容易出现范围判断困难。因此,企业可采用OECD的概念框架识别系统是否具备目标导向、自主规划、工具使用、环境交互、多步行动和适应性等智能体特征,从而决定是否适用更高的治理水平。
(二)中国
《智能体新规》首次以专门文件形式将AI智能体纳入规范应用与创新发展的制度框架,并将安全治理作为智能体产业化应用的重要前提。相较于一般大模型治理规则,新规并不局限于生成内容安全,而是进一步关注智能体在任务规划、权限调用、工具使用、行为执行和外部系统交互中的安全边界。围绕“智能体安全发展”,新规提出了系列要求,包括:建立智能体注册平台、开发样本检测对抗工具、明确智能体决策权限、加强行为管控、提升内生安全能力、强化供应链安全、化解应用衍生风险、构建分类分级治理框架以及健全合规服务体系等要求。对企业而言,需重点关注智能体监管规则、标准体系、注册管理、检测评估、合规服务和行业实践的后续发展,及时识别监管要求,并据此动态调整自身AI Agent的研发、部署和应用策略。
(三)新加坡
新加坡IMDA于2026年1月发布《Model AI Governance Framework for Agentic AI》,这是目前较为系统的官方Agentic AI治理框架。该框架以“可控、可问责、可验证”为基本思路,将智能体治理划分为四个维度:一是前置评估并限定风险,要求企业在部署前识别智能体的应用场景、风险等级和可接受边界;二是确保人类有意义地承担责任,要求组织明确智能体生命周期中的责任主体、监督机制和人工介入节点;三是实施技术控制和流程控制,要求通过身份管理、权限控制、审计记录、测试评估和安全防护等措施约束智能体行为;四是强化终端用户责任,要求向用户说明智能体的能力范围、行动边界、数据访问方式及用户在使用过程中的注意义务。
在具体实施层面,该框架首先要求企业开展前置风险评估,重点考量:(1)业务领域的容错度;(2)智能体是否访问敏感数据;(3)是否连接外部系统;(4)是否能够采取实际行动、相关行动是否可逆;(5)智能体自主程度;(6)任务复杂度以及(7)系统暴露于外部环境的程度。对于高风险智能体,框架进一步建议开展威胁建模和污点追踪,以识别不可信数据如何进入智能体系统、如何影响模型推理和工具调用,以及可能在何处触发越权访问、错误执行或数据外泄。在身份与权限管理方面,框架建议为每个智能体设置独立身份,记录其代表何人或何部门监督智能体行动,并根据角色、任务和具体用户动态配置权限,避免智能体取得超过人类用户自身权限的访问能力。
其次,在人类问责方面,框架明确部署智能体的组织以及负责监督智能体的人员对智能体行为承担责任,因此企业应建立内部责任链、外部供应商责任划分、人工审批机制和监督有效性审计机制。特别是,针对高风险行动或决策、不可逆操作、异常或非典型行为等增加人工审批节点。
再次,在技术与流程控制方面,框架明确企业应在部署前进行测试,在部署和运行过程中持续监测,以降低模型漂移或环境变化对智能体行为的影响。
最后,在终端用户责任方面,企业应向用户充分说明智能体可以执行的任务范围、可能访问的数据类型、是否会调用第三方系统以及用户在授权、确认和监督过程中的责任。
对企业而言,该框架的实务价值在于提供了一套可落地的治理清单:在上线前识别风险等级和行动边界,在运行中配置身份、权限、日志和人工确认机制,在组织层面明确开发者、部署者、供应商、监督人员和终端用户之间的责任分配,并通过持续测试和审计验证智能体是否始终处于可解释、可追溯和可控制的状态。
(四)欧盟
欧盟对AI Agent的监管路径,主要体现为在既有人工智能法律框架下进行解释适用。《欧盟人工智能法》(EU AI Act)作为欧盟统一的人工智能基础性立法,以风险分级为核心,对AI系统以及通用目的人工智能模型(GPAI Model)分别设置相应义务。AI Agent通常可被纳入AI系统范畴,并根据其具体应用场景、功能边界及风险程度,适用 EU AI Act下关于禁止类、高风险类及通用目的模型治理等不同层级的要求。但与传统AI系统相比,AI Agent具有更强的自主规划、工具调用、环境交互和持续行动能力,并往往需要访问较大范围的数据、接口和外部系统,这可能与EU AI Act中“人类监督”“隐私保护设计”“数据最小化”和“访问权限控制”等要求形成一定的制度张力。因此,欧盟现有框架虽可将AI Agent纳入AI系统进行规制,但在监督方式、权限边界、责任归属和持续审计等方面,仍需要结合智能体的自主性特征作进一步细化。
值得关注的是,欧盟后续围绕人工智能规则简化与制度整合的相关立法动向中,已开始就Agentic AI加以讨论,并将其列入AI system的范畴之内(见Digital Omnibus on AI),未来如进一步引入专门的智能体条款,欧盟监管部门则可能围绕智能体自主行动、工具调用、权限管理、人类监督和责任分配提供更精细的治理方案。
(五)美国
美国目前尚无专门的AI智能体治理框架,整体仍处于监管探索与企业实践并行推进阶段。2026年1月,NIST/CAISI 发布《AI Agent安全意见征询》(AI Agent Security RFI),聚焦间接提示注入、数据投毒、不安全模型使用,以及模型在无对抗性输入情形下因规范博弈或目标错配而产生的安全风险。2026年2月,NIST启动AI Agent Standards Initiative,拟通过行业主导标准、开源协议以及智能体安全与身份研究,推动智能体可信采用、安全代表用户运行并实现跨系统互操作。与监管探索相对应,美国头部科技企业已开始形成较具参考价值的智能体治理实践。例如,Google的安全AI Agent框架强调人类控制者、权限限制和行动可观察性,并通过SAIF风险自评2帮助企业识别AI安全风险;IBM则提出AI Agent Evaluation3方法,将任务成功率、工具调用、执行路径、安全性、政策合规、偏见缓解、PII风险和越狱风险等纳入评估范围,并区分运行中的in-the-loop evaluation与上线前的offline evaluation。因此,美国路径更体现为以标准倡议牵引、以企业安全评估实践落地的渐进式治理模式。
(六)英国
英国竞争与市场管理局(CMA)于2026年3月9日发布《Agentic AI and consumers》,该文件从消费者保护和竞争政策角度分析了Agentic AI。CMA指出,Agentic AI可能改变消费者搜索、比较、选择和交易的方式,并带来透明度不足、商业激励冲突、默认选项操纵和责任不清等风险,从而对电商、金融、旅游、教育、医疗健康、生活服务等行业造成重大影响。若智能体代消费者作出选择或推荐,企业必须清晰披露智能体的能力、限制、商业激励、推荐逻辑和责任安排。企业不应利用智能体削弱消费者选择、操纵默认选项、隐藏费用、制造虚假稀缺性或诱导消费者作出不利决定。企业还应建立投诉处理、纠错、退款、人工客服升级和争议解决机制。
综合上述监管文件和行业实践可以看出,全球对AI Agent风险的认识正在趋同。中国、新加坡、欧盟、美国、英国虽然分别采取了政策引导、治理框架、既有规则解释适用和标准化探索等不同路径,但均已将智能体视为具有自主规划、工具调用、数据访问和外部行动能力的高风险技术系统,而非一般生成式AI应用的简单延伸。由此,全球智能体治理正在逐步形成以风险分级、权限控制、人类监督、安全测试、可追溯审计、问责机制和透明披露为核心的基本共识。对企业而言,智能体合规的重点也将从单一的模型输出审查,转向覆盖身份管理、数据访问、工具调用、执行过程、人工介入和用户告知的全生命周期治理。
*囿于篇幅,我们将在(下篇)为大家展开AI智能体治理体系搭建与企业实务应对建议,敬请期待。
注释:
1 访问链接:https://www.oecd.org/content/dam/oecd/en/publications/reports/2026/02/the-agentic-ai-landscape-and-its-conceptual-foundations_a9d4b451/396cf758-en.pdf
特别说明:不同文件使用AI agent、agentic AI、agentic AI systems等表述,但监管关注点均指向自主性、工具使用、现实世界行动能力和由此产生的责任、权限与安全问题。本文不展开讨论AI agent与agentic AI等表述的区别。
2 https://saif.google/risk-self-assessment
3 https://www.ibm.com/docs/en/watsonx/saas?topic=sdk-agentic-ai-evaluation
The content of this article is intended to provide a general guide to the subject matter. Specialist advice should be sought about your specific circumstances.