齐瑞泽
AI安全 · 大模型内容安全 · 产品研究方向
南京农业大学(211)· 农学本科 · 2022—2026
195****1021 · [qirz980@gmail.com]
每周到岗5天 · 意向:LLM内容安全 / AI安全策略产品
技能与工具
>> LLM_TOOLS
熟练使用 Claude、GPT、DeepSeek 等模型;具备系统性 Prompt 工程经验,可独立设计多轮对抗测试集。
>> PYTHON
以 AI 辅助编程方式完成完整研究 pipeline:API 调用 · 自动化测试 · 数据分析 · 可视化 · HTML 前端封装。
>> AI_SECURITY
红队测试方法论 · 对齐理论(元认知 / 操作性幻觉 / 纵深防御)· 持续跟进 Anthropic、Google 前沿安全框架及中国 AI 监管动态。
>> OTHER_TOOLS
PowerPoint · Excel · 视频剪辑 · 墨刀原型;C1驾照;普通话二乙。
大语言模型操作性边界的语义越权与元认知对齐
独立研究 · 2025 · 红队实证 · 7款模型 · 4攻击向量 · 140轮次 · Python全流程自动化
自主设计「低约束角色扮演」红队框架,以银行客服场景为语义载体,评估 Claude、GPT-5、Gemini、DeepSeek 等 7 款主流模型在越权指令压力下的内容安全合规边界。
构建 4 类攻击向量(权威身份伪造、情感施压、指令走私、编码混淆),覆盖输入层多维度安全护栏压力测试;设计 5 项观测指标分别对应输入意图识别与输出内容合规两个维度,基于 140 轮次对抗数据建立可复现的量化评估方法论。
核心发现:推测「有用性过拟合」可能导致输出合规失效——高风险模型虚假执行确认率与沦陷率高度吻合(DeepSeek 两项均达 35%);Claude-Sonnet-4.6 全向量保持最高防御稳定性。
以 AI 辅助编程方式实现完整研究 pipeline:Python 自动化调用多模型 API、自动打分、数据可视化,并将研究成果封装为 HTML 交互式阅读器。
英特利普(深圳)科技有限公司
猎头助理 · Tech 部门
解读 AI coding、区块链、前端/全栈等技术方向 JD,制定精准人才搜索策略,快速建立对前沿技术岗位核心要求的判断力。
通过 LinkedIn、脉脉、Boss 等渠道寻访候选人,对 React、Node.js、云服务等技术栈进行初步评估与面谈,提高推荐成功率。
汇总候选人推荐报告,协助客户推进面试流程与录用决策,锻炼结构化信息整合与跨方沟通能力。
美团优选 校内 BD
单群最高转化率,单日拉新峰值500人
0到1搭建200人社群,覆盖全校21%
单日拉新峰值;「日签单竞赛+阶梯奖励」激励机制
校内外卖平台 创业者
首月复购率;100+ 用户问卷提炼核心痛点
单日订单峰值,覆盖80%宿舍区
基于配送数据优化路线,平均误差25→15分钟