职位目标
我们需要一位在多模态AI Agent领域有实战经验的专家,专注提升GUI智能体(桌面/网页自动化) 在复杂环境中的性能。您将核心优化Agent的规划推理(Planning)、任务落地(Grounding)及检索增强生成(RAG) 模块,推动任务执行成功率和泛化能力突破。
核心职责
1、RAG系统优化;
1)设计融合视觉与GUI结构化数据(UI树/HTML)的轻量化RAG方案;
2)开发高精度指令-动作匹配机制,降低大模型依赖;
3)构建动态知识库应对界面频繁变更场景;
2、Planning & Grounding 开发;
1)创建强鲁棒性分层规划框架(Hierarchical Planning),支持实时任务重规划;
2)建立指令-动作映射模型(如“上传文件” → 具体点击/输入序列);
3)采用模仿学习(IL)强化动作决策稳定性;
3、模型调优与落地
1)调优视觉语言模型(VLMs)的GUI元素识别与跨屏推理能力
2)开发数据合成策略解决训练数据稀缺问题
3)定义可量化的评估指标(任务成功率/响应延迟)并推动工程落地
任职要求
必须条件:
项目经验 > 理论背景:
1、3年以上AI模型开发经验,独立完成过2个以上端到端Agent项目;
2、精通RAG架构优化(非仅使用现成方案);
3、有Planning & Grounding模型开发履历(提供案例简述)。
工程能力优先:
1、掌握PyTorch/TensorFlow大规模训练,熟练处理GUI数据结构(DOM/可访问性树);
2、具备在有限算力(如消费级GPU)实现高效推理的优化能力。
优先条件:
1、有Selenium/Playwright等自动化框架二次开发经验;
2、通过RLHF等技术解决过GUI动作失效问题;
3、发表过Agent/Planning相关论文或开源高星项目。
团队协作
1、与工程团队协作建立轻量化测试管道(非高保真仿真);
2、主导制定GUI Agent性能评估标准;
3、指导初级成员完成模块迭代。
庭宇科技(北京庭宇科技有限公司)于2019年成立,总部位于北京,是一家专门从事边缘计算云服务的科技型企业,公司拥有自主研发的弹性融合分布式边缘计算网络及海量高质量边缘节点构建的云平台,为客户提供高性能、高可靠、高弹性、低成本的云计算、内容分发和存储服务。