岗位职责:
1.理解具身智能任务(如操作、导航、交互)的数据需求,设计并开发支持多模态数据(视觉、动作、传感器、语言等)全生命周期管理的平台功能,为具身智能模型训练与优化提供稳定的平台支撑。
2.主导平台级数据处理流水线(Pipeline)的架构设计与开发,确保其支持大规模多模态数据的自动化处理(如数据增强、格式转换、时序对齐),并集成 PyTorch、Spark 等工具链,同时负责流水线的高可用、可扩展及性能优化(如引入任务调度与监控机制)。
3.负责数据平台中传感器数据(图像、点云、关节数据等)的存储架构设计与优化,开发数据集版本管理系统,实现数据与模型版本的关联追溯,保障平台数据的一致性、可复用性及查询效率。
4.主导自动化数据标注系统的平台化开发,优化平台标注流程的自动化程度,提升标注效率与数据质量。
任职要求:
1.计算机科学、数据工程、机器人、电子工程或相关专业,2 年以上数据平台或分布式系统开发经验,硕士及以上学历优先。
2.熟练掌握 Python、C++、SQL 等编程语言,具备 Java 开发经验者优先;熟悉 Hadoop、Spark、Flink 等分布式计算框架,及 Kafka、Redis 等中间件的平台集成应用。
3.有大规模多模态数据处理平台开发项目经验,或参与过机器人 / 具身智能领域数据平台搭建者优先。
4.了解数据平台架构设计、分布式存储原理及容器化技术(如 Docker、Kubernetes),具备良好的系统设计与问题排查能力。
5.具备优秀的跨团队沟通协作能力,对数据平台支撑 AI 模型训练有深刻理解,对具身智能、机器人领域技术有浓厚兴趣。