数据闭环方向;行业背景:机器人、智驾、物联网、游戏优先
职位描述
1. 多模态数据接入与实时处理:
- 设计、开发与维护高效、稳定、可扩展的数据接入服务,负责摄传感器数据、机器人状态数据、任务层抽象数据等多维态异构数据的实时采集、解析与初步处理。
2. 数据管道与平台核心开发:
- 开发支持从机器人端到云/边缘数据中心的数据传输链路,并支持将训练好的模型部署反馈数据回流至数据平台。
- 设计、实现和优化大规模机器人数据的存储、传输、批处理与流处理的数据管道。
- 构建和维护核心数据平台基础设施,包括数据湖/仓、消息队列、流处理引擎、任务调度系统等
- 开发自动化工具和框架,提升数据管道的开发效率、部署速度、监控能力和运维可靠性。
- 确保数据流能无缝支持模型训练、仿真验证、在线评估等环节的数据供给与结果回流。
3. 数据平台工具链支持:
- 为下游的数据标注、数据挖掘分析、模型训练等环节提供稳定、高效的数据访问接口和服务。
- 与算法团队协作,理解其对数据流的需求(如数据格式、频率、查询要求),并提供技术支持。
任职要求
教育背景:
计算机科学、软件工程、电子信息工程或相关专业本科及以上学历。
技术技能:
- 编程语言:精通 Java/Scala 或 Python、Go。
- 数据处理与流计算:精通至少一种主流大数据处理框架(Spark, Flink)和消息队列(Kafka,Pulsar, RabbitMQ) .
- 数据存储:深入理解并具有大规模数据存储系统的开发与优化经验。
- 云平台:精通至少一种主流云平台(阿里云、AWS、Azure)的核心数据服务(如S3、Redshift. BigQuery#) .
- 跨模态元数据架构:理解多源异构数据(传感器流、环境状态、机器人动作等)设计统一的元数据模型与 Schema 注册机制,支持高效的数据发现、血缘追踪与跨模态关联查询。
- 数据管道工具:熟练掌握 ETL/ELT 编排调度工具(如 Airflow、Prefect、Talend)。
- 容器化与编排:熟练掌握 Docker,了解 Kubernetes 部署和管理。
- Linux 系统:精通 Linux 操作系统,具备良好的系统性能分析、调优和问题排查能力。
【加分项】
了解机器人操作系统 ROS/ROS2 数据通信机制者优先;了解传感器数据(点云、图像流)处理特性者优先。
【经验与能力】:
- 3年以上数据工程、后端开发或分布式系统开发经验。
- 有独立设计、开发和运维大规模、高并发、实时数据管道的成功经验。
- 深刻理解分布式系统原理,包括容错、一致性、并发控制、负载均衡等。
- 强大的性能调优和问题诊断能力,能够定位和解决分布式系统中的复杂问题。
- 具备数据质量意识,理解如何构建可靠的数据流保障机制。
- 熟悉软件工程最佳实践(版本控制Git、CI/CD、测试、文档化)。
【软技能】:
- 优秀的沟通协调能力和团队协作精神,能与跨职能团队(硬件、软件、算法)高效合作。
- 出色的分析问题和解决复杂技术难题的能力。
- 积极主动,责任心强,对系统稳定性和数据质量有高标准要求。