岗位职责:
1、构建并维护多平台数据采集适配器(Shopee/Lazada/TikTok/Amazon/eBay),支持增量/全量、失败重试与幂等性。
2、设计 ETL/ELT 流程(Airflow/NiFi/Luigi),产出可回溯、版本化的训练表与 label 数据。
3、实现流批一体特征管道(Spark/Flink + Kafka),将关键特征接入在线特征存储(Feast/Tecton)并保证离线/在线一致性。
4、搭建训练数据湖(Iceberg/Hudi + Parquet),优化分区/压缩策略以加速 PyTorch/TensorFlow 数据加载。
5、建立数据质量与特征漂移监控、告警与自动化修复/回滚机制。
6、与算法工程师协作:定义数据合同(schema/SLAs)、支持实验 A/B 数据采集与指标回流。
岗位要求:
1、计算机/数据/相关专业本科及以上;3 年及以上数据开发或数据架构经验,至少 1 年支持 ML/AI 项目经验。
2、精通 Python(Pandas/Numpy)、SQL,具备性能优化能力。
3、熟悉 Spark/Flink(流批)、Kafka(或其他消息系统),有实时特征计算经验。
4、熟悉湖仓一体(Iceberg/Hudi)或云数仓(BigQuery/Snowflake),并了解 Parquet/列式存储优化。
5、熟悉特征存储(Feast/Tecton)或 MLOps(MLflow/Kubeflow)任一工具。
6、良好的沟通协作能力、强问题定位与解决能力。