职位描述
1.开发高稳定性的ETL数据管道,处理科研文献数据清晰。
2.设计数据清洗规则,解决科学数据特有问题(如非标准命名、单位统一、三维坐标校验)。
3.维护数据血缘追踪系统,确保从原始数据到AI训练集的全流程可追溯。
4.优化现有数据任务调度系统,提升日均百万级数据处理任务的执行效率。
5.编写技术文档,推动数据标准化规范在跨学科团队中的落地。
职位要求
1.3年以上Java开发经验,熟练掌握Spring生态及新技术栈,如Spring Ai、Langchain4j等,具备复杂业务逻辑抽象能力。
2.精通ETL开发全流程,至少主导过两个以上中型数据管道项目。
3.熟练使用SQL进行复杂查询优化,熟悉PostgreSQL/MySQL等数据库的索引设计与分区策略。
4.熟悉Elasticsearch技术栈。
加分项:
1.具备 Vue 相关技术基础和使用经验。
2.有生物信息学、计算化学等领域数据处理经验(如PDB/SDF文件解析)。
3.了解数据可视化工具(如ELK Stack)或自动化部署工具(Docker/K8S)。
4.参与过开源数据工具贡献,或持续关注DataOps技术演进趋势。"