大模型数据负责人

岗位职责

1、参与大模型数据系统设计和研发工作，负责设计和开发分布式的网络爬虫，能独立解决实际开发过程中遇到的各类问题(如调度优化、并发、覆盖率）提升数据抓取效果和性能；

2、负责网页信息抽取技术算法的研究和开发，提升数据抓取的效率和质量；

3、构建分布式数据平台，解决海量数据(如 NLP 文本)的存储、访问和分析需求；

4、参与大模型数据平台建设与优化相关工作，建设大模型训练数据收集、处理、可视化机制；

5、与团队成员共同攻克技术难题，持续迭代项目能力输出，提高服务质量；

6、充分了解业内先进技术和前沿技术发展动态，驱动团队技术提升；

岗位基本需求

1、本科及以上学历，3年以上工作经验，具备核心业务系统、复杂业务系及大规模数据处理系统架构设计与开发经验。

2、熟练掌握Java或Python，主流中间件，具备优秀的编码能力。具有强烈的好奇心，能够发现业务中的痛点，并通过架构改进解决问题。

3、对业务、产品和技术都有浓厚的兴趣，对技术驱动业务有强烈的激情，持续学习成长，勤于思考总结，结果导向。

4、具备大规模在线系统开发经验，具有优秀的问题分析和解决能力。

5、责任心强、积极主动、有良好的沟通能力和团队合作能力。

具备以下者优先

1、熟悉 Linux 开发环境，基础扎实、编码能力强悍，对新技术有强烈的学习热情者优先；

2、熟悉ES、Scrapy、Lucene、Selenium、RPC框架等相关技术者优先；

3、熟练使用大数据处理工具，如Spark、Flink、Yarn、HDFS、Hive、HBase等Hadoop生态、ClickHouse、Doris、Ray等相关技术者优先；

4、熟悉常见反爬封禁策略，具备实战经验，承担过超大流量在线服务系统开发、上线和运维者优先；

5、承担过主流搜索相关工作，熟悉抓取系统工程、文本处理技术者优先；

6、面对复杂系统、复杂问题有化繁为简的者优先；

岗位亮点

1、紧跟AI最前沿，深度参与大语言数据系统的建设及迭代过程。

2、参与重点项目从0到1建设，解决大模型数据领域遇到的各类问题，流量大，业务复杂，挑战多，发展空间大。

3、参与到公司的战略级项目，与领域技术大拿一起交流成长；

公司地点：北京美团总部