岗位职责
1、参与大模型数据系统设计和研发工作,负责设计和开发分布式的网络爬虫,能独立解决实际开发过程中遇到的各类问题(如调度优化、并发、覆盖率)提升数据抓取效果和性能;
2、负责网页信息抽取技术算法的研究和开发,提升数据抓取的效率和质量;
3、构建分布式数据平台,解决海量数据(如 NLP 文本)的存储、访问和分析需求;
4、参与大模型数据平台建设与优化相关工作,建设大模型训练数据收集、处理、可视化机制;
5、与团队成员共同攻克技术难题,持续迭代项目能力输出,提高服务质量;
6、充分了解业内先进技术和前沿技术发展动态,驱动团队技术提升;
岗位基本需求
1、本科及以上学历,3年以上工作经验,具备核心业务系统、复杂业务系及大规模数据处理系统架构设计与开发经验。
2、熟练掌握Java或Python,主流中间件,具备优秀的编码能力。具有强烈的好奇心,能够发现业务中的痛点,并通过架构改进解决问题。
3、对业务、产品和技术都有浓厚的兴趣,对技术驱动业务有强烈的激情,持续学习成长,勤于思考总结,结果导向。
4、具备大规模在线系统开发经验,具有优秀的问题分析和解决能力。
5、责任心强、积极主动、有良好的沟通能力和团队合作能力。
具备以下者优先
1、熟悉 Linux 开发环境,基础扎实、编码能力强悍,对新技术有强烈的学习热情者优先;
2、熟悉ES、Scrapy、Lucene、Selenium、RPC框架等相关技术者优先;
3、熟练使用大数据处理工具,如Spark、Flink、Yarn、HDFS、Hive、HBase等Hadoop生态、ClickHouse、Doris、Ray等相关技术者优先;
4、熟悉常见反爬封禁策略,具备实战经验,承担过超大流量在线服务系统开发、上线和运维者优先;
5、承担过主流搜索相关工作,熟悉抓取系统工程、文本处理技术者优先;
6、面对复杂系统、复杂问题有化繁为简的者优先;
岗位亮点
1、紧跟AI最前沿,深度参与大语言数据系统的建设及迭代过程。
2、参与重点项目从0到1建设,解决大模型数据领域遇到的各类问题,流量大,业务复杂,挑战多,发展空间大。
3、参与到公司的战略级项目,与领域技术大拿一起交流成长;