大模型爬虫逆向工程师(A227197)

职位描述:

岗位职责:

1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。

2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。

3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。

4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。

5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。

6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。

职位要求:

1. 本科及以上学历,计算机科学、人工智能、网络安全等相关专业。

2. 3年以上爬虫开发及逆向工程经验,有大模型或AI相关领域的爬虫应用经验者优先。

3. 熟悉并能绕过常见的反爬技术(如动态网页加载、验证码、JS加密等)。

4. 精通Python或其他编程语言,熟悉爬虫框架(如Scrapy、Selenium、Playwright等)。

5. 熟悉大模型训练和数据处理流程,能够根据模型需求调整数据抓取策略。

6. 熟悉常见网络协议(HTTP/HTTPS)和接口抓取,能够对复杂数据进行高效提取和清洗。

7. 具备良好的分析能力和解决问题的能力,能够应对复杂的反爬挑战。

加分项:

1. 有大规模数据抓取与处理经验,尤其是针对大模型训练数据的采集和优化。

2. 熟悉数据加密与解密技术,能够破解复杂的加密算法。

3. 具备AI或大模型领域的技术背景,能够理解和支持模型数据需求。

我们提供:

1. 具有竞争力的薪资待遇与丰富的福利。

2. 与顶尖AI团队合作的机会,参与大模型应用开发与优化。

3. 灵活的工作环境与技术创新的空间。

4. 完善的职业发展和培训机会,助力技能提升和成长。

公司地点:北京海淀区小米移动互联网产业园B栋

公司简介:

小米集团成立于2010年4月,2018年7月9日在香港交易所主板挂牌上市(1810.HK),是一家以智能手机、智能硬件和IoT平台为核心的消费电子及智能制造公司。

胸怀“和用户交朋友,做用户心中最酷的公司”的愿景,小米致力于持续创新,不断追求极致的产品服务体验和公司运营效率,努力践行“始终坚持做感动人心、价格厚道的好产品,让全球每个人都能享受科技带来的美好生活”的公司使命。

小米目前是全球领先的智能手机品牌之一,同时,小米已经建立起全球领先的消费级AIoT物联网平台,截至2021年9月30日,AIoT平台已连接的IoT设备(不包括智能手机及笔记本电脑和平板)数突破4亿。集团业务已进入全球逾100个国家和地区。2021年8月,小米集团连续三年进入《财富》2021年「世界500强排行榜」 (Fortune Global 500) ,位列338名,较2020年大幅提升84位。

小米集团目前为恒生指数、恒生中国企业指数、恒生科技指数及恒生神州50指数成份股。

职位发布者:吴女士

北京小米移动软件有限公司

融资阶段:

公司规模:1000~9999人

相似职位: