一、计算引擎方向
职位描述:
1、参与千亿级数据处理平台的建设,构建自然语言和多模态大模型的数据分析、清洗、评测和反馈平台。
2、设计开发数据处理框架,提升数据分析、清洗人员的研发效率,提升系统性能。
3、设计开发数据评测和反馈平台,持续提高数据质量与迭代效率。
4、设计开发数据标准、流程、自动化工具,提升团队整体效率。
5、探索大数据组件、中间件在超大规模数量下AI+DATA场景的性能优化方案。
任职要求:
1、拥有计算机科学或相关领域的硕士学位。
2、具有千亿级大数据平台开发岗位3年及以上工作经验。
3、熟练掌握Hadoop/Hudi/Iceberg、Spark、Kubernetes、Elasticsearch、MongoDB等组件的使用,精通其中至少一个组件;
4、熟练掌握Python/Java/Go语言,熟悉常用数据结构及算法。
5、熟练掌握分布式、网络、操作系统领域的知识,掌握TCP/IP协议、掌握Linux系统的使用。
6、良好的沟通能力和团队合作精神。
加分项:
1、有AI数据平台建设经验。
二、存储底座方向
职位描述:
1、设计开发PB级数据存储底座建设,构建多数据中心、多存储介质高性能存储框架。
2、设计开发面向支撑AI+DATA大规模多层级智能路由缓存框架,包括对象存储、文件存储等。
3、设计开发基于数据湖、数据管理、存算分离架构的元数据管理框架。
4、设计开发数据重复检测、文件合并等存储治理框架。
5、探索AI+DATA大规模数据处理、训练场景下的性能优化方案。
任职要求:
1、拥有计算机科学或相关领域的硕士学位。
2、具有存储领域相关3年及以上工作经验。
3、熟悉主流分布式文件系统如GPFS、Lustre等,熟悉主流对象存储协议S3等,熟悉主流数据湖技术如Iceberg/Hudi等,熟悉分布式缓存系统如Alluxio/Redis等,精通其中至少一个方向。
4、熟练掌握Java/Go/C++语言,熟悉常用数据结构及算法;
5、对常见RPC框架有深入的理解和实践经验。
加分项:
1、有AI存储底座相关建设经验。
三、爬虫方向
职位描述:
1、设计开发高效、可扩展的数据爬虫框架,以收集、清洗和整合大规模网络数据。
2、研究分析网络资源,制定有效的数据抓取策略。
3、处理反爬虫策略,包括但不限于IP代理、验证码识别等。
4、提供数据结果,支持数据分析和机器学习等后续步骤。
5、关注并应用一般的Web安全实践,尊重目标网站的Robot.txt指引。
任职要求:
1、拥有计算机科学或相关领域的硕士学位。
2、精通Python等至少一种程序语言,具有使用Scrapy/BeautifulSoup等爬虫工具的经验。理解HTML,CSS,JavaScript及Web浏览器DOM结构。
3、熟悉网络爬虫技术,包括动态页面抓取、反封锁/IP代理等。
4、对大数据处理和存储有一定的了解和实践,比如Hadoop,Spark,MongoDB等。
5、具备良好的问题解决能力,能独立处理问题,并有持续学习和自我提升的动力。对数据抓取的合法性、道德性等有深厚的理解,能制定和遵循严格的数据抓取原则。