职责:
1.设计、实现与维护高效的数据抓取系统
2.维护Elasticsearch、MongoDB、Redis、MySQL、Clickhouse以及图数据库(Neo4j、ArangoDB、Nebula或其他)的使用
3.使用Python编写高效、可扩展的数据处理脚本
4.在Linux环境下进行日常开发和系统维护
5.进行数据标准化和清洗,确保数据的准确性和一致性
6.参与知识图谱的构建和维护
7.参与向量数据库的搭建、维护与提供向量查询
8.应用GPT和大语言模型(LLM)进行数据处理和分析
任职要求:
1.3-5年以上相关工作经验丰富的爬虫技术经验,能熟练应用绕过Cloudflare、指纹浏览器、代理等技术
2.深入理解并熟练使用Elasticsearch、MongoDB、Redis、MySQL及至少一种图数据库(Neo4j、ArangoDB、Nebula或其他)
3.熟练掌握Python编程语言和Linux操作系统
4.丰富的数据处理和数据标准化经验
5.具备知识图谱构建经验者优先
6.有实际大规模向量数据库搭建与查询经验者优先
7.熟悉并能应用GPT和大语言模型(LLM)进行数据处理和分析
8.英语沟通能力良好者优先