高级数据架构师

岗位职责:

1、数据架构设计与优化

规划企业级数据架构,包括数据仓库、数据湖及实时数据处理平台的设计与实施,满足专利数据存储、检索及AI模型训练需求。例如大数据平台整体架构设计,选型并集成核心组件(如Hadoop、Spark、Flink、Kafka、OpenSearch、startrocks),支撑高并发、高可用场景;

设计分布式数据平台架构,优化数据采集、清洗、转换(ETL)流程,提升海量专利数据处理效率。优化分布式存储与计算性能(如HBase、ClickHouse、startrocks),解决资源混部、弹性扩缩容等技术难题;

2、技术选型与系统集成

评估并选型大数据技术栈(如Hadoop、Spark、Flink、Kafka等),结合AI场景需求设计数据管道和模型存储方案。

推动云计算技术与数据架构的融合,优化数据安全策略及合规性管理。

主导对MPP计算引擎,查询优化器、查询分发、节点容错机制进行优化调整;

主导关键模块的模型、数据开发代码评审与规范指定;

3、数据治理与标准化

制定数据治理框架,包括元数据管理、数据质量监控及主数据标准,确保专利数据的准确性、一致性和可追溯性。

主导数据资产盘点与生命周期管理,支持跨部门数据协作与共享;

根据业务需求进行数仓分层设计、数据模型设计、ETL作业设计;

规划数据迁移策略,确保新旧系统平滑迁移,保障线上业务不间断;

4、AI技术集成与创新

构建支持机器学习/深度学习的数据基础设施,设计高效的特征存储、模型训练与推理流程。

探索图数据库、NLP处理等技术在专利检索与分析中的应用场景。

5、跨团队协作与项目管理

协同数据科学家、AI工程师及业务团队,将技术方案转化为可落地的产品功能。

能够通过BI工具输出分析结果,对业务进行直接支持。

主导技术文档编写、Code Review及核心代码开发,确保架构设计与代码实现的一致性。

任职要求:

1、教育背景,本科及以上学历,计算机科学、信息管理、统计学等相关专业。

2、年以上大数据架构和大数据开发经验,包括规划大数据平台的技术选型、业务需求到数据体系转化、至少1个完整业务域的数仓模型设计、数仓规范设计;

3、精通主流大数据技术生态,对Flink、Spark作业的开发、计算性能优化、稳定性提升有实际经验,对HBase、startrocks、OpenSearch、kafka、nifi/seatunnl/streamsets、DolphinScheduler的使用优化及性能调优有实际经验;

4、熟悉业务驱动建模,有从业务侧应用反向进行数据盘点的能力;

5、主导构建或优化过使用MPP或Hadoop生态支持百万并发的数据查询系统;

6、有数据推动AI训练的项目经历,并在项目中承担主导者的角色;

7、熟悉XML文档数据解析、华为云对象存储的使用,熟练掌握JAVA EE、Scala、PGSQL、PLSQL开发,熟悉不同数据库之间数据类型的映射关系;

8、熟悉MPP结构下的OALP、OLTP、HATP原理及实现方式,理解MPP结构下的数据查询和高并发响应。

9、熟练使用建模工具和BI软件。

公司地点:北京丰台区汉威国际广场3区4号楼9M层11-18室。

公司简介:

职位发布者:丁先生

北京八月瓜知识产权代理有限公司

融资阶段:

公司规模:

相似职位: