大数据工程师

1. ES集群架构设计与部署

- 结合当前服务器设备情况，以较低硬件和开发成本搭建和部署一套ElasticSearch，满足每日6000万数据写入/更新和毫秒级查询需求。

- 随着业务的稳定开展，逐步完善ES集群的可扩展性和高可用性，根据业务需要提升支持的每日写入/更新量（可达每日1亿量级）。

- 制定分片策略、索引生命周期管理（ILM）方案，优化冷热数据分层存储。

2. ES性能优化与运维

- 监控集群健康状态，解决节点负载不均、写入瓶颈、慢查询等问题。

- 优化JVM配置、索引合并策略，减少GC停顿时间，提升吞吐量。

3. 大数据生态整合

- 针对现有大数据系统中出现的性能和稳定性瓶颈，提出性能可预计、成本可控、开发周期短、业务中断风险小的改进方案，并规划和执行数据的平滑迁移。

- 协助数据采集工程师，将数据采集模块与新系统对接。

- 结合Hadoop/Spark/ES等实现离线/实时的数据交互分析。

任职要求

技术能力

- 精通大数据架构原理，熟悉MySQL等传统数据库和Hbase、ElasticSearch、TiDB、Kafka、MongoDB等大数据组件的底层原理和性能、一致性、可用性特点；

- 熟悉Linux系统调优（文件句柄、内存分配、网络参数）；

- 熟悉Java语言，熟悉Spring框架，以便理解现有系统代码并协助对接；

- 熟练使用Java或其它语言开发自动化运维工具；

- 熟练使用Kibana、Logstash、Beats等ELK生态工具；

场景经验

- 需实际部署过大数据集群，数据规模至少10TB，最好达到PB级以上，日均写入量1亿条以上，熟悉数据预分区、写入限流策略；

- 需有高可用集群的测试、部署和运维经验，并在各类实际硬件故障（服务器、网络、磁盘故障等）中得到验证；

- 具备短视频/日志/物联网等时序数据场景经验者加分；

- 有ES与向量数据库（Milvus等）结合实现AI检索经验者优先。

公司地点：上海闵行区上海冠勇信息科技有限公司上海市闵行区紫星路588号2号楼7层