职位描述:
1.负责WEB、APP、小程序等大规模文本数据抓取,爬虫核心算法优化,提升爬虫效率和质量;
2.根据业务需求,实现文本、图片、音视频等数据的采集、清洗、存储等工作;
3.持续关注抓取服务的监控和报警,高效响应及修复线上问题,保证爬虫系统整体稳定;
任职要求:
1.熟悉python语言,具备良好的代码编写风格;
2.熟悉常用抓包工具的使用以及熟练使用正则、xpath提取目标数据;
3.了解mysql、redis、kafka等数据库及消息中间件的简单使用;
4.了解docker,熟悉linux操作命令,能够独立完成开发环境搭建;
5.对各类常见问题(如IP限制、验证码识别及验证、js混淆加密、参数验证等)有一定解决经验;
中数智汇(ChinaDassTechnologyCo.,Ltd)成立于2012年,是一家在中国人民银行征信中心的监管领导下为客户提供综合查询类、风控 反欺诈类、关联洞察类、反洗钱类等标准化产品和客户定制化服务项目的企业。基于风铃-变更监控(2014)、受益所有人(2017)、集团派系(2018)探壳-空壳公司识别(2019)、融e开-对公客户尽职调查工具(2020)、ESG卓望-绿色发展解决方案(2021)、企百科-新一代企业信用信息平台(2022)、等众多创新产品,利用数据分析挖掘技术为客户创造价值。