资深爬虫工程师 10-13K

职位描述:

  • Python
  • Spark
  • Hadoop
  • Pandas

岗位硬性要求: 了解足球运动,足球基本赛事以及规则! 岗位职责: 1、负责设计和开发分布式网络爬虫系统,进行数据抓取和分析; 2、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量; 3、参与分布式爬虫和数据采集系统的架构设计和开发,快速响应业务变动; 4、负责网络数据抓取规划、定期爬取指定网站的数据; 5、参与数据层建设,专注于垂直领域数据爬取,进行多平台信息的抓取和分析; 6、实现数据提取、清洗、结构化、入库、统计分析等需求; 7、研究优化算法,提升爬虫系统的稳定性、可扩展性。 职位要求: 1、熟练掌握Python,javascript,熟悉numpy,pandas和skiearn的使用,并有实际开发经验; 2、熟悉Django/Flask/Tornado等Python Web框架的使用,用RRESTful API开发经验; 3、熟练掌握至少一种数据库,有 MongoDB 或MySQL开发和维护经验者优先 4、熟悉HTTP协议,熟悉正则表达式、XPath、CSS选择器等,了解常用验证码识别技术; 5、熟悉hive,Hadoop,spark,能独立解决实际开发过程碰到的各类问题; 6、 有2年以上的爬虫开发或数据挖掘经验者优先; 7、熟知体育等社区如虎扑,懂球帝,腾讯体育,直播8等; 8、对足球运动有基本了解,熟知足球各项数据规则

邝先生

邝先生 2周内活跃

瞪羚体育 · 人事
工作地址:

长沙雨花区复地·星光天地2栋9029

查看更多信息

打开APP

查看【瞪羚体育】下更多职位

下载BOSS直聘APP
更新时间:2024-05-16