IT人力外包人才简历库

返回列表

Python数据采集工程师

驻场外包人员
工作年限:1年 意向城市:杭州 浏览:3次 发布时间:近期

技能标签

Python开发 Selenium XPath解析 正则表达式 反爬策略 异常处理 文件系统操作 模块化开发 动态页面处理 HTTP请求 无头模式 显式等待 日志系统 自动化测试 数据采集

专业技能

精通Python编程语言,熟练使用Requests库进行HTTP请求与会话管理,具备反爬策略应对能力。掌握XPath、lxml、正则表达式等数据解析技术,擅长处理复杂页面结构。熟练运用Selenium WebDriver控制Chrome浏览器,支持无头模式、禁用图片、隐藏自动化特征,可处理动态渲染页面。具备完善的异常处理机制,可应对网络超时、解析失败、元素缺失等场景。熟悉文件系统操作,实现文件名非法字符过滤、版本号追加、多路径权限检查与磁盘空间监控。具备函数封装与模块化开发能力,实现数据清洗、命名规则、路径处理等通用逻辑复用。持续维护爬虫技术文档,积累40+常见问题解决方案。

工作履历(脱敏处理)

主导动态网站数据采集系统开发,实现多条件搜索功能,支持分页翻页及详情页跳转,提升数据采集效率。采用Selenium WebDriver控制Chrome浏览器,通过无头模式、禁用图片、隐藏自动化特征等技术应对反爬策略,保障采集稳定性。设计XPath与正则表达式解析方案,实现职位名称、薪资、地区等字段提取。构建异常处理机制,应对网络超时、解析失败等场景,实现自动重试与日志记录。开发文件管理模块,完成非法字符过滤、版本号追加、多路径权限检查等逻辑,确保数据存储可靠性。

项目经验(脱敏处理)

动态招聘网站数据采集系统:基于Selenium实现多条件搜索功能,支持分页翻页及详情页跳转。采用无头模式、禁用图片、隐藏自动化特征等技术应对反爬策略,通过显式等待解决动态加载问题。实现职位名称、薪资、地区、福利、岗位描述等字段提取,构建日志系统用于运行监控。开发反爬应对策略,通过随机延迟、IP轮换等手段提升采集稳定性,当前系统已具备基础采集能力。

豆瓣电影Top250数据采集工具:实现自动翻页采集功能,支持Top250全部分页抓取。采用XPath解析技术提取电影基本信息,包括片名、导演/演员、上映年份、制片国家/地区等字段。开发图片下载模块与结构化存储方案,实现电影简介与剧情信息采集。设计异常处理机制,确保采集过程的鲁棒性与数据完整性。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

1年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接