
Python Web高级爬虫工程师测试题
(请本文件发送到: SpiderTestQuestion@163.com 并附带简历)
1、 用yield写一个斐波那契数列的生成器函数。
2、 放一段scrapy项目parse函数的代码(解析列表页,使用分组提取,解析字段)。
3、 遇到过哪些反爬策略,如果突破?
4、 scrapy各个模块启动顺序(Spider, Middleware, Pipeline的加载、实例化、Open、Close的顺序)。
5、 使用过哪些抓包工具,各有什么优点。
6、 有没有自己博客,贴一下网址。
7、 字体加密反爬机制及分类。
8、 遇到过那些验证码,怎么突破的,不使用打码平台有办法吗?
9、 简述了解的采集任务管理平台,有何不同,有修改过源码吗?
10、 遇到过哪些难度大的网站,卡在哪了,认为反爬的天花板网站/软件有哪些。
11、 selenium/splash/puppeteer(谷歌)/playwright(微软)/web scraper(插件) 优劣势。
12、 js/小程序/apk的Hook 原理。
13、 遇到过那些防御系统,极验验证码/易盾/观镜防御系统反爬策略优劣。
14、 简述绕过小程序动态调试中用户验证的方式。
15、 还有哪些问题是没问到的,又是自己的优势优点,可自行作答
本文探讨了Python Web爬虫的高级技巧,包括使用yield实现斐波那契数列生成器,Scrapy项目的parse函数解析,以及应对各种反爬策略。详细阐述了Scrapy的启动顺序,抓包工具的使用,如Fiddler和Wireshark,并分享了个人博客链接。同时,讨论了字体加密、验证码识别和采集任务管理平台的选择。文章还深入分析了各种网站的反爬机制,如极验、易盾和观镜,并介绍了自动化工具如Selenium、Puppeteer的优缺点。最后,文章揭示了如何绕过小程序的用户验证,以及个人在爬虫领域的优势和独特经验。
1万+

被折叠的 条评论
为什么被折叠?



