python基础刻意练习小甲鱼教程之爬虫P053- by littlecircle327

最新推荐文章于 2022-03-23 22:36:25 发布

原创最新推荐文章于 2022-03-23 22:36:25 发布 · 559 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

python学习

本文深入讲解Python使用urllib模块进行网络请求的方法，包括GET和POST请求的实现，以及如何处理HTTP响应。同时，介绍了如何设置headers和使用代理，以绕过网站的机器人检测。

053-054

Python如何访问互联网

url的一般格式为：
Protocol://hostname[:port]/path/[;parameters][?query]#fragment

URL由三部分组成：
—第一部分是协议：http,https,ftp,file,ed2k…
—第二部分是存放资源的服务器的域名系统或IP地址（有时候要包含端口号，各种传输协议都有默认的端口号，如http的默认端口为80）。
—第三部分是资源的具体地址。（就是杠后面那些）

现在urllib块把urllib2都合并了
要爬虫一般用urllib.request模块
常用的有.urlopen等函数

eg 01 访问测试

import urllib.request
response = urllib.request.urlopen("http://www.fishc.com")
html = response.read()
html = html.decode("utf-8")
print(html)

eg 02 爬猫图

import urllib.request
response =urllib.request.urlopen('http://placekitten.com/g/400/600')

#http://photocdn.sohu.com/20160928/Img469362391.jpg就是图片的地址
#req=urllib.request.Request("http://placekitten.com/g/500/600")
#response = urllib.request.urlopen(req)都可以的

cat_img = response.read()

with open('cat_400_600.jpg', 'wb') as f:
    f.write(cat_img)
# 接下来的操作

#response.geturl()
#    'http://placekitten.com/g/500/600'

#response.info()
#    <http.client.HTTPMessageobject at 0x032903B0>  #得到的是一个对象  

#print(response.info()) #能打印一堆东西

#response.getcode()
# 200 是正常的

eg 03 爬有道词典

右键fanyi.youdao.com，点审查元素/检查（N）
然后点Network，点左面的翻译，可以看到新生成的一堆，虽然找不到教程中说的POST 和GET的这2个Method类，但是知道后面这几个是新增的，然后一个个点，点到这个translate_o，发现Preview有我输入的英文，说明对了，点Headers，看到方法是post，一般Post和get一个是发送一个是接收。

再往下看，有这些东西
Request URL: http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
Request Method: POST
Status Code: 200 OK
Remote Address: 61.135.217.21:80 #是端口地址
Referrer Policy: no-referrer-when-downgrade

下面:
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36
是来get你是什么，是不是机器人。

Form data 你提交的主要内容

重新看.request函数，data=None就是get方法，有data就是post方法

然后套用模板一点点爬。
然后发现输出是errorcode50，说明有问题，百度了一下，有好2种解决方法。

方法1，
去掉_o，可以运行，我感觉这说明_o可能是新版本，之前是老版本。

import urllib.request
import urllib.parse
import json
content ='I love him'
#content =input("输入需要翻译的内容：")
url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
#url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

data = {}
data['i'] = content
data['from'] = 'AUTO'
data['to'] = 'AUTO'
data['smartresult'] = 'dict'
data['client'] =  'fanyideskweb'
data['salt'] = '15810827353407'
data['sign'] =  '6bd62ab0d4b728a69f3b791695e6b556'
data['ts'] = '1581082735340'
data['bv'] = '901200199a98c590144a961dac532964'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CLICKBUTTION'


data =urllib.parse.urlencode(data).encode('utf-8')
# 用parse解析，还得解码（把utf-8转成其他形式），所以前面载入parse，
# parse和 request是两个不同的模块


response =urllib.request.urlopen(url,data)
html =response.read().decode('utf-8')
target =json.loads(html)
#print一下html，发现是json格式的，再把他读出来
print("翻译结果：%s"% (target['translateResult'][0][0]['tgt']))
#Target =target['translateResult'][0][0]['tgt']
#Print(target)

方法2，
解密，发现里面bv等好几个参数是随机生成的，然后csdn有好几个资料解析，其中

链接1是2019发布的，
思路是对的，就是md5改过了，不是里面那个，改成"n%A-rKaT5fb[Gy?;N5@Tj"，就对了。

链接2是2020发布的，
思路是对的。代码就不放了。

055 隐藏

修改headers：

Request函数中可以引入新的header值，通常header是默认的值（函数不引入Header就是默认），但是可以通过以下两种途径让header有值。

途径一，通过Request的headers参数修改

#第一种办法：添加以下两句话
#head={}
#head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
#因为字典形式，所以字典添加字段要用上述的方式

途径二，通过Request.add_header()修改

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)) Chrome/79.0.3945.130 Safari/537.36')

完整的程序如下

import urllib.request
import urllib.parse
import json
content ='I love him'
#content =input("输入需要翻译的内容：")
url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
#url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'


#第一种办法：添加以下两句话
#head={}
#head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
#因为字典形式，所以字典添加字段要用上述的方式

data = {}
data['i'] = content
data['from'] = 'AUTO'
data['to'] = 'AUTO'
data['smartresult'] = 'dict'
data['client'] =  'fanyideskweb'
data['salt'] = '15810827353407'
data['sign'] =  '6bd62ab0d4b728a69f3b791695e6b556'
data['ts'] = '1581082735340'
data['bv'] = '901200199a98c590144a961dac532964'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CLICKBUTTION'

data =urllib.parse.urlencode(data).encode('utf-8')
# 用parse解析，还得解码（把utf-8转成其他形式），所以前面载入parse，
# parse和 request是两个不同的模块


#response =urllib.request.urlopen(url,data)
#这一句可以替换为以下两句,因为head改变了不是默认了，所以这次要用下面的写法，我感觉


#req=urllib.request.Request(url,data,head)
req=urllib.request.Request(url,data)
#第二种办法，添加req.add_header(),下面的句子
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)) Chrome/79.0.3945.130 Safari/537.36')

response =urllib.request.urlopen(req)


html =response.read().decode('utf-8')
target =json.loads(html)
#print一下html，发现是json格式的，再把他读出来
print("翻译结果：%s"% (target['translateResult'][0][0]['tgt']))
#Target =target['translateResult'][0][0]['tgt']
#Print(target)


#理论上这样就行了，实际上不行.print一下html发现是errorcode50.csdn了一下需要改head头，详情看大神的

#req.headers
#

代理：

为了网站监测出我们是机器人，有2种方法，一种延时提交，一种是代理。

延时 import time，time.sleep(5)休息五秒

import urllib.request
import urllib.parse
import json
import time

while True:
    content =input("输入需要翻译的内容：(按Q退出)")
    url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
    #url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'


    #第一种办法：添加以下两句话
    #head={}
    #head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
    #因为字典形式，所以字典添加字段要用上述的方式

    if content=='Q':
        break
    
    data = {}
    data['i'] = content
    data['from'] = 'AUTO'
    data['to'] = 'AUTO'
    data['smartresult'] = 'dict'
    data['client'] =  'fanyideskweb'
    data['salt'] = '15810827353407'
    data['sign'] =  '6bd62ab0d4b728a69f3b791695e6b556'
    data['ts'] = '1581082735340'
    data['bv'] = '901200199a98c590144a961dac532964'
    data['doctype'] = 'json'
    data['version'] = '2.1'
    data['keyfrom'] = 'fanyi.web'
    data['action'] = 'FY_BY_CLICKBUTTION'

    data =urllib.parse.urlencode(data).encode('utf-8')
    # 用parse解析，还得解码（把utf-8转成其他形式），所以前面载入parse，
    # parse和 request是两个不同的模块


    #response =urllib.request.urlopen(url,data)
    #这一句可以替换为以下两句,因为head改变了不是默认了，所以这次要用下面的写法，我感觉


    #req=urllib.request.Request(url,data,head)
    req=urllib.request.Request(url,data)
    #第二种办法，添加req.add_header(),下面的句子
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)) Chrome/79.0.3945.130 Safari/537.36')

    response =urllib.request.urlopen(req)


    html =response.read().decode('utf-8')
    target =json.loads(html)
    #print一下html，发现是json格式的，再把他读出来
    print("翻译结果：%s"% (target['translateResult'][0][0]['tgt']))
    #Target =target['translateResult'][0][0]['tgt']
    #Print(target)


    #理论上这样就行了，实际上不行.print一下html发现是errorcode50.csdn了一下需要改head头，详情看大神的
    #req.headers

    time.sleep(5)

代理

proxy_support=urllib.request.ProxyHandler({}) #参数是一个字典{‘类型’：‘代理ip’}
opener=urllib.request.build_opener(proxy_support) #定制一个opener
urllib.request.install_opener(opener) #安装opener
opener.open(url) #调用opener

import urllib.request
import urllib.parse
import json
import random
 
url = 'https://ip.911cha.com/' #获得我的ip
#https://whatismyip.cn/ 不太好用'

#iplist = ["118.144.149.206:3128","27.208.25.59:8060","117.191.11.104:80"]
iplist = ["110.52.235.203:9999","113.121.144.180:9999","121.61.3.61:9999"]
 
proxy_suport = urllib.request.ProxyHandler({"http":random.choice(iplist)})#参数是一个字典
opener = urllib.request.build_opener(proxy_suport)#创建opener
opener.addheaders = [("User-Agent",'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)) Chrome/79.0.3945.130 Safari/537.36')]
urllib.request.install_opener(opener)#安装一个opener
response = urllib.request.urlopen(url)#调用
html = response.read().decode('utf-8')#解码
 
print(html)