破解百度翻译
首先进入百度翻译网站:百度翻译
按下F12,打开开发者工具,并选中网络,找到XHR,此时在百度翻译中输入信息(例如输入“dog”),可以查看请求,并且可以找到请求参数:“dog”,此时可以根据请求参数爬取任何信息了。
import requests
import json
#开发者工具查看消息头的post请求
import requests
import json
#开发者工具查看消息头的post请求
url="https://fanyi.baidu.com/sug"
a=input("请输入要查询的单词: ")
#请求参数
data={
"kw":a
}
#UA伪装
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}
post=requests.post(url=url,data=data,headers=headers)
#可以将数据存储到json文件中
fp=open("baidufanyi.json","w",encoding='utf-8')
json.dump(post.json(),fp,ensure_ascii=False)
print(post.json())
然后就可以爬取到单词信息了(此方法获取的是json类型数据)

爬取豆瓣电影分类排行榜
爬取豆瓣电影排行榜,以喜剧为例,豆瓣喜剧排行榜
以为网页展示的信息有限,每次翻到下面的时候都会产生请求去加载信息

这时候我们就可以获得get请求及其一些参数。
import requests
import json
#开发者工具查看消息头的post请求
url="https://movie.douban.com/j/chart/top_list?"
#请求参数,可以自己修改,例如limit是每页的数量,可以将其改为20,每次请求20个
params={
"type":"24",
"interval_id":"100:90",
"action":"",
"start":"1",
"limit":"120"
}
#UA伪装
headers={
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}
response=requests.get(url=url,params=params,headers=headers)
#可以将数据存储到json文件中
fp=open("douban.json",'w',encoding='utf-8')
json.dump(response.json(),fp,ensure_ascii=False)
print(response.json())
最后就可以获得json类型的数据了

爬取化妆品许可证相关信息
首先进入网站,https://www.bilibili.com/video/BV1Yh411o7Sz?p=11,打开开发者工具,得到post请求

请求响应中有ID,而打开任意一个化妆品公司,其post请求后面都是其对应的ID


这时候我们就可以先获取企业的ID,然后再从ID获取企业的相关信息。
import requests
import json
#UA伪装
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}
#开发者工具查看消息头的post请求
url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
#查看i页企业消息
for i in range(2):
data={
"on":"true",
"page":i,
"pageSize":"15",
"productName":"",
"conditionType":"1",
"applyname":"",
"applysn":""
}
id_q='http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id='
response=requests.post(url=url,data=data,headers=headers).json()
#列表,存储企业的ID
id_list=[]
for dic in response['list']:
id_list.append(dic["ID"])
# 开发者工具查看消息头的post请求,其后面跟的是企业ID,可以获取对应企业的相关信息
post_url="http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById"
for id in id_list:
data={"id":id}
r=requests.post(url=post_url,data=data,headers=headers).json()
with open('化妆品公司.txt','a+',encoding='utf-8') as wenjian:
wenjian.write(str(r)+'\r')
print(r)
965

被折叠的 条评论
为什么被折叠?



