Python爬虫入门实例

最新推荐文章于 2026-04-01 20:41:20 发布

原创最新推荐文章于 2026-04-01 20:41:20 发布 · 322 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #爬虫

破解百度翻译

首先进入百度翻译网站：百度翻译
按下F12，打开开发者工具，并选中网络，找到XHR，此时在百度翻译中输入信息（例如输入“dog”），可以查看请求，并且可以找到请求参数：“dog”，此时可以根据请求参数爬取任何信息了。
在这里插入图片描述 import requests
import json

#开发者工具查看消息头的post请求

import requests
import json

#开发者工具查看消息头的post请求
url="https://fanyi.baidu.com/sug"

a=input("请输入要查询的单词： ")

#请求参数
data={
    "kw":a
}
#UA伪装
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}

post=requests.post(url=url,data=data,headers=headers)

#可以将数据存储到json文件中
fp=open("baidufanyi.json","w",encoding='utf-8')
json.dump(post.json(),fp,ensure_ascii=False)
print(post.json())

然后就可以爬取到单词信息了（此方法获取的是json类型数据）

爬取结果

爬取豆瓣电影分类排行榜

爬取豆瓣电影排行榜，以喜剧为例，豆瓣喜剧排行榜
在这里插入图片描述以为网页展示的信息有限，每次翻到下面的时候都会产生请求去加载信息

这时候我们就可以获得get请求及其一些参数。

import requests
import json
#开发者工具查看消息头的post请求
url="https://movie.douban.com/j/chart/top_list?"

#请求参数，可以自己修改，例如limit是每页的数量，可以将其改为20，每次请求20个
params={
    "type":"24",
    "interval_id":"100:90",
    "action":"",
    "start":"1",
    "limit":"120"
}

#UA伪装
headers={
    "User-Agent":
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}
response=requests.get(url=url,params=params,headers=headers)

#可以将数据存储到json文件中
fp=open("douban.json",'w',encoding='utf-8')
json.dump(response.json(),fp,ensure_ascii=False)
print(response.json())

最后就可以获得json类型的数据了
在这里插入图片描述

爬取化妆品许可证相关信息

首先进入网站，https://www.bilibili.com/video/BV1Yh411o7Sz?p=11，打开开发者工具，得到post请求
在这里插入图片描述
请求响应中有ID，而打开任意一个化妆品公司，其post请求后面都是其对应的ID

在这里插入图片描述
这时候我们就可以先获取企业的ID，然后再从ID获取企业的相关信息。

import requests
import json

#UA伪装
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}
#开发者工具查看消息头的post请求
url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'

#查看i页企业消息
for i in range(2):
    data={
        "on":"true",
        "page":i,
        "pageSize":"15",
        "productName":"",
        "conditionType":"1",
        "applyname":"",
        "applysn":""
    }

    id_q='http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id='

    response=requests.post(url=url,data=data,headers=headers).json()

    #列表，存储企业的ID
    id_list=[]
    for dic in response['list']:
        id_list.append(dic["ID"])

    # 开发者工具查看消息头的post请求，其后面跟的是企业ID，可以获取对应企业的相关信息
    post_url="http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById"

    for id in id_list:
        data={"id":id}
        r=requests.post(url=post_url,data=data,headers=headers).json()

        with open('化妆品公司.txt','a+',encoding='utf-8') as wenjian:
            wenjian.write(str(r)+'\r')

        print(r)