Python爬虫入门实例

破解百度翻译

首先进入百度翻译网站:百度翻译
按下F12,打开开发者工具,并选中网络,找到XHR,此时在百度翻译中输入信息(例如输入“dog”),可以查看请求,并且可以找到请求参数:“dog”,此时可以根据请求参数爬取任何信息了。
在这里插入图片描述import requests
import json

#开发者工具查看消息头的post请求

import requests
import json

#开发者工具查看消息头的post请求
url="https://fanyi.baidu.com/sug"

a=input("请输入要查询的单词: ")

#请求参数
data={
    "kw":a
}
#UA伪装
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}

post=requests.post(url=url,data=data,headers=headers)

#可以将数据存储到json文件中
fp=open("baidufanyi.json","w",encoding='utf-8')
json.dump(post.json(),fp,ensure_ascii=False)
print(post.json())


然后就可以爬取到单词信息了(此方法获取的是json类型数据)

爬取结果

爬取豆瓣电影分类排行榜

爬取豆瓣电影排行榜,以喜剧为例,豆瓣喜剧排行榜
在这里插入图片描述以为网页展示的信息有限,每次翻到下面的时候都会产生请求去加载信息
在这里插入图片描述
这时候我们就可以获得get请求及其一些参数。

import requests
import json
#开发者工具查看消息头的post请求
url="https://movie.douban.com/j/chart/top_list?"

#请求参数,可以自己修改,例如limit是每页的数量,可以将其改为20,每次请求20个
params={
    "type":"24",
    "interval_id":"100:90",
    "action":"",
    "start":"1",
    "limit":"120"
}

#UA伪装
headers={
    "User-Agent":
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}
response=requests.get(url=url,params=params,headers=headers)

#可以将数据存储到json文件中
fp=open("douban.json",'w',encoding='utf-8')
json.dump(response.json(),fp,ensure_ascii=False)
print(response.json())

最后就可以获得json类型的数据了
在这里插入图片描述

爬取化妆品许可证相关信息

首先进入网站,https://www.bilibili.com/video/BV1Yh411o7Sz?p=11,打开开发者工具,得到post请求
在这里插入图片描述
请求响应中有ID,而打开任意一个化妆品公司,其post请求后面都是其对应的ID

在这里插入图片描述在这里插入图片描述
这时候我们就可以先获取企业的ID,然后再从ID获取企业的相关信息。

import requests
import json

#UA伪装
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}
#开发者工具查看消息头的post请求
url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'

#查看i页企业消息
for i in range(2):
    data={
        "on":"true",
        "page":i,
        "pageSize":"15",
        "productName":"",
        "conditionType":"1",
        "applyname":"",
        "applysn":""
    }

    id_q='http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id='

    response=requests.post(url=url,data=data,headers=headers).json()

    #列表,存储企业的ID
    id_list=[]
    for dic in response['list']:
        id_list.append(dic["ID"])

    # 开发者工具查看消息头的post请求,其后面跟的是企业ID,可以获取对应企业的相关信息
    post_url="http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById"

    for id in id_list:
        data={"id":id}
        r=requests.post(url=post_url,data=data,headers=headers).json()

        with open('化妆品公司.txt','a+',encoding='utf-8') as wenjian:
            wenjian.write(str(r)+'\r')

        print(r)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

零陵上将军_xdr

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值