大型情感剧集Selenium:7_使用selenium,让整个简书网站都认识我!

安静的学习,真好

媳妇儿带着孩子去旅游,终于可以一个人听着陶喆的歌学习、写博客了,这感觉真好!(明天我媳妇儿看到文章,又要...)
今天早上收到了一份哭笑不得的鼓励,一位朋友说我真勤劳,每天早上早起看一篇python文章,然后还发到朋友圈。
写公众号一个月了,每天早上朋友圈转发一下文章,算是我最大的推广了,然后被认为是我读别人的文章。
好吧,那我读文章的时候,比这个写文章的人时间不落分毫,哈哈。

说说selenium这个系列

这个大型情感剧集selenium系列,从开始做到现在第七集。一直在更新些零碎的知识,也没有系统的写过这方面代码。
很多朋友觉得这个系列的文章,就只是面向自动化测试去写的,其他人没必要看,学了没用。然后导致这个系列整体的阅读量炒鸡低!
那么今天,针对咱们之前学的只是,再补充一些,来做一个联系吧,名字就叫:使用selenium,让整个简书网站都认识我!张狂吧?其实开玩笑的,简书有安全回复机制,禁止短时间进行刷屏的...
通过这篇文章我想告诉你,任何人学selenium,都不是白费的!想做微商、推广的更应该关注我这篇文章,哈哈。

避坑指南与涉及知识点

大概罗列下场景覆盖中,涉及到的知识点

cookie登陆简书

本来想找个新账号的,但就我一个人,这会儿2点了朋友圈求不怕封想出名的账号,貌似也没结果
携带cookie登陆简书的方法,我上篇文章说了,就不再赘述了。

动态刷新简书首页文章链接

这里要详细说下简书的文章刷新方式...

  • 进入简书进来后,默认刷新10-15篇文章
  • 页面下拉框滑动,会通过Ajax刷新文章,一次刷新5篇刷新3次
  • 之后滑动刷新失效,需要点击“阅读更多”来获取新的文章
  • 保存刷新日志,如该文章之前回复过,则跳过访问下一篇文章
  1. 这几种场景,我们可以通过js控制滚动条滑动到底部来实现刷新文章
  2. 通过try ... except 判断是否出现阅读更多的文章来进行点击事件
  3. 通过link.text与我们之前保存的日志文件进行对比,判断新文章访问
  4. 点击链接会弹出新标签页,此处涉及标签切换、访问、关闭和主handle的返回
文章回复

本来这里没什么知识点的,但是简书做的比较溜,文章内容也是Ajax成段展示,刚进入页面无法后去到所有的内容,更没办法定位到回复栏
开始使用直接下拉到底部的方式,但这种方式依然无法获取所有内容及回复窗口
需要逐步刷新,加载所有内容后,才能显示回复栏...
for循环每次下拉500单位,最终得到文章内容的方式完成此方式
WebDriverWait(driver,totaltime,checksplit).until()
其实本来这里,用不到WebDriverWait的,这种一般都是在页面访问后,进行动态等待的,但咱们没这个场景就生硬的使用下吧...

设置刷新文章页数

根据想刷新的页数,来控制主页面进行多少次下拉框拖动和点击“阅读更多”...
最终结束时,将访问过的文章重新写入到日志文件中...

代码实现

由于cookie涉及到我的登陆验证,所有就在代码中隐藏了,如何获取,上篇文章说过了...
我习惯不太好,注释写的比较少,抱歉,有不清楚的可以微信问我...

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/4 02:19
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : Be_A_Famous.py


import time
import os
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException, \
    ElementNotInteractableException, TimeoutException


class FamousPerson:
    # 简书首页地址
    BaseUrl = "https://www.jianshu.com"
    # 脚本目录
    BaseDir = os.path.dirname(os.path.realpath(__file__))
    # 日志文件
    text_name = 'comment.txt'
    # 默认评论页面数
    Page = 3
    # 设置变量,定位已访问的文章数目
    ContentNo = 0

    def __init__(self):
        self.log_text = os.path.join(self.BaseDir, self.text_name)
        self.log_list = self.get_log()
        self.driver = self.init_driver()
        self.base_handle = None
        self.note_list = []

    def get_log(self):
        if os.path.exists(self.log_text):
            with open(self.log_text, 'r', encoding='utf-8') as f:
                return f.readlines()
        return []

    @staticmethod
    def init_driver():
        """
        basic option:
            set screen size
            disable info bar
        :return: driver
        """
        options = webdriver.ChromeOptions()
        options.add_argument('window-size=900,600')
        options.add_argument('disable-infobars')
        return webdriver.Chrome(options=options)

    def prepare_work(self):
        """
        1. add cookie
        2. set base handle
        """
        self.driver.get(self.BaseUrl)
        self.driver.add_cookie(cookie)
        self.driver.refresh()
        self.base_handle = self.driver.current_window_handle

    def control_scrollbar(self):
        """
        use js to control scroll down ...
        """
        _scrollTop = 0
        # 渐进下拉,避免大幅度页面偏移,导致的textarea获取失败...
        for i in range(20):
            _scrollTop += 400
            js = "var q=document.documentElement.scrollTop={}".format(_scrollTop)
            self.driver.execute_script(js)
            time.sleep(0.2)
        # 简书AJax刷新3次后,必须点击一次查看更多,才能继续刷新...
        try:
            self.driver.find_element_by_class_name('load-more').click()
        except NoSuchElementException:
            pass
        except ElementNotInteractableException:
            pass

    def add_comment(self):
        # 判断窗口并切换
        for handle in self.driver.window_handles:
            if handle != self.base_handle:
                self.driver.switch_to.window(handle)
            print("访问文章:{}".format(self.driver.title))
        # 滚动至页面底部
        self.control_scrollbar()
        try:
            WebDriverWait(self.driver, 5, 0.5).until(
                ec.presence_of_element_located((By.TAG_NAME, 'textarea')))
            self.driver.find_element_by_tag_name('textarea').send_keys(comment_info)
            self.driver.find_element_by_class_name('btn-send').click()
            print("回复成功")
        except TimeoutException:
            print("回复失败,未找到textarea,蓝瘦...")
        # 为展示效果,等待2秒,使用时可删除...
        time.sleep(1)
        self.driver.close()
        # 切换至主窗口
        self.driver.switch_to.window(self.base_handle)

    def get_content(self):
        while self.Page:
            notes = self.driver.find_elements_by_css_selector('.note-list li')
            for note in notes[self.ContentNo:]:
                try:
                    note_link = note.find_element_by_tag_name('a')
                    note_name = note_link.text + '\n'
                    if note_name in self.log_list:
                        continue
                    self.log_list.append(note_name)
                    note_link.click()
                    time.sleep(1)
                    self.add_comment()
                    self.ContentNo += 1
                except:
                    pass
            self.Page -= 1
            # 下拉刷新一次页面
            self.control_scrollbar()
        with open(self.log_text, 'w') as f:
            f.writelines(self.log_list)


def run():
    # 实例化方法
    start_test = FamousPerson()
    # add cookie set base_handle
    start_test.prepare_work()
    # 启动评论
    start_test.get_content()


if __name__ == '__main__':
    comment_info = ("为作者点赞! 小弟技术公众号 【清风Python】 刚刚创建,"
                    "欢迎大家关注,谢谢支持。")
    cookie = {
        'name': 'remember_user_token',
        'value': 'token_value'  # 练习时请自行获取,方法上篇文章写了
    }
    run()

代码执行效果
5847426-3fa53f2a4f5f4187.gif
selenium实战.gif

大家看到了间隔时间太短,连续回复,会被系统禁止操作....至于间隔多久,我只是为了写文章,就不去仔细考究了....

The End

今天的selenium内容就更新到这里,算是对之前知识的一个总结,和剩余内容的一个总体概括与练习吧。
其实selenium涉及的知识还有很多,以及与它相关的一些部署、搭建、自动化报告等等功能。但因为这个系列看的人实在太少,懒得更新了啊....
先暂时告一段落吧,如果还有人催更,我在想想下来写点什么吧。
OK,如果觉得这篇文章对你有帮助,欢迎将文章或我的微信公众号【清风Python】转发分享给更多喜欢python的朋友们,谢谢。

内容概要:本文研究了基于CNN-BiGRU-Attention混合神经网络模型的风电功率预测方法,旨在提升风力发电功率预测的准确性。该模型融合卷积神经网络(CNN)以提取输入变量中的局部时空特征,结合双向门控循环单元(BiGRU)充分捕捉时间序列前后向的长期依赖关系,并引入注意力机制(Attention)动态加权关键时间步的特征信息,增强模型对重要时刻的敏感度。研究采用多变量输入进行单步预测,综合纳入风速、风向、温度等多种气象因素作为模型输入,全面反映环境变量对风电输出的影响。通过Matlab平台完成模型构建、训练与仿真验证,实验结果表明该混合模型在预测精度与稳定性方面优于传统单一模型,有效提升了风电功率预测性能。; 适合人群:具备一定机器学习与深度学习理论基础,熟悉Matlab编程环境,从事新能源发电预测、电力系统调度、智能算法应用等相关领域的科研人员、工程技术人员及高校研究生。; 使用场景及目标:①应用于风电场实际运行中的短期功率预测,提高电网调度的安全性与可再生能源消纳效率;②为深度学习模型在复杂时序预测任务中的设计与优化提供实践范例,推动AI技术在能源系统智能化中的深度融合;③支持学术研究复现、课程项目设计与教学演示,帮助深入理解CNN、BiGRU与Attention机制的协同建模范式与实现细节。; 阅读建议:建议结合提供的Matlab代码进行动手实践,重点关注数据预处理流程、模型网络结构设计、超参数调优及训练收敛过程,鼓励尝试替换输入变量组合、调整网络层数或优化注意力结构,以进一步探究模型性能边界并提升预测鲁棒性。
内容概要:本文研究了基于Benders分解算法与输电网-配电网运营商(TSO-DSO)协调机制的双层优化模型,旨在有效应对新能源出力波动、负荷不确定性等对现代电力系统运行带来的挑战。模型上层由输电网运营商(TSO)负责全局资源优化与主网稳定性调控,下层由多个配电网运营商(DSO)实现本地分布式能源的灵活调度,通过Benders分解实现上下层之间的迭代协调与信息交互,从而在保障系统安全的前提下提升整体运行的经济性与鲁棒性。研究提供了完整的Matlab代码实现,涵盖数学建模、算法求解、收敛性分析及仿真结果可视化等环节,有助于深入理解双层优化架构在输配电网协同调度中的具体应用与技术细节。; 适合人群:具备电力系统分析、优化理论基础及一定Matlab编程能力的研究生、科研人员,以及从事电网调度、能源系统规划等相关领域的工程技术人员。; 使用场景及目标:①掌握Benders分解在电力系统双层优化问题中的建模与求解流程;②理解TSO-DSO协同机制下输配电网交互建模的核心思想与实现方法;③复现并拓展高水平学术论文中的优化模型,服务于科研项目攻关或实际工程仿真需求。; 阅读建议:建议结合凸优化理论、电力系统经济调度与Benders分解原理进行系统学习,优先运行并调试所提供的Matlab代码,调整关键参数以观察算法收敛行为与模型性能变化,从而深化对协调机制与优化机理的理解。
内容概要:本文档是一份关于经济学期刊论文复现的研究资料,聚焦核心议题“数字化转型能否促进企业的高质量发展”。文档构建了一个完整的量化分析框架,基于中国上市公司数据,实证探讨数字化转型对企业全要素生产率(TFP)及高质量发展的实际影响。内容涵盖数字化转型指标的构建、企业高质量发展评价体系的设计、计量经济模型的选择与应用(如固定效应模型、GMM方法),并提供Matlab代码实现全过程,包括数据处理、模型估计与稳健性检验。研究还系统梳理了OL、FE、LP、OP、GMM等多种全要素生产率的测算方法,为读者复现高水平经济学论文、深入理解数字经济时代的企业发展路径与政策含义提供了详尽的技术支持与理论指导。; 适合人群:具备扎实的经济学理论基础和较强的定量分析能力,熟悉Matlab或Python编程语言,正在从事经济管理、产业经济或数字经济等领域研究的研究生、高校教师及科研机构研究人员。; 使用场景及目标:①完整复现经济学顶刊论文的实证研究流程,掌握规范的学术研究范式;②学习并应用数字化转型与企业绩效间的因果识别策略,提升独立开展实证研究的能力;③为撰写学位论文、申报科研课题或编制政策咨询报告中涉及数字经济效应的章节提供直接的方法论参考和代码支持; 阅读建议:建议读者务必结合文档提供的数据与Matlab代码进行同步实操,重点钻研变量定义、模型设定、内生性处理和稳健性检验等关键环节,通过反复调试与验证,深刻领会高水平实证研究的严谨逻辑与技术细节,从而全面提升自身的科研素养与论文写作水平。
内容概要:本文围绕“绿电直连型电氢氨园区优化运行”开展创新性未发表研究,提出一种集成绿色电力直接供给、电解水制氢与合成氨工艺的多能耦合系统优化模型,旨在实现园区能源系统的低碳化、高效化与经济化运行。研究采用Matlab与Python编程语言,结合实际气象与负荷数据,构建涵盖电-氢-氨能量转换、存储与利用全过程的能量流、物质流及经济性协同优化框架,重点解决可再生能源出力波动导致的供需失衡问题,并通过优化电解槽、储氢罐、合成氨反应器等关键设备的运行策略与容量配置,提升系统对风光能源的就地消纳能力。文中配套提供完整的仿真代码、原始数据及Word格式论文,支持结果复现与模型拓展,具有较高的科研参考价值与工程应用潜力。; 适合人群:具备电力系统、能源工程、优化建模或新能源技术背景,从事综合能源系统、氢能利用、碳中和园区等相关领域研究的研发人员及硕士、博士研究生。; 使用场景及目标:①研究绿电直供模式下电-氢-氨多能系统协同运行机制与优化调度策略;②探索高比例可再生能源就地转化为高附加值化工产品的技术路径;③为工业园区实现深度脱碳与能源自洽提供决策支持;④作为学术论文撰写、课题申报或科研复现的高质量参考资料。; 阅读建议:建议结合Matlab与Python代码逐模块解析模型实现过程,重点关注目标函数构建、约束条件设定(如设备动态特性、能量平衡、安全边界)以及多场景仿真对比分析,宜在调试过程中调整权重系数与参数设置,深入理解系统灵敏度与优化机理,并尝试引入更多不确定性因素进行鲁棒性扩展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值