【Python学习笔记】调参工具Optuna + 泰坦尼克号案例

原创

已于 2024-08-07 16:29:13 修改 · 2.3k 阅读

标签

#python #学习 #笔记

于 2024-07-11 17:52:23 首次发布

【Python学习笔记】调参工具Optuna&泰坦尼克号案例

背景前摇：（省流可不看）
最近找了份AI标注师的实习，但是全程都在做文本相关的活，本质上还是拧螺丝，就想着学点调参、部署什么的技能增加一些竞争力，以后简历也好包装。
当然找教程首选B站大学了，果然让我搜到了一个好评众多的免费调参工具Optuna。
另外顺便提一句，我做的实习是内容安全方向的文本标注（人话：保证训练集的内容是政治正确的），但我之前看别的视频学习Yolo5做口罩和人脸识别的时候了解到有一款免费的图像标注工具很好用，我自己亲手测试过，安装和使用都很便捷，而且没有任何广告和累赘，主打一个简洁高效。
工具名称：LabelImg
导师之前分享的一篇公众号文章介绍的很全面：
https://mp.weixin.qq.com/s/AE_rJwd9cKQkUGFGD6EfAg
公众号传送门
在这里插入图片描述
另外，我在后续学习过程中在b站评论区又发现了两款热心网友推荐的开源工具：
LabelLLM：主要做大模型对话数据标注的；
链接：https://github.com/opendatalab/LabelLLM
LabelU：常规数据标注，支持图片、音频、视频的标注，有多种标注工具；
链接：https://github.com/opendatalab/labelU
在这里插入图片描述
————————————————————————————————————————————

正文：关于Optuna及学习过程
**视频教程链接：**https://www.bilibili.com/list/watchlater?oid=832000670&bvid=BV1c34y1G7E8&spm_id_from=333.1007.top_right_bar_window_view_later.content.click
B站大神的视频
在这里插入图片描述
安装方式：

Anaconda应该也可通过conda安装，我这图省事就直接按视频里面那样pip安装了。
————————————————————————————————————————————

大神使用的Kaggle案例链接：
https://www.kaggle.com/code/yunsuxiaozi/learn-to-use-the-optuna/notebook
传送门
在这里插入图片描述
虽然复制粘贴很爽，但为了保持手感+感受细节，建议有时间的还是慢慢手写一遍，哪怕是照着敲，都比直接复制粘贴要好。初学一门技能的时候，慢就是快。
同样，如果电脑上有Anaconda的话，建议建一个专门的虚拟环境来测试Optuna，防止出现冲突现象。
————————————————————————————————————————————

CSDN大神的conda虚拟环境搭建以及jupyter虚拟环境配置教程：
https://blog.csdn.net/fanstering/article/details/123459665
如果没有Anaconda可以跳过此步骤

建立虚拟环境这一步我之前已经很熟了，环境和Optuna包明明install装好了，Jupyter一运行还在报没有Optuna这个库，按照这位大神的教程装了个nb_conda以后问题就解决了。
在这里插入图片描述

————————————————————————————————————————————

然后进入熟悉的写代码环节，首先导入需要的几个Python库，缺什么装什么。pip install 或者conda install 都可，有Anaconda的建议后者。

如果他报了一个鬼迷日眼的错误的话： TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.read
zhebu 在这里插入图片描述

不要怕，只是需要把Jupyter升级一下。
在这里插入图片描述

我做完了前三步以后，重新刷新运行这步程序就没事了。

————————————————————————————————

数据集下载链接：https://www.kaggle.com/competitions/titanic/data?select=train.csv
传送门
在这里插入图片描述

total_df['Embarked_is_nan']=(total_df['Embarked']!=total_df['Embarked'])

这行代码建了一个新列 ‘Embarked_is_nan’，用于标记 ‘Embarked’ 列中的空值（NaN）。如果 ‘Embarked’ 列中的元素不是它自己（即元素是 NaN），则新列的对应位置将被设为 True。
这种写法我还是第一次见。

keys=['Pclass','Sex','SibSp','Parch']
for key in keys:
    values=np.unique(train_df[key].values)
    
    if len(values)<10 and key!="Survived":
        print(f"key:{
     
     key},values:{
     
     values}") 
        
        key_target=train_df['Survived'].groupby([train_df[key]]).mean()
        keys=key_target.keys().values
        target=key_target.values
        key_target=pd.DataFrame({
   
   key:keys,key+"_target":target})
        total_df=pd.merge(total_df,key_target,on=key,how="left")
total_df.head()

这一段代码有点复杂，首先筛选了四个重要特征[‘Pclass’,‘Sex’,‘SibSp’,‘Parch’]，存储在keys列表里，这些列被认为可能与乘客的生存情况有关。
然后逐个遍历该列表，看看每个特征在训练集里的数量有多少不重复的值values。
如果某个关键列的唯一值数量len(values)少于10个，代码会进一步分析这个列与生存情况的关系。
（我有点疑惑的是为什么要强调 key!=“Survived”，这个keys列表里本来也没有“Survived”这个取值啊？？）
打印出来发现四个属性都满足条件：
在这里插入图片描述

key_target=train_df['Survived'].groupby([train_df[key]]).mean()

这一步在训练集train_df当中，代码计算了keys这个列表中，每个唯一值对应的’Survived’列的平均生存率。
在这里插入图片描述
由图可见，key_target这个dataframe的值每次循环都随着关键属性的值变化，比如在处理到key = Pclass的时候，key_target的键就是1，2，3，值就是对应的平均生存率；处理到key = sex的时候，key_target的键是‘Female’和‘Male’，值同样是对应的平均生存率。
后续的步骤有一些复杂，画个word表格配合理解一下：
keys里面一共四个属性，每次就拿其中一个来说事，最后把四个属性的数据都存在total_df里面汇总并返回。
这是拿PClass说事的情况，PClass有三个值：1/2/3，针对每个值计算了平均存活率，并保存在key_target中。
然后取出了key_target的键存在keys列表（是的没错这个列表也叫keys……，但此时里面的值应该是PClass的1/2/3这三个取值）里面，值存在target列表里面（即0.629630，0.472826，0.242363这三个数字），然后人为给键和值这两列取名字，键这一列还叫PClass，值这一列比较有个性，要叫‘PClass_target’。
在这里插入图片描述
以此类推，后面三个属性的key_target都是这套路，但是total_df这张表一直在扩大。

（male这里是word超界，图截掉了，后面单独补了一块）
直到最后total_df变为一张大表：

说实话，对于一个主要目的是教人怎么使用调参工具的Optuna案例来说，原作者这一步写的逻辑真的很给我增加了理解负担……
我让Kimi把这段代码改写成了一个更加清晰简单的版本，这样不容易混淆这么多满屏的key和target：
在这里插入图片描述
这部分不是调参步骤的重点，如果实在搞不明白可以跳过。————————————————————————————————————————————
使用平均值填充缺失值，这学到的数据处理常见步骤，标记一下。

最低0.47元/天解锁文章