东哥起飞

1446
获赞数
7
关注数
9349
粉丝数
北京
IP 属地未知
2018-01-03 加入
浏览 49k

微信公众号:Python数据科学

知乎专栏:Python数据分析

GitHub:Python数据科学

3,837 声望|专家
全站排名超越 99.64% 用户
python
2.5k
数据分析
1.4k
python爬虫
993
人工智能
588
机器学习
559
黄金勋章
暂未获得该勋章
如何获得
白银勋章
暂未获得该勋章
如何获得
个人动态
  • 发布了文章2021-11-22
    一文读懂层次聚类(Python代码)
    首先要说,聚类属于机器学习的无监督学习,而且也分很多种方法,比如大家熟知的有K-means。层次聚类也是聚类中的一种,也很常用。下面我先简单回顾一下K-means的基本原理,然后慢慢引出层次聚类的定义和分层步骤,这样更有助于大家理解。
  • 发布了文章2021-01-05
    【机器学习笔记】:大话线性回归(一)
    线性回归作为监督学习中经典的回归模型之一,是初学者入门非常好的开始。宏观上考虑理解性的概念,我想我们在初中可能就接触过,y=ax,x为自变量,y为因变量,a为系数也是斜率。如果我们知道了a系数,那么给我一个x,我就能得到一个y,由此可以很好地为未知的x值预测...
  • 发布了文章2020-12-31
    再见 VBA!神器工具统一 Excel 和 Python
    Excel和Jupyter Notebok都是我每天必用的工具,而且两个工具经常协同工作,一直以来工作效率也还算不错。但说实在,毕竟是两个工具,使用的时候肯定会有一些切换的成本。
  • 发布了文章2020-12-07
    真香!Python十大常用文件操作
    日常对于批量处理文件的需求非常多,用Python写脚本可以非常方便地实现,但在这过程中难免会和文件打交道,第一次做会有很多文件的操作无从下手,只能找度娘。
  • 发布了文章2020-11-23
    太香了,墙裂推荐3个Python数据分析EDA神器!
    EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。
  • 发布了文章2020-11-09
    骚操作!嵌套 JSON 秒变 Dataframe!
    调用API和文档数据库会返回嵌套的JSON对象,当我们使用Python尝试将嵌套结构中的键转换为列时,数据加载到pandas中往往会得到如下结果:
  • 发布了文章2020-11-02
    安利一个Python大数据分析神器!
    Pandas和Numpy大家都不陌生了,代码运行后数据都加载到RAM中,如果数据集特别大,我们就会看到内存飙升。但有时要处理的数据并不适合RAM,这时候Dask来了。
  • 发布了文章2020-10-29
    Bong!5 款超牛逼的 Jupyter Notebook 插件!
    作者:东哥起飞微信公众号:Python数据科学本次东哥分享三个高效的Jupyter Notebook插件,每个都很实用。1、Scratchpad这个插件非常有用,我们做数据分析EDA或者特征工程时经常要各种尝试,而不是要真正的运行cell代码。这个时候在同一个notebook里来回运行就非常容...
  • 发布了文章2020-10-16
    再见,可视化!你好,Pandas!
    因此,大家在用Python做数据分析时,正常的做法是用先pandas先进行数据处理,然后再用Matplotlib、Seaborn、Plotly、Bokeh等对dataframe或者series进行可视化操作。
  • 发布了文章2020-09-29
    安利 5 个拍案叫绝的 Matplotlib 骚操作!
    大家都知道,Matplotlib是Python的可视化库,功能很强,可以绘制各种图。一些常规用法前不久分享过Matplotlib官方出品的cheatsheet:Matplotlib官方小抄手册公开,配套可视化代码已打包!
  • 发布了文章2020-06-19
    从机械转行数据科学,吐血整理了这些白嫖的学习网站
    作者:东哥起飞Python数据科学 大家好,我是东哥。 前方高能,准备开启收藏夹吃灰模式。 本篇东哥分享几个数据科学入门的学习网站,全部免费资源,且内容优质,是小白入门的不二选择。东哥当年从机械转行也从这些学习网站收获很多。 下面开始进入正题。 一、Kaggle ...
  • 发布了文章2020-06-14
    太香了!墙裂推荐6个Python数据分析神器!!
    Pandas Profiling提供数据的一个整体报告,是一个帮助我们理解数据的过程。它可以简单快速地对Pandas的数据框数据进行探索性数据分析。
  • 发布了文章2020-06-07
    太赞了!分享一个数据科学利器 PyCaret,几行代码搞定从数据处理到模型部署
    学习数据科学很久了,从数据探索、数据预处理、数据模型搭建和部署这些过程一直有些重复性的工作比较浪费时间,尤其当你有个新的想法想要快速尝试下效果的时候,效率很低。
  • 发布了文章2020-06-05
    深入理解 MySql 的 Explain
    相信大部分入门数据库的朋友都是从数据库的“增删改查”学起的。其实,对于很多搞业务的非专业技术人员而言,可能基本的增删改查也够用了,因为目的并不是要写的多好,只要能正确查到自己想要的分析的数据就可以了。
  • 发布了文章2020-04-11
    厉害了!每30秒学会一个Python小技巧,Github星数4600+
    很多学习Python的朋友在项目实战中会遇到不少功能实现上的问题,有些问题并不是很难的问题,或者已经有了很好的方法来解决。当然,孰能生巧,当我们代码熟练了,自然就能总结一些好用的技巧,不过对于那些还在刚熟悉Python的同学可能并不会那么轻松。
  • 发布了文章2020-04-05
    那些功能逆天,却鲜为人知的pandas骚操作
    pandas有一种功能非常强大的方法,它就是accessor,可以将它理解为一种属性接口,通过它可以获得额外的方法。其实这样说还是很笼统,下面我们通过代码和实例来理解一下。
  • 发布了文章2019-09-03
    数据探索很麻烦?推荐一款史上最强大的特征分析可视化工具:yellowbrick
    玩过建模的朋友都知道,在建立模型之前有很长的一段特征工程工作要做,而在特征工程的过程中,探索性数据分析又是必不可少的一部分,因为如果我们要对各个特征进行细致的分析,那么必然会进行一些可视化以辅助我们来做选择和判断。
  • 发布了文章2019-07-21
    Python一行代码搞定炫酷可视化,你需要了解一下Cufflinks
    作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 前言 学过Python数据分析的朋友都知道,在可视化的工具中,有很多优秀的三方库,比如matplotlib,seaborn,plotly,Boken,pyecharts等等。这些可视化库都有自己的特点,在实际应用中也广为大家使用...
  • 发布了文章2019-02-12
    还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法
    作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师前言当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的:“快速,灵活,富有表...
  • 发布了文章2018-10-15
    【机器学习笔记】:一文让你彻底记住什么是ROC/AUC(看不懂你来找我)
    ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到)。其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过头就忘了,经常容易将概念弄混。还有的朋友面试之前背下来了,但是一紧...