东哥起飞

1446

获赞数

关注数

9349

粉丝数

北京

www.datadeepin.com

IP 属地未知

2018-01-03 加入

浏览 49k

主页回答31 提问文章62

微信公众号：Python数据科学

知乎专栏：Python数据分析

GitHub：Python数据科学

3,837 声望|专家

全站排名超越 99.64% 用户

python

2.5k

数据分析

1.4k

python爬虫

993

人工智能

588

机器学习

559

黄金勋章

暂未获得该勋章

如何获得

白银勋章

暂未获得该勋章

8 青铜勋章

个人动态

发布了文章2021-11-22
一文读懂层次聚类（Python代码）
东哥起飞
首先要说，聚类属于机器学习的无监督学习，而且也分很多种方法，比如大家熟知的有K-means。层次聚类也是聚类中的一种，也很常用。下面我先简单回顾一下K-means的基本原理，然后慢慢引出层次聚类的定义和分层步骤，这样更有助于大家理解。
发布了文章2021-01-05
【机器学习笔记】：大话线性回归（一）
东哥起飞
线性回归作为监督学习中经典的回归模型之一，是初学者入门非常好的开始。宏观上考虑理解性的概念，我想我们在初中可能就接触过，y=ax，x为自变量，y为因变量，a为系数也是斜率。如果我们知道了a系数，那么给我一个x，我就能得到一个y，由此可以很好地为未知的x值预测...
发布了文章2020-12-31
再见 VBA！神器工具统一 Excel 和 Python
东哥起飞
Excel和Jupyter Notebok都是我每天必用的工具，而且两个工具经常协同工作，一直以来工作效率也还算不错。但说实在，毕竟是两个工具，使用的时候肯定会有一些切换的成本。
发布了文章2020-12-07
真香！Python十大常用文件操作
 东哥起飞
日常对于批量处理文件的需求非常多，用Python写脚本可以非常方便地实现，但在这过程中难免会和文件打交道，第一次做会有很多文件的操作无从下手，只能找度娘。
发布了文章2020-11-23
太香了，墙裂推荐3个Python数据分析EDA神器！
东哥起飞
EDA是数据分析必须的过程，用来查看变量统计特征，可以此为基础尝试做特征工程。东哥这次分享3个EDA神器，其实之前每一个都分享过，这次把这三个工具包汇总到一起来介绍。
发布了文章2020-11-09
骚操作！嵌套 JSON 秒变 Dataframe！
东哥起飞
调用API和文档数据库会返回嵌套的JSON对象，当我们使用Python尝试将嵌套结构中的键转换为列时，数据加载到pandas中往往会得到如下结果：
发布了文章2020-11-02
安利一个Python大数据分析神器！
东哥起飞
Pandas和Numpy大家都不陌生了，代码运行后数据都加载到RAM中，如果数据集特别大，我们就会看到内存飙升。但有时要处理的数据并不适合RAM，这时候Dask来了。
发布了文章2020-10-29
Bong！5 款超牛逼的 Jupyter Notebook 插件！
东哥起飞
作者：东哥起飞微信公众号：Python数据科学本次东哥分享三个高效的Jupyter Notebook插件，每个都很实用。1、Scratchpad这个插件非常有用，我们做数据分析EDA或者特征工程时经常要各种尝试，而不是要真正的运行cell代码。这个时候在同一个notebook里来回运行就非常容...
发布了文章2020-10-16
再见，可视化！你好，Pandas！
东哥起飞
因此，大家在用Python做数据分析时，正常的做法是用先pandas先进行数据处理，然后再用Matplotlib、Seaborn、Plotly、Bokeh等对dataframe或者series进行可视化操作。
发布了文章2020-09-29
安利 5 个拍案叫绝的 Matplotlib 骚操作！
东哥起飞
大家都知道，Matplotlib是Python的可视化库，功能很强，可以绘制各种图。一些常规用法前不久分享过Matplotlib官方出品的cheatsheet：Matplotlib官方小抄手册公开，配套可视化代码已打包！
发布了文章2020-06-19
从机械转行数据科学，吐血整理了这些白嫖的学习网站
 东哥起飞
作者：东哥起飞Python数据科学大家好，我是东哥。前方高能，准备开启收藏夹吃灰模式。本篇东哥分享几个数据科学入门的学习网站，全部免费资源，且内容优质，是小白入门的不二选择。东哥当年从机械转行也从这些学习网站收获很多。下面开始进入正题。一、Kaggle ...
发布了文章2020-06-14
太香了！墙裂推荐6个Python数据分析神器！！
东哥起飞
Pandas Profiling提供数据的一个整体报告，是一个帮助我们理解数据的过程。它可以简单快速地对Pandas的数据框数据进行探索性数据分析。
发布了文章2020-06-07
太赞了！分享一个数据科学利器 PyCaret，几行代码搞定从数据处理到模型部署
 东哥起飞
学习数据科学很久了，从数据探索、数据预处理、数据模型搭建和部署这些过程一直有些重复性的工作比较浪费时间，尤其当你有个新的想法想要快速尝试下效果的时候，效率很低。
发布了文章2020-06-05
深入理解 MySql 的 Explain
东哥起飞
相信大部分入门数据库的朋友都是从数据库的“增删改查”学起的。其实，对于很多搞业务的非专业技术人员而言，可能基本的增删改查也够用了，因为目的并不是要写的多好，只要能正确查到自己想要的分析的数据就可以了。
发布了文章2020-04-11
厉害了！每30秒学会一个Python小技巧，Github星数4600+
东哥起飞
很多学习Python的朋友在项目实战中会遇到不少功能实现上的问题，有些问题并不是很难的问题，或者已经有了很好的方法来解决。当然，孰能生巧，当我们代码熟练了，自然就能总结一些好用的技巧，不过对于那些还在刚熟悉Python的同学可能并不会那么轻松。
发布了文章2020-04-05
那些功能逆天，却鲜为人知的pandas骚操作
 东哥起飞
pandas有一种功能非常强大的方法，它就是accessor，可以将它理解为一种属性接口，通过它可以获得额外的方法。其实这样说还是很笼统，下面我们通过代码和实例来理解一下。
发布了文章2019-09-03
数据探索很麻烦？推荐一款史上最强大的特征分析可视化工具：yellowbrick
东哥起飞
玩过建模的朋友都知道，在建立模型之前有很长的一段特征工程工作要做，而在特征工程的过程中，探索性数据分析又是必不可少的一部分，因为如果我们要对各个特征进行细致的分析，那么必然会进行一些可视化以辅助我们来做选择和判断。
发布了文章2019-07-21
Python一行代码搞定炫酷可视化，你需要了解一下Cufflinks
东哥起飞
作者：xiaoyu 微信公众号：Python数据科学知乎：python数据分析师前言学过Python数据分析的朋友都知道，在可视化的工具中，有很多优秀的三方库，比如matplotlib，seaborn，plotly，Boken，pyecharts等等。这些可视化库都有自己的特点，在实际应用中也广为大家使用...
发布了文章2019-02-12
还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法
 东哥起飞
作者：xiaoyu微信公众号：Python数据科学知乎：python数据分析师前言当大家谈到数据分析时，提及最多的语言就是Python和SQL。Python之所以适合数据分析，是因为它有很多第三方强大的库来协助，pandas就是其中之一。pandas的文档中是这样描述的：“快速，灵活，富有表...
发布了文章2018-10-15
【机器学习笔记】：一文让你彻底记住什么是ROC/AUC（看不懂你来找我）
东哥起飞
ROC/AUC作为机器学习的评估指标非常重要，也是面试中经常出现的问题（80%都会问到）。其实，理解它并不是非常难，但是好多朋友都遇到了一个相同的问题，那就是：每次看书的时候都很明白，但回过头就忘了，经常容易将概念弄混。还有的朋友面试之前背下来了，但是一紧...

加载更多