Dataframe取差集你记牢了吗？

最新推荐文章于 2024-05-29 15:37:58 发布

原创最新推荐文章于 2024-05-29 15:37:58 发布 · 6.7k 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

python爬虫

当前文章被收录于：

python爬虫

12 篇文章 1 人学习

订阅专栏查看详情

当前文章被以下社区和专栏收录：

本文介绍了使用Python的Pandas库高效地对两个DataFrame进行差集运算的方法，避免了传统循环遍历的低效方式。通过append和drop_duplicates函数组合，实现从df1中过滤掉在df2中存在的行，适用于大数据量场景。

哇，时间好快一个多月没更新文章了，在这一个月里发生了很多事也是没有太多时间。不过我胡汉三又回来了，哈哈，，，

废话不多说，今天我要记录一个很容易用到的知识点。就是取两个dataframe的差集，遇到这个情况我第一个想到的是循环遍历，然它一一匹配，但是慢慢我觉得小数据的速度还行，但是数据量大了以后可能会比较繁琐。不停扒网页我发现的确有简单方法：

df1 = DataFrame([['a', 10, '男'], ['b', 11, '男'], ['c', 11, '女'], ['a', 10, '女'], ['c', 11, '男']], 
columns=['name', 'age', 'sex']) 

df2 = DataFrame([['a', 10, '男'], 
                 ['b', 11, '女']],
                columns=['name', 'age', 'sex'])

取交集：print(pd.merge(df1,df2,on=['name', 'age', 'sex']))

取并集：print(pd.merge(df1,df2,on=['name', 'age', 'sex'], how='outer'))

取差集(从df1中过滤df1在df2中存在的行)：

df1 = df1.append(df2)
df1 = df1.append(df2)
df1 = df1.drop_duplicates(subset=['name', 'age', 'sex'],keep=False)
print(df1)

参考：https://blog.csdn.net/qq_40981268/article/details/85957177

标签

#python #数据分析

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ZwY*

关注关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python DataFrame 取差集实例

09-19

今天小编就为大家分享一篇python DataFrame 取差集实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Pandas求两个dataframe差集详解

guoyc439的博客

04-14

2万+

1、交集 intersected=pd.merge(df1,df2,how='inner') 延伸（针对列求交集）intersected=pd.merge(df1,df2,on['name'],how='inner') 2、差集（df1-df2为例） diff=pd.concat([df1,df2,df2]).drop_duplicates(keep=False) 差集函数的详解： 1、Pandas 通过 concat() 函数能够轻松地将 Series 与 DataFrame 对象组合在一

4 条评论您还未登录，请先登录后发表或查看评论

Datafarme求差集

蓝小白的博客

11-11

629

Pandas 两个Datafarme求差集 df1 = pd.read_excel("%s/%s" % (dir, max(file_list)), engine='openpyxl') df2 = pd.read_excel("%s/%s" % (dir, file_list[1]), engine='openpyxl') """ 第一步 """ df = df1.append(df2) """ 第二步 """ result = df.drop_duplicates(keep=False) d

Pandas中两个DataFrame求差集

Mogul的博客

03-21

1193

【代码】Pandas中两个DataFrame求差集。

python pd.DataFrame 两个取某个字段的差集

nbspzs的专栏

05-29

986

在 Pandas 中，如果你有两个 DataFrame 并且想要取某个字段的差集，可以使用 `set` 操作来实现。这可以帮助你找到在一个 DataFrame 中存在但在另一个 DataFrame 中不存在的值。这个示例展示了如何找到在 `df1` 中存在但在 `df2` 中不存在的 `id` 值。我们希望找到在 `df1` 中存在但在 `df2` 中不存在的 `id` 值。#### 方法一：使用 `set` 操作。使用 Pandas 的布尔索引取差集。使用 Pandas 的布尔索引取差集。

【Python】DataFrame差集/交集/并集求解

fengdu78的博客

07-16

6155

公众号：尤而小屋作者：Peter编辑：Peter本文讲解的是如何利用Pandas函数求解两个DataFrame的差集、交集、并集。模拟数据模拟一份简单的数据：In [1]:importpandasaspdIn [2]:df1=pd.DataFrame({"col1":[1,2,3,4,5], "col2":[6,7,8,...

python dataframe 取差集_Pandas中两个DataFrame的差集

weixin_39575047的博客

12-04

2393

在pandas中，两个DataFrame的差集并没有直接的库内置方法，现在我们希望有一种方法，就像python中set内置的求差集一样，来找到两个DataFrame的差集。>>> a=set((1,2,3))>>> a{1, 2, 3}>>> b=set((2,3,4))>>> b{2, 3, 4}>>> a...

python dataframe 取差集_Python【Pandas】取交集、并集、差集

weixin_39530839的博客

12-04

1176

前堤条件：对于colums都相同的dataframe做过滤的时候创建2个结构(列名)一致的DataFrame,df1和df2有1条重合的数据import pandas as pddf1=pd.DataFrame([['a',10,'男'],['b',11,'女']],columns=['name','age','gender'])df2=pd.DataFrame([['a',10,'男']],co...

pandas dataframe的多重索引/选取，取差集

weixin_43852674的博客

02-20

3973

取差集 from track_face_idmap.ipynb: final_abr.equals(id_time_clean) $ False .equals() 有语句只能得到一个值，这显然不能满足取dataframe之差的需求 duplicate_data = final_abr[final_abr.eq(id_time_clean) == False].dropna() .eq()会返...

python DataFrame 取差集

u012560212的博客

11-24

2万+

需求：给定一个dataframe和一个list，list中存放的是dataframe中某一列的元素，删除dataframe中与list元素重复的行（即取差集）。在网上搜了一圈，好像没看到DataFrame中取差集的方式，所以自己写了一个。方法比较繁琐，如果有更简便的方式，请留言。import pandas as pd data = [[1,2,3],[2,3,4],[3,4,5],[4,5,6]

python dataframe 取差集_python DataFrame 取差集实例

weixin_39561168的博客

12-04

435

需求：给定一个dataframe和一个list，list中存放的是dataframe中某一列的元素，删除dataframe中与list元素重复的行(即取差集)。在网上搜了一圈，好像没看到DataFrame中取差集的方式，所以自己写了一个。方法比较繁琐，如果有更简便的方式，请留言。import pandas as pddata = [[1,2,3],[2,3,4],[3,4,5],[4,5,6]]#...

python dataframe 差集_python DataFrame 取差集实例

weixin_32533957的博客

01-13

620

Pandas中两个dataframe的交集和差集

热门推荐

ljp1919的专栏

07-06

6万+

创建测试数据： import pandas as pd import numpy as np #Create a DataFrame df1 = { 'Subject':['semester1','semester2','semester3','semester4','semester1', 'semester2','semester3'], 'Score':[62,47,55,74,31,77,85]} df2 = { 'Subject':['s

python两个dataframe求差集_Pandas中两个dataframe的交集和差集的示例代码

weixin_39805644的博客

12-16

3096

创建测试数据：import pandas as pdimport numpy as np#Create a DataFramedf1 = {'Subject':['semester1','semester2','semester3','semester4','semester1','semester2','semester3'],'Score':[62,47,55,74,31,77,85]}df2...

python pandas取交集、并集、差集

weixin_40136018的博客

07-09

2万+

对于colums都相同的dataframe做过滤的时候例如： df1 = DataFrame([['a', 10, '男'], ['b', 11, '男'], ['c', 11, '女'], ['a', 10, '女'], ['c', 11, '男']...

对比集合Set | 详解Pandas的DataFrame如何做交集、并集、差集与对称差集

叶庭云成为自己的光

01-20

8740

一、简介 Python的数据类型集合：由不同元素组成的集合，集合中是一组无序排列的可 Hash 的值（不可变类型），可以作为字典的Key Pandas中的DataFrame：DataFrame是一个表格型的数据结构，可以理解为带有标签的二维数组。常用的集合操作如下图所示：二、交集 pandas的 merge 功能默认为 inner 连接，可以实现取交集集合set可以直接用 & 取交集 import pandas as pd set1 = {"Python", "Go", "C++",

python dataframe 差集_Pandas DataFrame求差集的示例代码

weixin_39675926的博客

12-20

440

在Pandas中求差集没有专门的函数。处理办法就是将两个DataFrame追加合并，然后去重。divident.append(hasThisYearDivident)noHasThisYearDivident = divident.drop_duplicates(subset='ts_code', keep=False, inplace=True, ignore_index=True)具体函数用...

spark计算两个DataFrame的差集、交集、合集

helloxiaozhe的博客

01-24

7073

spark计算两个DataFrame的差集、交集、合集闲话不说，直接上代码和结果 import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{SQLContext, SparkSession} /** * @class DataFrameFun * @author yyz * @date 2021/01/24 20:

python两个dataframe求差集_spark计算两个DataFrame的差集、交集、合集

weixin_39737368的博客

12-11

962

spark 计算两个dataframe 的差集、交集、合集，只选择某一列来对比比较好。新建两个 dataframe ：import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextdef main(args: Array[String]): Unit = {val conf = new ...

dataframe寻找两个dataframe某一列相同的差集

u013310037的博客

09-16

5604

问题提出：有以下两个数据集，df_data、df_FAIL，其中df_data的SN和df_FAIL的SerialNumber的特征是相同的，现在要找出特征在SerialNumber但是不在SN中的集合。 df_data: df_FAIL: 1. 首先寻找交集 dataframe筛选数据根据某一个列的数据在另外的一个dataframe的列中：参考链接 #找到交集 df_FAIL_IN = df_FAIL[df_FAIL["SerialNumber"].isin(df_data["SN"])] 2.