pandas DataFrame merge数据合并最重要的方法 您所在的位置:网站首页 dataframe数据合并 pandas DataFrame merge数据合并最重要的方法

pandas DataFrame merge数据合并最重要的方法

2022-10-04 16:24| 来源: 网络整理| 查看: 265

从数据库、商业分析BI(神策、友盟、growingIO、各大公司自研的Bi)、手动各种捣鼓出来的表格,整理出来了很多数据,但是往往来自不同的服务器、库、不同的表,最简单的在数据处理层把数据整合清晰处理,成为关键。这里离不开一个关键方法,pandas.DataFrame.merge()。今天把关键参数做个笔记。

left - 参与合并的左侧DataFrame或者Series名

right - 参与合并的右侧DataFrame或者Series名

how - 值为left, right, outer,inner,cross之中的一个,默认为内inner

left: 只使用左侧frame中的键,类似SQL中的 left out join,保留键排序

right: 只使用右边侧frame中的键,类似SQL中的 right out join,保留键排序

outer:使用两边键的并集,类似SQL中的 full outer join,按字典顺序排序

inner:使用两边键的交集,类似SQL中的 inner join,保留左边键排序

cross:从两侧创建笛卡尔积(cartesian product),保留左边键排序(1.2.0新增)

on - 列(名称)连接,必须在左和右DataFrame对象中存在(找到)。

left_on - 左侧DataFrame中的列用作键,可以是列名或长度等于DataFrame长度的数组。

right_on - 来自右的DataFrame的列作为键,可以是列名或长度等于DataFrame长度的数组。

left_index - 如果为True,则使用左侧DataFrame中的索引(行标签)作为其连接键。 在具有MultiIndex(分层)的DataFrame的情况下,级别的数量必须与来自右DataFrame的连接键的数量相匹配。

right_index - 与右DataFrame的left_index具有相同的用法。

sort - 按照字典顺序通过连接键对结果DataFrame进行排序。默认为True,设置为False时,在很多情况下大大提高性能。

suffixes:默认值 ("_x", "_y")。把指定的后缀分别添加到左侧和右侧重叠的列名中。

copy: 默认True,设置为False,如果可能则不复制。

关于how相关参数

关于how = 'cross' (pandas 1.2.0新增):从两侧创建笛卡尔积(cartesian product),保留左边键排序。那什么是笛卡尔积(cartesian product),由于没有联结条件的表关系返回的结果为笛卡尔积。检索出的行数是第一个表中的行数乘以第二个表中的行数。一个典型的案例是关于扑克花色。

关于how=suffixes



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有