pandas DataFrame merge数据合并最重要的方法

2022-10-04 16:24| 来源: 网络整理| 查看: 265

从数据库、商业分析BI（神策、友盟、growingIO、各大公司自研的Bi）、手动各种捣鼓出来的表格，整理出来了很多数据，但是往往来自不同的服务器、库、不同的表，最简单的在数据处理层把数据整合清晰处理，成为关键。这里离不开一个关键方法，pandas.DataFrame.merge()。今天把关键参数做个笔记。

left - 参与合并的左侧DataFrame或者Series名

right - 参与合并的右侧DataFrame或者Series名

how - 值为left, right, outer，inner，cross之中的一个，默认为内inner

left: 只使用左侧frame中的键，类似SQL中的 left out join,保留键排序

right: 只使用右边侧frame中的键，类似SQL中的 right out join,保留键排序

outer：使用两边键的并集，类似SQL中的 full outer join，按字典顺序排序

inner：使用两边键的交集，类似SQL中的 inner join，保留左边键排序

cross：从两侧创建笛卡尔积（cartesian product），保留左边键排序（1.2.0新增）

on - 列(名称)连接，必须在左和右DataFrame对象中存在(找到)。

left_on - 左侧DataFrame中的列用作键，可以是列名或长度等于DataFrame长度的数组。

right_on - 来自右的DataFrame的列作为键，可以是列名或长度等于DataFrame长度的数组。

left_index - 如果为True，则使用左侧DataFrame中的索引(行标签)作为其连接键。在具有MultiIndex(分层)的DataFrame的情况下，级别的数量必须与来自右DataFrame的连接键的数量相匹配。

right_index - 与右DataFrame的left_index具有相同的用法。

sort - 按照字典顺序通过连接键对结果DataFrame进行排序。默认为True，设置为False时，在很多情况下大大提高性能。

suffixes:默认值 ("_x", "_y")。把指定的后缀分别添加到左侧和右侧重叠的列名中。

copy: 默认True,设置为False，如果可能则不复制。

关于how相关参数

关于how = 'cross' (pandas 1.2.0新增)：从两侧创建笛卡尔积（cartesian product），保留左边键排序。那什么是笛卡尔积（cartesian product），由于没有联结条件的表关系返回的结果为笛卡尔积。检索出的行数是第一个表中的行数乘以第二个表中的行数。一个典型的案例是关于扑克花色。

关于how=suffixes

【本文地址】

公司简介

联系我们