pandas DataFrame merge数据合并最重要的方法 | 您所在的位置:网站首页 › dataframe数据合并 › pandas DataFrame merge数据合并最重要的方法 |
从数据库、商业分析BI(神策、友盟、growingIO、各大公司自研的Bi)、手动各种捣鼓出来的表格,整理出来了很多数据,但是往往来自不同的服务器、库、不同的表,最简单的在数据处理层把数据整合清晰处理,成为关键。这里离不开一个关键方法,pandas.DataFrame.merge()。今天把关键参数做个笔记。 left - 参与合并的左侧DataFrame或者Series名 right - 参与合并的右侧DataFrame或者Series名 how - 值为left, right, outer,inner,cross之中的一个,默认为内inner left: 只使用左侧frame中的键,类似SQL中的 left out join,保留键排序 right: 只使用右边侧frame中的键,类似SQL中的 right out join,保留键排序 outer:使用两边键的并集,类似SQL中的 full outer join,按字典顺序排序 inner:使用两边键的交集,类似SQL中的 inner join,保留左边键排序 cross:从两侧创建笛卡尔积(cartesian product),保留左边键排序(1.2.0新增) on - 列(名称)连接,必须在左和右DataFrame对象中存在(找到)。 left_on - 左侧DataFrame中的列用作键,可以是列名或长度等于DataFrame长度的数组。 right_on - 来自右的DataFrame的列作为键,可以是列名或长度等于DataFrame长度的数组。 left_index - 如果为True,则使用左侧DataFrame中的索引(行标签)作为其连接键。 在具有MultiIndex(分层)的DataFrame的情况下,级别的数量必须与来自右DataFrame的连接键的数量相匹配。 right_index - 与右DataFrame的left_index具有相同的用法。 sort - 按照字典顺序通过连接键对结果DataFrame进行排序。默认为True,设置为False时,在很多情况下大大提高性能。 suffixes:默认值 ("_x", "_y")。把指定的后缀分别添加到左侧和右侧重叠的列名中。 copy: 默认True,设置为False,如果可能则不复制。 关于how相关参数 关于how = 'cross' (pandas 1.2.0新增):从两侧创建笛卡尔积(cartesian product),保留左边键排序。那什么是笛卡尔积(cartesian product),由于没有联结条件的表关系返回的结果为笛卡尔积。检索出的行数是第一个表中的行数乘以第二个表中的行数。一个典型的案例是关于扑克花色。 关于how=suffixes |
CopyRight 2018-2019 实验室设备网 版权所有 |