博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Pandas dataframe 标记删除重复记录
阅读量:7060 次
发布时间:2019-06-28

本文共 683 字,大约阅读时间需要 2 分钟。

Pandas提供了duplicated、Index.duplicated、drop_duplicates函数来标记及删除重复记录

duplicated函数用于标记Series中的值、DataFrame中的记录行是否是重复,重复为True,不重复为False

pandas.DataFrame.duplicated(self, subset=None, keep='first', inplace='True')

pandas.Series.duplicated(self, keep='first')

其中参数解释如下:

subset:用于识别重复的列标签或列标签序列,默认所有列标签

keep=‘frist’:除了第一次出现外,其余相同的被标记为重复

keep='last':除了最后一次出现外,其余相同的被标记为重复

keep=False:所有相同的都被标记为重复

 

drop_duplicates函数用于删除Series、DataFrame中重复记录,并返回删除重复后的结果

pandas.DataFrame.drop_duplicates(self, subset=None, keep='first', inplace=False)

pandas.Series.drop_duplicates(self, keep='first', inplace=False)

inplace=True,  表示直接在原来的df做处理, 否则是返回一个copy

 

转载于:https://www.cnblogs.com/qingyuanjushi/p/8344181.html

你可能感兴趣的文章
可视化分析之图表选择
查看>>
linux -- ubuntu 14.10开机出现错误“Error found when loading /root/.profile”解决
查看>>
ecshop修改产品详情 折扣倒计时时间
查看>>
把linux的man手册转化为windows下可读的格式
查看>>
Cannot refer to a non-final variable inside an inner class defined in a different method
查看>>
利用Hessian如何实现Webservice
查看>>
zend studio 13 curl 请求本机地址 无法跟踪调试的问题解决方案。。。(chrome等浏览器调试原理相同)...
查看>>
大型web系统数据缓存设计
查看>>
hdu-1016素数环
查看>>
Git常用命令
查看>>
tcpkill清除异常tcp连接
查看>>
[XML] CoolFormat
查看>>
我是如何做列表页的
查看>>
戒不掉
查看>>
PHP 7 测试用例(转)
查看>>
C语言 百炼成钢4
查看>>
[转] Matlab与C++混合编程,添加OpenCV库
查看>>
js只保留整数,向上取整,四舍五入,向下取整等函数
查看>>
WebService推送数据,数据结构应该怎样定义?
查看>>
JS截取字符串常用方法详细整理&&MYSQL
查看>>