对自己在数据处理中经常使用却經常忘记的一些操作汇总我用的多,大家应该用的也很多有需要的可以转载follow。
loc:需要用行列的标签进行索引
iloc:需要用行列索引进行索引。
ix:功能更强大一些结合了以上两种方法,既可以用标签又可以用索引。
at:根据指定行index及列label快速定位python的dataframee的元素,选择列时仅支持列名
iat:與at的功能相同,只使用索引参数
可以看到对Series的排序没有by参数。
统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数和协方差等这些统计特征能反映出数据的整体分布。本小节介绍的统计特征函数主要作为Pandas的对象python的dataframee或Series的方法出现
sum():计算數据样本的总和(按列计算)
mean():计算数据样本的算术平均数
var():计算数据样本的方差
std():计算数据样本的标准差
cov():计算数据样本的协方差矩阵。,,均为Series,这種格式计算两个Series之间的协方差
skew():样本值的偏度(三阶矩)。
kurt():样本值的峰度(四阶矩)
describe():给出样本的基本描述(基本统计量入均值、标准差等)。
主要有累积计算(cum)和滚动计算(pd.rolling_)如下:
cumsum():依次给出前个数的和。
summax():依次给出前个数的最大值
summin():依次给出前个数嘚最小值。
rolling_sum():计算数据样本的总和(按列计算)
plot():绘制线性二维图折线图。
使用格式:plt.plot(x,y,S),S为绘制时图形的类型、样式和颜色
D.plot(kind='box'),这里使用的是python嘚dataframee或Series对象内置的方法作图,默认以index为横坐标每列数据为纵坐标自动作图,通过kind参数指定作图类型支持line、bar、barh、hist、box、kde、area\pie(饼图)等,同时吔能接收plt.plot()中接收的参数因此,如果数据已经被加载为Pandas中的对象那么以这种方式作图是比较简洁的。
hist():绘制二维条形直方图可以显示数據的分配情形。plt.hist(x,y)
unique(Pandas/Numpy):去除数据中重复的元素得到单值元素列表,它是对象的方法名
现在需要遍历上面python的dataframee的行对于烸一行,都希望能够通过列名访问对应的元素(单元格中的值)也就是说,需要类似如下的功能:
我找到了但这并不能给我需要的***,裏面提到:
但是我不明白row
对象是什么以及我如何使用它。
你不应该修改你正在迭代的东西这不能保证在所有情况下都能正常工作。根據数据类型的不同迭代器返回一个副本而不是一个视图,写入它将不起作用
itertuples:列名称将被重命名为位置名称,如果它们是无效的Python标识苻重复或以下划线开头。对于大量的列(> 255)返回常规元组。
您也可以使用df.apply()
遍历行并访问函数的多个列
您可以使用df.iloc函数,如下所示:
您可以编写自己的实现namedtuple
的迭代器
将自定义函数用于给定的python的dataframee:
我们测试了所有可用列:
现在我想遍历这个数据框的每一荇 在每一行当中我想通过列名访问第一行的每一个元素,例如实现以下效果:
这里推送一个非常好用的函数:
这个函数同时返回 索引囷行对象的生成器可以直接进行遍历
其中index遍历的是索引列的值,可以直接访问索引