在Python中,DataFrame是pandas库中的核心数据结构,它在数据处理中扮演着重要角色。上篇文章介绍了如何从多种数据源读取数据并转化为DataFrame。本篇将深入探讨DataFrame的基本操作,包括添加和删除行、列,排序,以及理解Series和DataFrame的关系。
首先,理解pandas中的三个关键概念:index(索引)、Series和DataFrame。索引就像是数据的“目录”,提供了一种访问特定数据的方式,例如列表的下标或字典的键。Series是一维的,类似于列表,由index和values组成,支持数字或字符串索引。
你可以通过一个简单的列表创建Series,如`Series([1, 2, 3])`,输出会显示index和values。此外,还可以根据需要指定索引,如`Series([1, 2, 3], index=['a', 'b', 'c'])`,这样就允许通过字符串索引访问数据。
DataFrame则是二维的,由行和列组成,类似于表格。每一行和每一列都是一个Series。例如,`df = pd.read_csv('tv_rating.csv')`会加载一个CSV文件,其中的每一列就是一列Series,行索引是列标题,列索引是行号。
操作DataFrame时,可以添加行或列,删除指定的行或列。例如,添加一行数据可以用`df.append()`,添加列则根据需要赋值。删除行或列则用`drop()`方法,如`df.drop('考核结果', axis=1)`删除一列。
查看和修改单个单元格是通过loc属性,如`df.loc['小亮', '籍贯'] = '广西'`。对DataFrame进行排序则是常用功能,`df.sort_values('评分', ascending=False)`可按评分从高到低排序。
此外,DataFrame还提供了`head()`和`tail()`函数来获取前N个和后N个数据,以及`shape`属性获取行数和列数。这些操作在数据分析中非常实用,帮助我们快速理解和分析数据。
温馨提示:内容为网友见解,仅供参考