Pandas使用的注意事项 Pandas基于NumPy构建,它遵循NumPy设定的一些规则。因此,当您在使用Pandas时,需要额外留意一些事项,避免出现一些不必要的错误。2021-10-14 11:29PandasPandas库Pandas教程Pandas和NumPy的比较 我们知道Pandas是在NumPy的基础构建而来,因此,熟悉NumPy可以更加有效的帮助我们使用Pandas。 2021-10-14 11:29PandasPandas库Pandas教程Pandas执行SQL操作 我们知道,使用SQL语句能够完成对table的增删改查操作,Pandas同样也可以实现SQL语句的基本功能。本节主要讲解Pandas如何执行SQL操作。2021-10-14 11:28PandasPandas库Pandas教程Pandas分层索引入门教程(详解) 分层索引(MultipleIndex)是Pandas中非常重要的索引类型,它指的是在一个轴上拥有多个(即两个以上)索引层数,这使得我们可以用低维度的结构来处理更高维的数据。比如,当想要处理三维及以上的高维数据时,就需要用到分层索引。2021-10-13 11:21PandasPandas库Pandas教程Pandas index操作索引 索引(index)是Pandas的重要工具,通过索引可以从DataFame中选择特定的行数和列数,这种选择数据的方式称为“子集选择”。2021-10-13 11:21PandasPandas库Pandas教程Pandas csv读写文件 我们知道,文件的读写操作属于计算机的IO操作,PandasIO操作提供了一些读取器函数,比如pd.read_csv()、pd.read_json等,它们都返回一个Pandas对象。2021-10-13 11:20PandasPandas库Pandas教程PythonPandas读取文件 当使用Pandas做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。Panda提供了多种读取数据的方法:2021-10-13 11:20PandasPandas库Pandas教程Pandas sample随机抽样 随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在Pandas中,如果想要对数据集进行随机抽样,需要使用sample()函数。2021-10-12 14:05PandasPandas库Pandas教程Pandas resample数据重采样 数据重采样是将时间序列从一个频率转换至另一个频率的过程,它主要有两种实现方式,分别是降采样和升采样,降采样指将高频率的数据转换为低频率,升采样则与其恰好相反,2021-10-12 14:04PandasPandas库Pandas教程Python Pandas分类对象 通常情况下,数据集中会存在许多同一类别的信息,比如相同国家、相同行政编码、相同性别等,当这些相同类别的数据多次出现时,就会给数据处理增添许多麻烦,导致数据集变得臃肿,不能直观、清晰地展示数据。2021-10-12 14:03PandasPandas库Pandas教程PythonPandas绘图教程(详解版) Pandas在数据分析、数据可视化方面有着较为广泛的应用,Pandas对Matplotlib绘图软件包的基础上单独封装了一个plot()接口,通过调用该接口可以实现常用的绘图操作。本节我们深入讲解一下Pandas的绘图操作。2021-10-12 14:03PandasPandas库Pandas教程PadansTimedelta时间差 Timedelta表示时间差(或者时间增量),我们可以使用不同的时间单位来表示它,比如,天、小时、分、秒。时间差的最终的结果可以是正时间差,也可以是负时间差。2021-10-11 10:57PandasPandas库Pandas教程Pandas日期时间格式化 当进行数据分析时,我们会遇到很多带有日期、时间格式的数据集,在处理这些数据集时,可能会遇到日期格式不统一的问题,此时就需要对日期时间做统一的格式化处理。比如“Wednesday,June6,2020”可以写成“6/6/20”,或者写成“06-06-2020。2021-10-11 10:57PandasPandas库Pandas教程Python Pandas时间序列详解 顾名思义,时间序列(timeseries),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票的价格会随着时间不断的波动,这里用到的一系列时间,就可以看做时间序列。时间序列包含三种应用场景,分别是:2021-10-11 10:56PandasPandas库Pandas教程Pandas concat连接操作 Pandas通过concat()函数能够轻松地将Series与DataFrame对象组合在一起,函数的语法格式如下: pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False)2021-10-11 10:55PandasPandas库Pandas教程Pandasmerge合并操作 Pandas提供的merge()函数能够进行高效的合并操作,这与SQL关系型数据库的MERGE用法非常相似。从字面意思上不难理解,merge翻译为“合并”,指的是将两个DataFrame数据表按照指定的规则进行连接,最后拼接成一个新的DataFrame数据表。2021-10-09 14:06PandasPandas库Pandas教程Pandas groupby分组操作详解 在数据分析中,经常会遇到这样的情况:根据某一列(或多列)标签把数据划分为不同的组别,然后再对其进行数据分析。比如,某网站对注册用户的性别或者年龄等进行分组,从而研究出网站用户的画像(特点)。在Pandas中,要完成数据的分组操作,需要使用groupby()函数,它和SQL的GROUPBY操作2021-10-09 14:06PandasPandas库Pandas教程Python Pandas缺失值处理 在一些数据分析业务中,数据缺失是我们经常遇见的问题,缺失值会导致数据质量的下降,从而影响模型预测的准确性,这对于机器学习和数据挖掘影响尤为严重。因此妥善的处理缺失值能够使模型预测更为准确和有效。2021-10-09 14:06PandasPandas库Pandas教程Python Pandas聚合函数 从窗口函数,我们知道,窗口函数可以与聚合函数一起使用,聚合函数指的是对一组数据求总和、最大值、最小值以及平均值的操作,本节重点讲解聚合函数的应用。2021-10-09 14:05PandasPandas库Pandas教程Pandas设置数据显示格式 在用Pandas做数据分析的过程中,总需要打印数据分析的结果,如果数据体量较大就会存在输出内容不全(部分内容省略)或者换行错误等问题。Pandas为了解决上述问题,允许你对数据显示格式进行设置。下面列出了五个用来设置显示格式的函数,分别是:2021-10-08 11:22PandasPandas库Pandas教程Python Pandas窗口函数 为了能更好地处理数值型数据,Pandas提供了几种窗口函数,比如移动函数(rolling)、扩展函数(expanding)和指数加权函数(ewm)。2021-10-08 11:22PandasPandas库Pandas教程Pandasloc/iloc用法详解 在数据分析过程中,很多时候需要从数据表中提取出相应的数据,而这么做的前提是需要先“索引”出这一部分数据。虽然通过Python提供的索引操作符"[]"和属性操作符"."可以访问Series或者DataFrame中的数据,但这种方式只适应与少量的数据,为了解决这一问题,Pandas提供了两种类型2021-10-08 11:20PandasPandas库Pandas教程Python Pandas统计函数 Pandas的本质是统计学原理在计算机领域的一种应用实现,通过编程的方式达到分析、描述数据的目的。而统计函数则是统计学中用于计算和分析数据的一种工具。在数据分析的过程中,使用统计函数有助于我们理解和分析数据。本节将学习几个常见的统计函数,比如百分比函数、协方差函数、相关系数等。2021-10-08 11:19PandasPandas库Pandas教程Python Pandas处理字符串(方法详解) Pandas提供了一系列的字符串函数,因此能够很方便地对字符串进行处理。在本节,我们使用Series对象对常用的字符串函数进行讲解。2021-09-30 11:38PandasPandas库Pandas教程Pandas去重函数:drop_duplicates() “去重”通过字面意思不难理解,就是删除重复的数据。在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重,不仅可以节省内存空间,提高写入性能,还可以提升数据集的精确度,使得数据集不受重复2021-09-30 11:38PandasPandas库Pandas教程Pandas sorting排序 Pands提供了两种排序方法,分别是按标签排序和按数值排序。本节讲解Pandas的排序操作。2021-09-30 11:37PandasPandas库Pandas教程Pandas iteration遍历 遍历是众多编程语言中必备的一种操作,比如Python语言通过for循环来遍历列表结构。那么Pandas是如何遍历Series和DataFrame结构呢?我们应该明确,它们的数据结构类型不同的,遍历的方法必然会存在差异。对于Series而言,您可以把它当做一维数组进行遍历操作;而像DataFr2021-09-30 09:44PandasPandas库Pandas教程Pandas使用自定义函数 如果想要应用自定义的函数,或者把其他库中的函数应用到Pandas对象中,有以下三种方法: 1)操作整个DataFrame的函数:pipe() 2)操作行或者列的函数:apply() 3)操作单一元素的函数:applymap()2021-09-29 11:28PandasPandas库Pandas教程Pandas reindex重置索引 重置索引(reindex)可以更改原DataFrame的行标签或列标签,并使更改后的行、列标签与DataFrame中的数据逐一匹配。通过重置索引操作,您可以完成对现有数据的重新排序。如果重置的索引标签在原DataFrame中不存在,那么该标签对应的元素值将全部填充为NaN。2021-09-29 11:27PandasPandas库Pandas教程Python Pandas描述性统计 描述统计学(descriptivestatistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas库正是对描述统计学知识完美应用的体现,可以说如果没有“描述统计学”作为理论基奠2021-09-29 11:27PandasPandas库Pandas教程