Python数据分析入门
admin
2023-07-31 01:43:15
0

最近,Analysis with Programming加入了Planet Python。作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析。具体内容如下:

  1. 数据导入
    • 导入本地的或者web端的CSV文件;
  2. 数据变换;
  3. 数据统计描述;
  4. 假设检验
    • 单样本t检验;
  5. 可视化;
  6. 创建自定义函数。

数据导入

这是很关键的一步,为了后续的分析我们首先需要导入数据。通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式。在Python中,我们的操作如下:

12345678 import pandas as pd # Reading data locallydf = pd.read_csv(\’/Users/al-ahmadgaidasaad/Documents/d.csv\’) # Reading data from webdata_url = \”https://raw.githubusercontent.com/alstat/Analysis-with-Programming/master/2014/Python/Numerical-Descriptions-of-the-Data/data.csv\”df = pd.read_csv(data_url)

为了读取本地CSV文件,我们需要pandas这个数据分析库中的相应模块。其中的read_csv函数能够读取本地和web数据。

数据变换

既然在工作空间有了数据,接下来就是数据变换。统计学家和科学家们通常会在这一步移除分析中的非必要数据。我们先看看数据:

123456789101112131415161718192021 # Head of the dataprint df.head() # OUTPUT    Abra  Apayao  Benguet  Ifugao  Kalinga0   1243    2934      148    3300    105531   4158    9235     4287    8063    352572   1787    1922     1955    1074     45443  17152   14501     3536   19607    316874   1266    2385     2530    3315     8520 # Tail of the dataprint df.tail() # OUTPUT     Abra  Apayao  Benguet  Ifugao  Kalinga74   2505   20878     3519   19737    1651375  60303   40065     7062   19422    6180876   6311    6756     3561   15910    2334977  13345   38902     2583   11096    6866378   2623   18264     3745   16787    16900

对R语言程序员来说,上述操作等价于通过print(head(df))来打印数据的前6行,以及通过print(tail(df))来打印数据的后6行。当然Python中,默认打印是5行,而R则是6行。因此R的代码head(df, n = 10),在Python中就是df.head(n = 10),打印数据尾部也是同样道理。

在R语言中,数据列和行的名字通过colnames和rownames来分别进行提取。在Python中,我们则使用columns和index属性来提取,如下:

1234567891011 # Extracting column namesprint df.columns # OUTPUTIndex([u\’Abra\’, u\’Apayao\’, u\’Benguet\’, u\’Ifugao\’, u\’Kalinga\’], dtype=\’object\’) # Extracting row names or the indexprint df.index # OUTPUTInt64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78], dtype=\’int64\’)

数据转置使用T方法,

相关内容

热门资讯

Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...
Apache Doris 2.... 亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0.0 版本已于...
python清除字符串里非数字... 本文实例讲述了python清除字符串里非数字字符的方法。分享给大家供大家参考。具体如下: impor...