基于Anaconda快速完成Python统计分析环境搭建
使用 Python 进行统计分析首先要安装配置 Python 编程环境,下面我们从零基础开始搭建 Python 统计分析编程环境,推荐采用 Anaconda,快速完成环境搭建。
Python 和 Anaconda
Python 官方版本
Python 官网提供的 Python 安装程序仅包括核心 Python 解释器、标准库和简单的文本编辑器 IDLE。
相比于一些专业的集成开发环境(IDE)或先进的文本编辑器,Python 官方版本:
功能有限:IDLE 作为轻量级的编辑器,它的代码补全、调试工具、项目管理、版本控制等功能相比专业IDE相对较弱。
工具缺乏:没有内置的数据科学库(如 Pandas、Matplotlib)的可视化支持,也没有方便的 Notebook 环境(如 Jupyter Notebook)。
环境管理复杂:Python 自身并不提供类似 conda 或 virtualenv 这样的强大环境管理工具,这对于需要管理多个项目及其各自依赖版本的开发者来说是个挑战。
因此,Python开发者一般会选择其他更为强大的工具,比如 PyCharm、VSCode、Jupyter Notebook 等,它们提供了更完善的开发环境和额外的功能支持。当然,对于简单的脚本编写或初学者进行基本的学习,Python 官方版本仍然是一个很好的起点。
Anaconda:著名的 Python 发行版
Anaconda 项目由 Continuum Analytics(后更名为 Anaconda, Inc.,现已被 Grafana Labs 收购)发起,其目的是为了简化科学计算和数据分析领域中 Python 环境的安装和管理。Anaconda 是一个开源的全面集成的数据科学平台,它包含了 Python 和大量的科学计算、数据分析相关的库,并集成了 conda 包管理器和环境管理系统,同时还内置了 Jupyter Notebook,极大地方便了用户在不同项目间切换 Python 环境和依赖包的管理工作。随着社区及商业支持的不断壮大,Anaconda 现已成为学术界和工业界广泛采用的数据科学工具链基础。
选择 Anaconda 作为 Python 统计分析环境具有以下优点:
Anaconda 预装了大量用于统计分析和数据科学的 Python 库,如 NumPy、Pandas、SciPy 等。这些库是 Python 数据科学和统计分析的基础,Anaconda 一站式提供,免去了逐个查找和安装的繁琐步骤。
通过 Conda 环境管理工具,Anaconda 允许用户轻松创建、管理和切换不同的 Python 环境。这对于处理不同项目间依赖冲突,以及在不同版本的库之间切换非常有用,特别是当某些统计分析项目要求特定版本的库时。
Anaconda 提供的库经过严格的测试和优化,保证了在不同操作系统上的兼容性和稳定性。对于复杂的统计计算和机器学习任务,使用预编译的库版本往往比从源代码构建更加可靠。
Anaconda 凭借其强大的包管理能力和预先整合的科学计算库,极大地方便了 Python 统计分析工作,特别是在数据科学项目中。因此,对于初学者来说,推荐安装 Anaconda 快速完成环境搭建。
Anaconda下载与安装
1. 下载 Anaconda:
点击Date右侧 按日期倒序排列,最新版本将出现在前列:
对于Windows系统(如:win10系统),最新版本为 Anaconda3-2023.09-0-Windows-x86_64.exe,大小约为1GB,点击下载即可。
Anaconda 安装包有点大,为了能快速搭建 Python 统计分析编程环境,建议初学者按此方法安装,方便快捷;对 Python 熟悉之后可以选择安装精简版的 Miniconda,安装过程在文末。
2. 安装 Anaconda:
双击下载的安装程序,按照向导指示完成安装。在安装过程中,基本只需要一路点击 Next,直至安装完成。
单选框默认选择 Just Me,也可以改为 All Users。
安装Anaconda需要空间5.7GB,默认安装在C盘,如果C盘空间够用,直接点击下一步。若C盘空间不够,可更改至其他盘。
这一步进度条时间略长,需要等一会。
上方两个对勾可以去掉,也可以不去,不影响。点击 Finish 即可完成安装。
3. 验证安装完成情况:
点击开始菜单,即可看到已经安装好的 Anaconda3(64-bit)。
安装 Anaconda 时,默认会安装 Jupyter Notebook。点击 Jupyter Notebook,即可启动。
启动完成后,会自动打开浏览器(我使用的是谷歌浏览器,其他浏览器也可以),默认地址是 http://localhost:8888/tree,页面显示正常,即说明安装成功!(注意:前面的黑屏不要关闭!)
点击右侧 New,选择 Python3(ipykernel),新建一个 Python 文档:
会自动打开一个新网页,默认名字为 Untitled
在In[ ]中输入:
print("Python统计分析")
输入完成后,点击“运行”按钮,或同时按 Ctrl+Enter 键,提交 Python 运行程序
运行结果显示在In[ ]下方
看到In[ ]中出现数字(1代表第1次执行程序),说明程序运行完毕。
至此,Python 统计分析编程环境已搭建完毕!恭喜你,可以开展统计分析了!
Jupyter Notebook
Jupyter Notebook 起始于 IPython 项目(2001年发起,旨在提升 Python 的交互式计算能力)。2011年,IPython Notebook 诞生,它是一个创新性的 Web 应用程序,允许用户在一个统一的界面中混合编写和执行代码、展示数据和可视化结果,极大地推动了数据科学与教育领域的实践方式。2014年,IPython Notebook 进一步演化为独立的开源项目——Jupyter Notebook,这一名称融合了Julia、Python 和 R 三种语言的首字母,标志着项目不仅限于 Python,还支持其他多种编程语言的交互式计算内核。在此期间,Jupyter Notebook 不断丰富和完善,整合了 Markdown 文本、LaTeX 数学公式、丰富的媒体内容嵌入等功能,成为数据科学界的标准工具之一。
Jupyter Notebook 主要优势:
交互性:Jupyter Notebook 允许用户直接在浏览器中编写、运行代码并立即看到结果。这种即时反馈机制对于探索性数据分析(EDA)和统计建模尤其重要。
动态文档:笔记本支持 Markdown 和 LaTeX,可以方便地混入文本、数学公式、图表和代码,从而创建易于阅读和理解的叙述性报告或教程。
数据可视化:内置支持 Matplotlib、Seaborn 等多种可视化库,可以直接在Notebook中嵌入高质量的数据可视化图表,这对于理解和解释统计结果至关重要。
模块性和可复用性:单个 Notebook 可以组织成多个单元格,每个单元格可以独立运行,这有助于将分析过程分解为逻辑上独立的部分,便于重用和维护。
Jupyter Notebook 因其独特的交互式和文档化特性,成为统计分析领域的理想工具,既适用于教育和科研环境,也适用于企业中的数据分析师和科学家们进行日常的数据探索和模型构建工作。
PS:如果对 Python 有一定了解,同时感觉 Anaconda 安装包1GB过大,也可以选择安装精简版 Miniconda(Miniconda 与 Anaconda 选择一个安装即可,无须都安装)。
Miniconda 下载与安装
Miniconda 是一个小型的开源包管理器和 Python 环境管理系统,它基于 Conda 构建。相较于 Anaconda 而言,Miniconda 的安装包更小,仅包含了 Conda、Python 和一些必要的库文件。通过 Miniconda,你可以轻松地创建、管理和切换不同的 Python 环境,并在各个环境中独立安装所需的 Python 包及依赖项,这有助于避免不同项目之间因为版本冲突带来的问题。Miniconda 主要用于提供一个轻量级的基础环境,让用户能够根据需要定制自己的数据分析、科学计算或其他 Python 应用相关的开发环境。
1. 下载 Miniconda:
访问 Anaconda 官网或清华大学镜像(推荐,速度快)下载适用于你操作系统的最新版 Miniconda。
Anaconda官网:https://docs.anaconda.com/free/miniconda
各种版本比较多,点击 Date 按日期排序,方便查找最新版本,对于 Windows 系统(如:win10系统),请选择 Windows 版本,最新版为:Miniconda3-py311_23.11.0-2-Windows-x86_64.exe,仅有80.5MB(确实够精简!),也可以直接下载:Miniconda3-latest-Windows-x86_64.exe,默认就是最新版。
不好找的话可以直接按 Ctrl+F 搜索,Miniconda3-latest-Windows-x86_64.exe,准确定位,下载即可。
2. 安装 Miniconda:
双击下载的安装程序,按照向导指示完成安装。在安装过程中,基本只需要一路点击 Next,直至安装完成。
单选框默认选择 Just Me,也可以改为 All Users。
安装目录默认为C盘,也可以更改为其他盘。
上方两个方框对勾默认勾选,也可以去掉,不影响。点击 Finish 完成安装。
3. 验证 Miniconda 安装完成情况:
点击开始菜单,即可看到已经安装好的 Miniconda3(64-bit)。
4. 安装Jupyter Notebook:
安装 Anaconda 时,默认会安装 Jupyter Notebook,而 Miniconda 不会默认安装 Jupyter Notebook,需要手工进行安装。
点击 Anaconda Prompt(Miniconda3),启动命令行窗口:
配置完源之后,当你运行 conda install jupyter 命令时,conda 将会从你配置过的清华大学镜像源中查找并下载 Jupyter 相关的软件包。
安装 Jupyter Notebook 的具体命令如下:
conda install jupyter notebook
输入y,会自动下载安装:
安装完毕后如下显示:
此时,查看 Windows 系统开始菜单,会发现新增了 Anaconda3(64-bit),下方有 Jupyter Notebook 快捷方式:
点击 Jupyter Notebook,即可启动。
点击右侧 New->Notebook
点击方框选中,点击 Select 按钮
在输入框中输入:
print("Python统计分析")
输入完成后,点击“▸”按钮,或同时按 Ctrl+Enter 键,提交 Python 运行程序。
显示正常,说明 Jupyter Notebook 安装完毕。
5. 安装统计分析常用 Python 库:
在 Anaconda Prompt(Miniconda3) 中输入conda install numpy pandas matplotlib,安装 numpy、pandas、matplotlib 三个最常用的库,按回车键执行
conda install numpy pandas matplotlib
在提示语后输入y,按回车自动安装完毕。
在 Jupyter Notebook 中输入:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
输入完成后,点击“▸”按钮,或同时按 Ctrl+Enter 键,提交 Python 运行程序,如下图所示,不报错,说明安装成功!
至此,Python 统计分析编程环境 Miniconda 版已搭建完毕!恭喜你,可以开展统计分析了!