Python做数据分析入门
在医疗卫生机构中,经常需要对大量的医疗数据进行分析和挖掘,例如患者信息、医疗记录、医药数据等。Python具有简洁、高效、易学易用的特点,能够帮助医疗机构快速处理大量的医疗数据,从而发现医疗数据中的规律和规律性,并根据分析结果制定相应的治疗方案和预测未来趋势。今天我们来介绍一下Python做基础的医学统计数据分析简单步骤。
一、Python与PyCharm的获取与安装
与R语言和RStudio类似,Python也有它的IDE(集成开发环境)-PyCharm,就是一个用来编写Python程序的软件。PyCharm带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
我们可以直接登录Pytmatchhon官网下载最新版本的安装包:https://www.python.org/;
然后登录PyCharm官网下载最新安装包:https://www.jetbrains.com/pycharm/;点击download后会出现Full-fledgedProfessional(专业版)和FreeCommunity(免费社区版)两个版本,目前用免费版本就已经可以满足日常需求,专业版可以免费试用30天或者搜索获取激活码免费试用。
我们还可以登录https://www.anaconda.com/,下载Anaconda,Anaconda指的是一个Python集成开发软件,号称有两千万用户。Anaconda基于云的存储库,可查找并安装超过7,500个数据科学和机器学习模块。Anaconda使用conda-install命令,您可以开始使用数千个开源模块。因为包含了大量的科学包,Anaconda的下载文件比较大500MB左右。
将Python与PyCharm两个安装包安装到电脑,可以按照默认路径或者自定义路径。打开PyCharm,我们可以看到编辑页面,输入法调整为英文格式,写下第一行代码print(HelloWorld!),点击运行,可以看到结果界面输出。
我们来试一下简单运算功能,将3赋值给a,将4赋值给b,计算a乘以b,点击运行可以得到结果。出现“Processfinishedwithexitcode0”即代表代码运行成功了。
二、简单的统计分析
例如我们在临床搜集到如下数据,两组研究对象,数据构成有分类变量,有数值变量,下面我们来做一个简单数据分析演示。
Python的数据分析主要依赖第三方程序包,以卡方检验为例,我们需要SciPy库中的stats.chi2_contingency函数来执行卡方检验。该函数计算两种或多种分类变量之间的卡方独立性检验的结果,返回一个包含卡方统计量、p值、自由度和期望值的元组。
Excel数据库中通过数据透视表,可以得到一个两组有效率的四格表。
我们在PyCharm新建一个kafang,py,载入stats、scipy程序包输入代码及数据。点击运行即可得到卡方检验结果输出,包括卡方统计量、p值、自由度、期望值等变量。
如何做两组数据的t检验呢?比如我们需要比较两组均值分别为5.5、4,标准差分别为1、0.8,样本量均为50的数据,可以用stats.norm.rvs()语句先来创建两组数据,然后用levene检验来检验方差齐性,用stats.ttest_1samp()语句进行独立样本t检验,或者用stats.ttest_rel()语句进行配对t检验。点击运行,即可得到t检验的分析结果。
三、读取分析Excel里的数据进行分析
我们怎么样才能读取Excel里的数据进行统计分析呢?
需要import第一xlrd(用于读取Excel文件)、第二xlwt(用于写入Excel文件)、第三个Openpyxl(用于读写Excel文件)三个程序包。使用open_workbook(‘路径’)打开excel;使用nrows(行),ncols(列)获取行与列;使用cell(row,col).value获取具体的值。
同样,Python通过pandas库可以轻松地读取Excel数据。pandas库是一个专门用于数据分析和处理的库,它可以将Excel中的数据读取为DataFrame格式,便于进行后续的数据分析和操作。使用data=pandas.read_excel()语句进行读取,print进行概览。
我们接着对Excel里的分类数据进行卡方检验,先提取需要进行卡方检验的两列,用contingency_table=pd.crosstab()语句进行列联表构建,使用statistic,p_value,dof,expected_values=chi2_contingency(contingency_table)语句进行卡方检验,print结果。
我们接着用stats.ttest_ind()语句、stats.ttest_rel()语句对Excel里的数据进行独立样本t检验或前后比较的配对样本t检验,print统计量t和显著性P值。