Stata是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件,与 SPSS、SAS 并称为当今三大统计软件。Stata与其他两款软件相比体积小巧、简单易懂且功能强大。一推出就受到了初学者和高级用户的普遍欢迎。在全球范围内被广泛应用于企业和学术机构中。那么如何快速入门并成为Stata高手呢?今天我们就来总结一下STATA常用的命令,希望对大家有所帮助。
1、input: 输入数据
2、by: 按照某一变量的取值来进行分析
3、weight: 加权或者頻数
4、if: 用条件语句指定条件
5、in:指定观察值的范围,对在范围内的观察值做分析处理
6、for: 用来指定变量
7、函数:
abs(x) 绝对值
exp(x) 指数函数
log(x) 自然对数
log10(x) 常用对数
sqrt(x) 平方根
uniform(x) 生成(0,1)内均匀分布的伪随机数
length(x) 计算长度
substr(s,n1,n2) 获得从S的n1个字符开始的n2个字符组成的字符串
real(x) 将字符串s转换为数值函数
trim(x) 去除字符串前面和后面的空格
int(x) 去掉x的小数部分,得到整数
sum(X) 求和
max(x) min(x) 最大值最小值
_n 当前观察值的位置
_N 观察值的总个数
8、ren: 重命名
9、des:描述数据库的基本情况
10、label: 为变量添加一些说明,以示说明
11、sort: 按照某一变量从小到大排序
gsort +/-:按照某一变量从大到小或者从小到大排序
sort var1 var2:按照var1大小排序,相同的var1按照var2大小排序
12、drop:删除变量或者记录
drop _all //清空数据库
13、keep: 与drop对应,保存变量
14、append:纵向连接数据库
15、merge:横向连接数据库
16、gen: 生成新变量
17、replace:更改变量值
renvars: 批量修改变量名
18、set obs: 增加空记录
19、format: 改变数据格式
20、l: list 将结果列出
21、su: 对分析数据进行描述,均值标准差等,与des不同,des是描述数据库变量个数,格式等
22、centile: 百分位数计算
23、tab:頻数表达
24、ci: 计算可信区间
25、直方图:
b1/t1/l1/r1("") 给各个坐标轴加标题
b2/t2/l2/r2("") 给各个坐标轴加副标题
title 给图加总标题
条图:gra x1 x2, bar by(group) sh(31) l1("rate of die") b1("comparison of rate of die")
饼图:gra x1 x2 x3 x4 x5, pie by(group) sh(31) total
散点图与线图:connect(简写c)——连接散点的方式:
. 不连接
l 直线连接
s 平滑曲线连接
|| 直线连接在同一纵向上的两点
J 阶梯式线条连接
symbol(简写s)——各个散点的图形:
O 大圆圈
S 大方块
T 大三角型
o 小圆圈
d 小菱形
p 小加号
. 小点
gra y x, xlab ylab c(l) s(d)
箱式图: gra y x, oneway/twoway box
26、方差分析:
方差齐性检验:sdtest x1=x2
sdtest x, by (group)
正态性检验: sktest x
单因素方差分析: oneway 相应变量 分组变量
两因素方差分析:anova 相应变量 分组变量1 分组变量2
多因素方差分析:anova x a b c ... a*b b*c a*b*c... //乘积项代表交互作用
27、率、构成比的比较: tab var1 var2 [fw=頻数变量]
chi2 pearson卡方检验
exact fisher确切概率法
28、等级资料:
genrank 编秩 genrank rankx=x
signtest 符号检验 类似t检验,signtest x=常数,signtest x1=x2, signrank x1=x2
signrank 符号秩和检验
ranksum/Wilcoxon 两样本秩和检验 wilcoxon var, by (group_var)
kwallis 多样本秩和检验(Kruskal-Wallis) kwallis var,by (group_var)
spearman 等级相关 spearman x y
ktau 等级相关(kendall) ktau x y
29、直线相关与回归: 相关 corr y x
回归 reg y x
估计与预测 pre yhat
画图 gra y yhat l1 l2 l3 l4 x, c(.lssss) s(oiiii) xlab() ylab()
30、多元线性回归及逐步回归:
散点图矩阵: gra y x1 x2, matrix
相关系数矩阵: corr
多元回归方程: reg y x1 x2
逐步回归: stepwise y x1-x4, forward fe(2.73)
fe代表fenter选入标准,fs代表fstay剔除标准
逐步回归法:forward,backward,stepwise,stepwise forward
例如:step y x1-x4, step fe(2.5) fs(2.6) back
31、logistic回归:
logit y x [fw=f]
blogit y x1 x2 x3/ glogit y x1 x2 x3
也可以同上做逐步Logistic回归
32、生存曲线:
中位生存时间:survsum 时间变量 截尾变量, by(分组变量)
生存曲线:kapmeier 时间变量 截尾变量, by(分组变量) // kaplan-meier生存曲线
生存率比较: 两组:wilcoxon 时间变量 截尾变量, by(分组变量)
多组:logrank 时间变量 截尾变量, by(分组变量)
COX分析: cox 时间变量 自变量, dead(截尾变量)
由于专业性和英语学习,统计专业对于留学生来说也是充满挑战的学科,想要进一步学好统计,可以寻求 online tutoring 等学术资源。
https://www.studygate.com/blog-cn/%E7%BB%9F%E8%AE%A1statistics%E4%BB%A3%E5%86%99/
https://www.studygate.com/blog-cn/stata%E4%BB%A3%E5%86%99/