- 简单介绍
sysuse使用系统包(system datasets)
data editor(browse)或工具栏的 或者代码browse以表格形式查看数据,列表示变量(variable),行表示对变量的一次观测(observation)
数据中的dot(.)代表缺失数据
describe表示对数据结构的描述
解释:obs:观测数目; vars:变量数目; 1978 Automobile Data是data label; variable name是一个Stata Name
notes查看数据说明
summarize描述数据本身一些统计量(可简写为sum)
注意观测数据可能因为观测为文本(string)或缺失导致不同
codebook + 数据名可以详细查看一个数据
可能出现的三种类型:
string(text)
indicator variable
categorial variable
browse if missing(rep78)
list make if missing(rep78) 关心的是rep78缺失对应的make
**the command list is used for listing observations.
summarize price, detail
detail 是一个选项(option)
筛选数据
tabulate 指标指令 生成一个频数\频率分布表 one way table列联表
tabulate rep78
tabulate rep78 foreign, row
row是一个选项,按行分配百分比
summarize mpg if foreign==0
summarize mpg if foreign==1
或
by foreign, sort: summarize mpg
prefix command by 前缀命令,他有一个自己的选项sort
或
tabulate foreign, summarize (mpg)
ttest mpg, by(foreign)
简单的假设检验
correlate mpg weight
相关矩阵,简写为cor
by foreign, sort: correlate mpg weight
按照foreign 分类
correlate 可以分析多个变量,这在分析共线性过程中非常有用
简单画图
scatter mpg weight
twoway (scatter mpg weight)
加上twoway的理由:可以结合和覆盖其他的图形
分类画图
twoway (scatter mpg weight), by(foreign, total)
使用选项by(),如果使用前缀by,则分开画图而不是显示为几个子图
regress 线性回归
predict mpghat
predict命令,用在regression命令后,称之为后估计命令(postestimation command)
two way (scatter mpg weight) (line mpghat weight, sort), by(foreign)
stata’s command syntax:
核心地位是command
if in 起到限制作用qualifier
- STATA用户界面
界面:
windows, toolbar, menus, dialogs
five main windows: Review Results Command Variables Properties
检查窗口、结果窗口、命令窗口、变量窗口、属性窗口
工具条:
命令窗口:
Page Up
Page Down
Tab
结果窗口:
Ctrl+F 查询
右键/clear result
检查窗口:显示历史命令
有一个筛选按钮(可以更改筛选设置)
右键可以实现主要功能:
单击到command window,双击直接运行,可以转移到一个do-file中,或者保存代码到一个do-file中
变量窗口:
单击变量选中,双击进入command window,或者每个变量左边有一个箭头标识,单击即可。
筛选变量
排序变量:不改变数据集中的顺序
属性窗口:显示变量窗口中选中变量的属性,若选中多个变量,则显示共同属性
左上角有一个 的标志,便于更改变量的标签、数值类型与显示格式
- 使用查看器(viewer)
功能:1.查看帮助;
2.增加、删除、管理第三方扩展程序
file/view 可以选择查看的文件,包括内置的帮助文档,Stata Markup and Control Language(SMCL文件)
view + 文件路径
可以查看帮助
search commandname
- 下载和储存数据
use
sysuse
webuse
不加路径的只能是当前所在路径,见左下角的路径名称。如果文件中有空格,就必须用“”括起来
删除现有变量:clear,或在命令后加入选项, clear
从电子表格复制数据要小心,不含有空白行,空白列,重复标题,合并单元格
Importing data
Import delimited + 文件名 .txt或者.csv 默认以逗号与空格为分隔符
Import excel + 文件名 xls 或者xlsx
import delimited’s delimiters()更换分隔符
list, separator(0) 展示数据
list中超过8个字符就缩写了(~代表缩写),因此可以加入abbriviate(abb)选项
list, separator(0) abbreviate(10)
可以在导入之前写入变量名
import delimited make price mpg weight gear_ratio using "a few cars.csv"
import excel "D:\我的文档\大学学习\大四上\计量\data\Table 6.4.xls", sheet("Table 6.4") firstrow clear
保存为.dta文件
save afewcars
- Labeling data
Three locations: - The variable name is the name we use to tell Stata about a variable.
- The storage type (otherwise known as the data type) is the way in which Stata stores the data in a variable. There are six different storage types, each having its own memory requirement:
a. For integers:
byte for integers between ——127 and 100 (using 1 byte of memory per observation)
int for integers between——32,767 and 32,740 (using 2 bytes of memory per observation)
long for integers between ——2,147,483,647 and 2,147,483,620 (using 4 bytes of memory per observation)
b. For real numbers:
float for real numbers with 8.5 digits of precision (using 4 bytes of memory per
observation)
double for real numbers with 16.5 digits of precision (using 8 bytes of memory per
observation)
c. For strings (text) between 1 and 2,045 bytes (using 1 byte of memory per observation per
character for ASCII and up to 4 bytes of memory per Unicode character):
str1 for one-byte-long strings
str2 for two-byte-long strings
str3 for three-byte-long strings
……
str2045 for 2,045-byte-long strings
d. Stata also has a strL storage type for strings of arbitrary length up to 2,000,000,000 bytes.
strLs can also hold binary data, often referred to as BLOBs, or binary large objects, in databases.
The display format controls how the variable is displayed
命名数据集(data label):label data + 数据集名称, 或者在Properties框更改
命名变量名(variable label):label variable + 变量名称,或者在Properties框更改