STATA命令應用及詳細解釋(匯總情況).doc
- 【下載聲明】
1. 本站全部試題類文檔,若標題沒寫含答案,則無答案;標題注明含答案的文檔,主觀題也可能無答案。請謹慎下單,一旦售出,不予退換。
2. 本站全部PPT文檔均不含視頻和音頻,PPT中出現的音頻或視頻標識(或文字)僅表示流程,實際無音頻或視頻文件。請謹慎下單,一旦售出,不予退換。
3. 本頁資料《STATA命令應用及詳細解釋(匯總情況).doc》由用戶(最好的沉淀)主動上傳,其收益全歸該用戶。163文庫僅提供信息存儲空間,僅對該用戶上傳內容的表現方式做保護處理,對上傳內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知163文庫(點擊聯系客服),我們立即給予刪除!
4. 請根據預覽情況,自愿下載本文。本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
5. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007及以上版本和PDF閱讀器,壓縮文件請下載最新的WinRAR軟件解壓。
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創性部分享有著作權。
- 關 鍵 詞:
- STATA 命令 應用 詳細 解釋 匯總 情況
- 資源描述:
-
1、實用標準文案STATA命令應用及詳細解釋(匯總)調整變量格式:format x1 .3f將x1的列寬固定為10,小數點后取三位format x1 .3g將x1的列寬固定為10,有效數字取三位format x1 .3e將x1的列寬固定為10,采用科學計數法format x1 .3fc將x1的列寬固定為10,小數點后取三位,加入千分位分隔符format x1 .3gc將x1的列寬固定為10,有效數字取三位,加入千分位分隔符format x1 %-10.3gc將x1的列寬固定為10,有效數字取三位,加入千分位分隔符,加入“-”表示左對齊合并數據:use C:Documents and Setting
2、sxks桌面2006.dta, clearmerge using C:Documents and Settingsxks桌面1999.dta將1999和2006的數據按照 樣本(observation)排列的自然順序合并起來use C:Documents and Settingsxks桌面2006.dta, clearmerge id using C:Documents and Settingsxks桌面1999.dta ,unique sort將1999和2006的數據按照唯一的(unique)變量 id來合并,在合并時對id進行排序(sort)建議采用第一種方法。對樣本進行隨機篩選:sam
3、ple 50在觀測案例中隨機選取50%的樣本,其余刪除sample 50,count在 觀測案例中隨機選取50個樣本,其余刪除查看與編輯數據:browse x1 x2 if x33(按所列變量與條件打開數據查看器)edit x1 x2 if x33(按所列變量與條件打開數據編輯器)數據合并(merge)與擴展(append)merge表示樣本量不變,但增加了一些新變量;append表示樣本總量增加了,但變量數 目不變。one-to-one merge:數據源自stata tutorial中的exampw1和exampw2第一步: 將exampw1按v001v003這三個編碼排序,并建立臨時數據
4、庫tempw1clearuse t:statatutexampw1.dtasusummarize的簡寫sort v001 v002 v003save tempw1第二步:對exampw2做同樣的 處理clearuse t:statatutexampw2.dtasusort v001 v002 v003save tempw2第三步:使用tempw1數據庫,將其與tempw2合并:clearuse tempw1merge v001 v002 v003 using tempw2第四步:查看合并后的數據狀況:ta _mergetabulate _merge的簡寫su第五步:清理臨時數據庫,并刪 除_m
5、erge,以免日后合并新變量時出錯erase tempw1.dtaerase tempw2.dtadrop _merge數據擴展append:數據源自stata tutorial中的fac19和newfacclearuse t:statatutfac19.dtata regionappend using t:statatutnewfacta region合并后樣本量增加,但變量數不變莖葉圖:stem x1,line(2)(做x1的莖葉圖,每一個十分位的樹莖都被拆分成兩段來顯示,前半段為04,后半段為59)stem x1,width(2)(做x1的莖葉圖,每一個十分位的樹莖都被拆分成五段來顯示,
6、每個小樹莖的組距為2)stem x1,round(100)(將x1除以100后再做x1的莖葉圖)直方圖采用auto數據庫histogram mpg, discrete frequency normal xlabel(1(1)5)(discrete表示變量不連續,frequency表示顯示頻數,normal加入正太分布曲線,xlabel設 定x軸,1和5為極端值,(1)為單位)histogram price, fraction norm(fraction表示y軸顯示小數,除了frequency和 fraction這兩個選擇之外,該命令可替換為“percent”百分比,和“density”密度;未
7、加上discrete就表示將price當作連 續變量來繪圖)histogram price, percent by(foreign)(按照變量“foreign”的分類,將不同類樣本的 “price”繪制出來,兩個圖分左右排布)histogram mpg, discrete by(foreign, col(1)(按照變量“foreign”的分類,將不同類 樣本的“mpg”繪制出來,兩個圖分上下排布)histogram mpg, discrete percent by(foreign, total) norm(按照變量 “foreign”的分類,將不同類樣本的“mpg”繪制出來,同時繪出樣本整體的
8、“總”直方圖)二變量圖:graph twoway lfit price weight | scatter price weight(作 出price和weight的回歸線圖“lfit”,然后與price和weight的散點圖相疊加)twoway scatter price weight,mlabel(make)(做price和weight的散點圖,并在每個點上 標注“make”,即廠商的取值)twoway scatter price weight | lfit price weight,by(foreign)(按照變量 foreign的分類,分別對不同類樣本的price和weight做散點圖和
9、回歸線圖的疊加,兩圖呈左右分布)twoway scatter price weight | lfit price weight,by(foreign,col(1)(按 照變量foreign的分類,分別對不同類樣本的price和weight做散點圖和回歸線圖的疊加,兩圖呈上下分布)twoway scatter price weight fweight= displacement,msymbol(oh)(畫 出price和weight的散點圖,“msybol(oh)”表示每個點均為中空的圓圈,fweight= displacement表示每個點的大小與displacement的取值大小成比例)tw
10、oway connected y1 time,yaxis(1) | y2 time,yaxis(2)(畫出y1和y2這兩個變 量的時間點線圖,并將它們疊加在一個圖中,左邊“yaxis(1)”為y1的度量,右邊“yaxis(2)”為y2的)twoway line y1 time,yaxis(1) | y2 time,yaxis(2)(與上圖基本相同,就是沒有點,只顯 示曲線)graph twoway scatter var1 var4 | scatter var2 var4 | scatter var3 var4(做三個點圖的疊加)graph twoway line var1 var4 | li
11、ne var2 var4 | line var3 var4(做 三個線圖的疊加)graph twoway connected var1 var4 | connected var2 var4 | connected var3 var4(疊加三個點線相連圖)更多變量:graph matrix a b c y(畫出一個散點圖矩陣,顯示各變量之間所有可能的兩兩相互散點圖)graph matrix a b c d,half(生成散點圖矩陣,只顯示下半部分的三角形區域)用auto數據集:graph matrix price mpg weight length,half by(foreign,total c
12、ol(1) )(根據foreign變量的不同類型繪制price等四個變量的散點圖矩陣,要求繪出總圖,并上下 排列】=具)其他圖形:graph box y,over(x) yline(.22)(對應x的每一個取值構建y的箱型圖,并在y軸的 0.22處劃一條水平線)graph bar (mean) y,over(x)對應x的每一個取值,顯示y的平均數的條形圖。括號中的“mean”也可換成 median、sum、sd、p25、p75等graph bar a1 a2,over(b) stack(對應在b的每一個取值,顯示a1和a2的條形圖,a1和a2是疊放成一根條 形柱。若不寫入“stack”,則a1
13、和a2顯示為兩個并排的條形柱)graph dot (median)y,over(x)(畫點圖,沿著水平刻度,在x的每一個取值水平所對應的y的中位數上打點)qnorm x(畫出一幅分位-正態標繪圖)rchart a1 a2 a2(畫出質量控制R圖,顯示a1到a3的取值范圍)簡單統計量的計算:ameans x(計算變量x的算術平均值、幾何平均值和簡單調和平均值,均顯示樣本量和置信區間)mean var1 pweight = var2(求取分組數據的平均值和標準誤,var1為各組的賦值,var2為每組的頻數)summarize y x1 x2,detail(可以獲得各個變量的百分比數、最大最小值、樣
14、本量、平均數、標準差、方差、峰度、偏 度)*注意*stata中summarize所計算出來的峰度skewness和偏度kurtosis有問題,與ECELL和 SPSS有較大差異,建議不采用stata的結果。summarize var1 aweight = var2, detail(求取分組數據的統計量,var1為各組的賦 值,var2為每組的頻數)tabstat X1,stats(mean n q max min sd var cv)(計算變量X1的算術平均值、樣本量、四分位 線、最大最小值、標準差、方差和變異系數)概率分布的計算:(1)貝努利概率分布測試:webuse quickbitest
15、 quick=0.3,detail(假 設每次得到成功案例1的概率等于0.3,計算在變量quick所顯示的二項分布情況下,各種累計概率和單個概率是多少)bitesti 10,3,0.5,detail(計算當每次成功的概率為0.5時,十次抽樣中抽到三次成功案例的概率:低于或高于三次成功的累計概率和恰好三次 成功概率)(2)泊松分布概率:display poisson(7,6).44971106(計算均值為7,成功案例小于等于6個 的泊松概率)display poissonp(7,6).14900278(計算均值為7,成功案例恰好等于6個的泊松概率)display poissontail(7,6)
16、.69929172(計算均值為7,成功案例大于等于6個的泊松概率)(3)超幾何分布概率:display hypergeometricp(10,3,4,2).3(計算在樣本總量為 10,成功案例為3的樣本總體中,不重置地抽取4個樣本,其中恰好有2個為成功案例的概率)display hypergeometric(10,3,4,2).96666667(計算在樣本總量為10,成功案例為3的樣 本總體中,不重置地抽取4個樣本,其中有小于或等于2個為成功案例的概率)檢驗極端值的步驟:常見命令:tabulate、stem、codebook、summarize、list、histogram、 graph bo
17、x、gragh matrixstep1.用codebook、summarize、histogram、graph boxs、graph matrix、stem看檢驗數據的總體情況:codebook y x1 x2summarize y x1 x2,detailhistogram x1,norm(正態直方圖)graph box x1(箱圖)graph matrix y x1 x2,half(畫出各個變量的兩兩x-y圖)stem x1(做x1的莖葉圖)可以看出數據分布狀況,尤其是最大、最小值step2.用tabulate、list細致尋找極端值tabulate code if x1=極端值(作出x1
18、等于極端值時code的頻數分布表,code表示地區、年份等序列變量,這樣便可找出那些地區的數值出現了錯誤)list code if x1=極端值(直接列出x1等于極端值時code的值,當x1的錯誤過多時,不建議使用該命令)list in -20/l(l表示last one,-20表示倒數第20個樣本,該命令列出了從倒數第20個到倒數第一個樣本的各變量值)step3.用replace命令替換極端值replace x1=? if x1=極端值去除極端值:keep if y1000對數據排序:sort xgsort +x(對數據按x進行升序排列)gsort -x(對數據按x進行 降序排列)gsort
19、 -x, generate(id) mfirst(對數據按x進行降序排列,缺失值排最前,生成反映位次的變量 id)對變量進行排序:order y x3 x1 x2(將變量按照y、x3、x1、x2的順序排列)生成新變量:gen logx1=log(x1)(得出x1的對數)gen x1=exp(logx1)(將logx1反對數化)gen r61_100=1 if rank=61&rankx2,x1,x2)(若x1x2成立,則取x1,若x1x2不成立,則取x2)sort xgen gx=group(n)(將經過排序的變量x分為盡量等規模的n個組)egen zx1=std(x1)(得出x1的標準值,就
20、是用(x1-avgx1)/sdx1)egen zx1=std(x1),m(0) s(1)(得出x1的標準分,標準分的平均值為0,標準差為1)egen sdx1=sd(x1)(得出x1的標準差)egen meanx1=mean(x1)(得出x1的平均值)egen maxx1=max(x1)(最大值)egen minx1=min(x1)(最小值)egen medx1=med(x1)(中數)egen modex1=mode(x1)(眾數)egen totalx1=total(x1)(得出x1的總數)egen rowsd=sd(x1 x2 x3)(得出x1、x2和x3聯合的標準差)egen rowme
21、an=mean(x1 x2 x3)(得出x1、x2和x3聯合的平均值)egen rowmax=max(x1 x2 x3)(聯合最大值)egen rowmin=min(x1 x2 x3)(聯合最小值)egen rowmed=med(x1 x2 x3)(聯合中數)egen rowmode=mode(x1 x2 x3) (聯合眾數)egen rowtotal=total(x1 x2 x3)(聯合總數)egen xrank=rank(x)(在不改變變量x各個值排序的情況下,獲得反映x值大小排序的xrank)數據計算器display命令:display x12(顯示x的第十二個觀察值)display c
22、hi2(n,x)(自由度為n的累計卡方分布)display chi2tail(n,x)(自由度為n的反向累計卡方分布,chi2tail(n,x)=1-chi2(n,x))display invchi2(n,p)(卡方分布的逆運算,若chi2(n,x)=p,那么invchi2(n,p)=x)display invchi2tail(n,p)(chi2tail的逆運算)display F(n1,n2,f)(分子、分母自由度分別為n1和n2的累計F分布)display Ftail(n1,n2,f)(分子、分母自由度分別為n1和n2的反向累計F分布)display invF(n1,n2,P)(F分布的逆
展開閱讀全文