2011年6月21日 星期二

歷年現住地合併

目前合併資料工作正進行歷年現住地的合併工作。資料結構將打破問卷別,僅以年別區分,也就是將同一年不同問卷訪問的現住地資料記錄於同一欄位中。同時,因應不同樣本開始追蹤的時間不同,將增加一個「第一次現住地」(firstlive) 的欄位,標示受訪者第一次追蹤時的現住地。
各欄位及原始名稱對照如下表:
 
欄位名稱
問卷別
原始欄位名稱
nowlive99
ri1999
x06
nowlive00
ri2000
x06
rii2000
x06
nowlive01
rii2001
x05
nowlive02
rr2002
x05
nowlive03
rr2003
x05
ri2003
x05
nowlive04
rr2004
x06
rci2004
x06
nowlive05
rr2005
x06
 
rci2005
x06
nowlive06
rr2006
z04b

由於部分子女受訪者於第一次進行RCI問卷訪問時並未成功完訪,因此第一次訪問居住地為missing值,此為資料庫的缺陷。
在合併資料時,目前暫時將子女問卷的資訊一併納入,但第一次現住地的定義又以他第一次進入主樣本(訪問RCI)問卷為基準;因此也就會出現在子女樣本第一次現住地與第一次訪問現住地資訊不一致的情形。這部分目前還有些困擾,不確定該如何修正。
此外,現住地資訊在整個合併資料中的定位也不十分清楚,它算是很基本的題目,但因它是一個每年變動的變項,因此又不符合當初定義唯一不便基本資料的定義,所以好像不適合放在基本資料內。目前要歸在哪裡還沒想出來。
目前處理最新檔案為process.nowlive0531,仍有些missing細節需要確認。

2011年6月10日 星期五

華人家庭計畫合併資料工作說明─基本資料檔


基本資料檔目前初步已完成。目前提供計畫內部人員測試。以下為基本資料檔的說明。
一、檔案概述
基本資料檔為,合併資料模組畫設計的基礎,檔案內包含受訪者性別、年齡、出生地、最高教育程度等基本資訊,希望以此做為串連其他各題組的基礎。本次合併資料以華人家庭計畫目前已正式釋出的主樣本問卷為準,並配合樣本名單資料、問卷圖檔進行校正與串連。基本資料檔中,包含1999-2006年曾經接受過主樣本問卷(RR問卷)或子女主樣本問卷(RCI問卷)訪問的所有受訪者基本資訊。

二、欄位及處理原則說明
欄位名稱
中文名稱
選項數值說明
處理規則說明
id
受訪者編號

統一為最新7編碼規則,數字格式。
gender
性別
(1)    男性
(2)    女性
性別、年次經各波次訪問結果、樣本名單交叉比對,如有不一致的情形重新查閱圖檔確認實際年次。性別不一致情形除重新查閱圖檔外並配合身份證字號校正。
Birthy
出生年次
民國紀元年
birthloca01
請問您的出生地是
(1)   台灣
(2)   中國大陸
(3)         港澳
(4)         外國
合併第一波問卷的變項。部份子女主樣本並未問過RCI問卷,則以子女問卷的答案補充,子女問卷並沒有問birthloca03,因此此種情形birhtloca03missing。有部份子女樣本沒有問過C問卷,也沒有問過RCI,因此,此部份完全missing
Birthloca02
出生地之地區碼

Birthloca03
出生後在該地住了多久?__

Edu
請問您最高的教育程度是什麼?
(01)  
(02)   自修
(03)   小學
(04)   ()
(05) 初職 
(06) 高中普通科 
(07) 高中職業科       
(08) 高職
(09) 五專
(10) 二專
(11) 三專           
(12) 技術學院
(13) 大學
(14) 碩士
(15) 博士
(99) 遺漏值
以最後一次詢問此題的答案為準。
若回答結果為97,則重新翻查圖檔歸類。
若最後一次最高教育程度答案為96,以前一次為準。
Year
初次進入主樣本追蹤的時間
西元紀元
第一波訪問受訪者的西元年。若未經第一波訪問,過錄9999

三、樣本編號修正
在核對的問卷的過程中,發現23筆樣本編號或性別錯誤,修正清單如下:
編號
問卷代號
修正內容
5230300
ri2000
性別修正為2
6250270
ri2000
性別修正為2
210170
RR2003
性別修正為2
3210080
RR2003
編號修改為3120080
3230360
RR2003
性別修正為1
8020040
RR2003
性別修正為2
5021590
Ri2003
性別修正為2
6140060
rr2006
性別修正為1
1021130
ri2003
編號修改為1021140
1021140
ri2003
編號修改為1021130
8050050
ri2003
編號修改為8051050
8050050
rr2006
性別修正為1
1230070
RR2003
修改編號為1220070
5210990
RR2003
修改編號為5210090
10160
RR2003
修改編號為6010160
3120010
RR2003
修改編號為3130010
4290190
rr2006
修改編號為4250190
6050200
rr2003
修改編號為6040200
6010490
rr2004
修改編號為6011490
9050840
rr2002
修改編號為9050480
120221
C2004
修改編號為0120222
3160211
C2004
修改編號為3160212
7110092
C2004
修改編號為7110091

華人家庭計畫歷年資料合併檔架構


        華人家庭計畫執行已逾十年,累積資料量相當龐大且複雜,為了方便使用者分析,提高資料使用的效率,將歷年資料整併釋出成為華人家庭動態資料庫未來發展的方向。由於華人家庭計畫每年的問卷皆包含相當詳細的家庭、親屬訊息、變項相當多,直接和併歷年資料勢必使得資料長度過長,無意增加資料的複雜度及維護困難。有鑑於此,擬以模組化的主從式分散架構建立合併資料庫,以樣本編號、性別、出生年次等基本訊息建立的主資料(索引資料)做為合併資料庫的核心;將其餘資料按題組拆解成為分散架構,以題組為單位分別合併歷年資料,成為子資料。主資料與子資料間以樣本編號為索引鍵進行串連,使用者可依實際需要結合不同的子資料進行分析研究。模組化資料庫的另一優點在於可加快資料維護與釋出的速度。各模組可以分開處理,完成後獨立釋出,日後維護也可針對個別模組進行,不牽涉到其他的部份。
        計畫雖然曾經於多年前建立過一次合併資料,但因未隨著各期資料整理同步更新,因此內容已與目前釋出的單期資料有差異。為了解決差異問題,同時也藉此次合併資料工作解決歷年資料矛盾的問題,因此本次合併資料擬利用目前釋出的單期資料重新整理的方式建立。

資料建立範圍
        合併資料的範圍為1999-2006已公開釋出之資料,日後再隨資料釋出進度擴充。資料建立的第一步先以199920002003三次抽樣原始主樣本進行合併,暫時排除主樣本之子女。主樣本合併資料完成後,再陸續納入子女主樣本,最後接才進行子女問卷部份的合併工作。
合併資料建構規劃
        合併資料的初期,擬以主資料與子資料間維持一對一的對應關係建立合併資料庫。換句話說,合併資料的基本邏輯仍以「將同一位受訪者的歷年資料串連為一筆資料」的方式進行,僅將資料表按題組切割成不同的子資料表,以減少資料表的長度而已。此種資料格式較為直觀,使用者僅需下載所需要的子資料表,並按樣本編號串連後即可使用。此外,可將受訪者基本資料規劃於主資料表中,使用者可先單獨下載主資料表,瞭解樣本的資本型態,再依需求下載所需的子資料檔。但此方式也存在著兩個缺點:首先,各子資料表的長度仍會隨著合併期數的增加而不斷延長,使得資料表的複雜度逐漸增加;其次,若從資料庫的角度思考,當增加合併期數時,必須增加資料表的欄位,這也意味著資料庫的結構將隨著合併期數的增加而不斷改變,若未來合併資料以線上資料庫的形式釋出,可能會增加資料庫維護的成本和困難度。
        此階段,變數名稱將經過整理後重新命名,題目相同的變數將冠以相同的名稱,並於名稱後加「_yy[1] 以區別該變數的訪問年次。相同題目若不同時期的選項有所更動將予以保留,僅於合併資料過錄編碼簿中說明。
        若未來資料庫考慮發展為網路資料庫形式公開,為了資料庫系統的穩定及日後更新方便,擬將資料庫格式改為一對多的架構型態。所謂一對多的架構即由具有唯一鍵值(樣本編號)的主檔,及歷年資料以堆疊方式儲存的子資料表組成的資料庫型態。整個資料庫結構及欄位固定不變。主資料表僅包含樣本編號、性別、年齡等不會隨時間變動的欄位;子資料表包含樣本編號、訪問年及其他題組欄位,不同年度的資料以堆疊的方式儲存相同的欄位中,以「訪問年」及「訪問波次」作為區別。例如受訪者編號001001019992008每年皆接受訪問,則在工作題組的子資料表中,就包含10筆受訪者編號為0010010,調查年分別為199920002001...的資料。
        使用一對多的資料庫架構優點在於資料庫欄位固定,較利於使用介面操作;同時新增合併資料時,僅需將新增資料按題組及其他資料處理規則整理好後,加入各子資料表即可,不牽涉資料的合併和串連,維護較簡單。但使用者面對此資料結構,在分析時需涉及陣列與迴圈等技術的應用,技術門檻較高。或者需由計畫開發程式,將資料依使用者需求,在下載前動態轉換為受訪者編號唯一的合併資料表後再讓使用者下載;此方式牽涉程式開發,需要時間完成。
工作流程
1.      整理歷年題目及變項名稱,統一重新命名
說明:可參考聖智完成的歷年題目資料庫及之前建立合併資料時所做的PSFD_DATASET_目視表,在目視表的基礎上,利用歷年題目資料庫進行整理。
2.      規劃資料表架構,劃分子資料表(題組)
說明:決定主資料表所要包含的變數,並按題組進行規劃決定子資料表的數量及類別。
3.      建立主資料表及釋出
說明:合併主資料表,並校對性別、年次等唯一變數。完成後可先行釋出。
4.      建立子資料表,並依序釋出
說明:依序完成各子資料表,完成後可個別依序釋出。


[1] yy代表西元調查年的後兩碼。