2013年5月31日 星期五

配偶婚姻及工作題組匯入

經過這一陣子斷斷續續的努力,婚姻及配偶工作題組終於初步完工了。在這裡必須強調「初步」因為跨年檢誤的部分並沒有很仔細的做完。主要的原因在於配偶是會變動的,所以在按照正常跳答邏輯將missing資料補回後,很難利用更長期的資料再進行修正。個別翻查問卷曠日廢時,且能補回的資訊也十分有限,所以決定先暫停了。


資料的部分,發現RR2007年結婚未滿一年,但配偶工作沒有變化(或僅工作地改變)導致行職業、為誰工作,公司人數跳答missing。這部分查過問卷,當年訪問時已發現此問題,應有提醒訪員要追問這些題目,部分訪員有問,但key in時可能依照跳答邏輯走,所以資料沒有輸入,有十幾筆日後可補回。
另外配偶的出生年、哪裡人、最高教育程度、父親最高教育程度等資訊missing的比例相當高,不確定是我程式的問題,還是資料銜接上的問題導致missing。且跨年資料若沒有明確證據確認配偶為同一人,也很難補回。
其餘的部分還未詳細檢測,陸續找時間進行中。

再進行婚姻及配偶題組的資料處理過程中,也發現了先前受訪者工作題組處理的若干缺失,等系統穩定後,再回頭修正。

目前已將資料匯入NAS資料庫,進行測試修正。
題目的部分, 忘了之前的格式中,題目波次的題號應該與主問題table一致,導致部分題目無法顯示,需重新整理匯入中。
另外,測試堆疊形式輸出,發現不同年的調查資料會交叉串連,可能需於SQL語法中增加條件限制。
測試串連輸出部分,表頭可以正常顯示,題庫部分結構應該較無問題。婚姻及配偶部分,資料也都有抓到,初步目視應該是ok的。另外調查年出現9999數值,原因不明。資料筆數四千多筆,看起來也還算正常,應該沒有很嚴重的多對多串連情形。不過實際狀況仍有待進一步確認。

總體來說,結果算是還不錯的,至少多了一組題組沒有讓我既有的程式直接掛點,讓我放下了半顆心中的大石頭。繼續測試及修正嚕!

沒有留言:

張貼留言