近期由於業務的調整,我終於有時間恢復這個合併資料系統的開發了。
去年,由於配合單位績效評估的需求,曾經嘗試進行子女資料合併的開發。此部分已略有雛形,簡單說明如下:
1. 併檔方式:可分為兩種。
(1) 子女資料與主樣本配對:將子女資訊與主樣本資訊合併。此方式考量每個家戶受訪子女數量不依,為統一資料長度,因此現階段規劃無法將整個家戶合併為一筆資料,僅能對主樣本及子女一對一配對。例如,某一家戶的老大及老二皆為我們的子女樣本,合併資料中,該家戶便會有兩筆資料,一筆為主樣本與老大的配對資料,一筆則為主樣本與老二的合併資訊。
(2) 歷年子女資料合併:不涉及主樣本,僅單純將子女資料由C子女問卷、RCI問卷到RR問卷完整的歷年資料合併。
2. 系統整合設計:與原先只有主問卷的系統統加以整合。加入子女題組後的系統,設計由系統主動判斷應啟動何種併檔模式。如果使用者選擇的變數中並未包含C問卷變數,則系統變主樣本併檔程序進行併檔。若選擇的變數中包含C問卷變數,系統則會啟動子女併檔模式,提供上述兩種併檔方式供使用者選擇。
3. 子女併檔的困境:
(1) 效用不明:過去應用華人家庭動態資料庫的資料進行研究的文獻中,一直缺乏應用子女資料的相關論文。因此,在進行系統開發時,也很難掌握使用者的確實需求。(如果各位看官們腦海中有任何資料結構的想像,歡迎告訴我啊!)
(2) 合併資料結構複雜:此問題尤其以「子女資料與主樣本配對」的結構最為困難。其中,部分子女資料涵蓋RCI及RR的變數,此部分變數名稱將與主樣本重複,該如何識別區分是一大難題。
4. 現況:目前子女資料合併功能開發已具雛形,系統已可運作並產生資料檔。已進行至資料併檔正確性驗證及除錯階段(於內部測試主機中,外部測試機並未包含此功能)。但由於上述問題,此部分開發擬暫時終止。
近期開發計畫,近期開發計畫將先回到主樣本資料庫的部分,先逐步將目前未含蓋的題組納入,目標希望納入2007(含)以前所有主問卷題目,以其提升主樣本資料庫的利用價值。後續再進行子女資料合併功能的開發。及後台管理系統的開發。
涵蓋資料部分,將暫時以2007資料為一切點,後續年度資料將暫緩納入,以此作為後台開發時的測試資料。
華人家庭動態資料庫從1999年迄今,在台灣每年進行追蹤調查,記錄了台灣五千多個家庭過去十多年來的變化。但隨著資料的不斷累積,龐大的數據資料及複雜的樣本、問卷結構使得研究者的進入障礙越來越高。為了方便使用者操作,因此有了建立合併資料的構想。這裡記錄了我的工作歷程及相關資料。也歡迎有興趣的人跟我一起討論。
2015年5月18日 星期一
「家庭決策與支出」題組重整
「家庭決策與支出」算是華人家庭動態資料庫中相當重要的一個題組。此題組加入合併資料系統已有一段時日。但由於當時資料處理的疏失,沒有將跨波次資訊匯入資料庫中,導致資料檔雖包含1999-2007年的資料,但清單中無法正常顯示,當然,也就無法正確的合併資料了。近日,為了修正此錯誤,因此將整個題組進行重整。
由於此題組並不涉及與前波訪問時狀態的跳題關係,因此處理起來較為單純。因此,僅需比對各期問卷中相對的題目及變項加以整合即可。大致處理內容如下:
1. 部分首波調查題組未納入:
分析歷年「家庭決策與支出題組」發現首波問卷的題目設計與後續追蹤問卷差距較大,部分題目僅於首波問卷詢問,部分題目於後續問卷中移至其他題組中詢問。因此,此次處理將這些問題暫時排除,僅處理後續追蹤問卷常態詢問的題目部分。首波問卷中,排除的題目包括:
(1) 請問您,下面這些事在您家中是誰的意見最重要?
(2)過去一年(十年)來,您有沒有接受過下列對象的資助或貸款?
(3) 過去一年(十年)來,您有沒有給下列對象資助或貸款?
(4) 分產
(5) 常用的交通工具
這些題目將於後續資料處理時另行考慮應如何歸類於系統中。
另外,部分題目由於提型的改變,因此對資料進行了數值調整,包含:
(1) 在去年之中,您或您的家人是否有從經營或參與投資的事業中獲利或虧損?
此題 「(6) 沒有」為RR2002獨有選項(原選項數值為3),「(4) 沒有獲利或虧損」為RR2004獨有選項,「(3) 有,去年剛好打平」及「(5)沒有經營或投資生意」為RR2005以後新增選項。配合選項整並,將「沒有」調整為6。
(2) 在去年之中,您是否曾經領取退休金?
此題2002及2004僅分為有領跟沒領;2005年起,將沒有領退休金分為「3) 有辦過退休,但去年沒領退休金」及「4) 沒有辦過退休」。2007年起有領退休金的情形增加「先領一部份,然後再按月領取,去年共領 ___________ 元」的項目。配合選項整併,因此2005年起選項重新調整,不含「(2) 沒有」。
(3) 在去年(1-12月份)之中,您是否曾經領取政府失業保險金?若有,請問是那幾個月?
系統中逐月詢問的呈現方式為2004年的問法。2002首次詢問時,是以「自月份領到 月份」方式呈現,重新編碼統一調整為2004的格式。其他年則未詢問領取月份。
(4) 在過去一年裡,您家中每個月的平均支出情況大約是?標會支出
此題於RI1999、RI2000及RI2003未分死會及活會,記錄於e10c03中。
以上說明。
由於此題組並不涉及與前波訪問時狀態的跳題關係,因此處理起來較為單純。因此,僅需比對各期問卷中相對的題目及變項加以整合即可。大致處理內容如下:
1. 部分首波調查題組未納入:
分析歷年「家庭決策與支出題組」發現首波問卷的題目設計與後續追蹤問卷差距較大,部分題目僅於首波問卷詢問,部分題目於後續問卷中移至其他題組中詢問。因此,此次處理將這些問題暫時排除,僅處理後續追蹤問卷常態詢問的題目部分。首波問卷中,排除的題目包括:
(1) 請問您,下面這些事在您家中是誰的意見最重要?
(2)過去一年(十年)來,您有沒有接受過下列對象的資助或貸款?
(3) 過去一年(十年)來,您有沒有給下列對象資助或貸款?
(4) 分產
(5) 常用的交通工具
這些題目將於後續資料處理時另行考慮應如何歸類於系統中。
另外,部分題目由於提型的改變,因此對資料進行了數值調整,包含:
(1) 在去年之中,您或您的家人是否有從經營或參與投資的事業中獲利或虧損?
此題 「(6) 沒有」為RR2002獨有選項(原選項數值為3),「(4) 沒有獲利或虧損」為RR2004獨有選項,「(3) 有,去年剛好打平」及「(5)沒有經營或投資生意」為RR2005以後新增選項。配合選項整並,將「沒有」調整為6。
(2) 在去年之中,您是否曾經領取退休金?
此題2002及2004僅分為有領跟沒領;2005年起,將沒有領退休金分為「3) 有辦過退休,但去年沒領退休金」及「4) 沒有辦過退休」。2007年起有領退休金的情形增加「先領一部份,然後再按月領取,去年共領 ___________ 元」的項目。配合選項整併,因此2005年起選項重新調整,不含「(2) 沒有」。
(3) 在去年(1-12月份)之中,您是否曾經領取政府失業保險金?若有,請問是那幾個月?
系統中逐月詢問的呈現方式為2004年的問法。2002首次詢問時,是以「自月份領到 月份」方式呈現,重新編碼統一調整為2004的格式。其他年則未詢問領取月份。
(4) 在過去一年裡,您家中每個月的平均支出情況大約是?標會支出
此題於RI1999、RI2000及RI2003未分死會及活會,記錄於e10c03中。
以上說明。
訂閱:
文章 (Atom)