近期由於業務的調整,我終於有時間恢復這個合併資料系統的開發了。
去年,由於配合單位績效評估的需求,曾經嘗試進行子女資料合併的開發。此部分已略有雛形,簡單說明如下:
1. 併檔方式:可分為兩種。
(1) 子女資料與主樣本配對:將子女資訊與主樣本資訊合併。此方式考量每個家戶受訪子女數量不依,為統一資料長度,因此現階段規劃無法將整個家戶合併為一筆資料,僅能對主樣本及子女一對一配對。例如,某一家戶的老大及老二皆為我們的子女樣本,合併資料中,該家戶便會有兩筆資料,一筆為主樣本與老大的配對資料,一筆則為主樣本與老二的合併資訊。
(2) 歷年子女資料合併:不涉及主樣本,僅單純將子女資料由C子女問卷、RCI問卷到RR問卷完整的歷年資料合併。
2. 系統整合設計:與原先只有主問卷的系統統加以整合。加入子女題組後的系統,設計由系統主動判斷應啟動何種併檔模式。如果使用者選擇的變數中並未包含C問卷變數,則系統變主樣本併檔程序進行併檔。若選擇的變數中包含C問卷變數,系統則會啟動子女併檔模式,提供上述兩種併檔方式供使用者選擇。
3. 子女併檔的困境:
(1) 效用不明:過去應用華人家庭動態資料庫的資料進行研究的文獻中,一直缺乏應用子女資料的相關論文。因此,在進行系統開發時,也很難掌握使用者的確實需求。(如果各位看官們腦海中有任何資料結構的想像,歡迎告訴我啊!)
(2) 合併資料結構複雜:此問題尤其以「子女資料與主樣本配對」的結構最為困難。其中,部分子女資料涵蓋RCI及RR的變數,此部分變數名稱將與主樣本重複,該如何識別區分是一大難題。
4. 現況:目前子女資料合併功能開發已具雛形,系統已可運作並產生資料檔。已進行至資料併檔正確性驗證及除錯階段(於內部測試主機中,外部測試機並未包含此功能)。但由於上述問題,此部分開發擬暫時終止。
近期開發計畫,近期開發計畫將先回到主樣本資料庫的部分,先逐步將目前未含蓋的題組納入,目標希望納入2007(含)以前所有主問卷題目,以其提升主樣本資料庫的利用價值。後續再進行子女資料合併功能的開發。及後台管理系統的開發。
涵蓋資料部分,將暫時以2007資料為一切點,後續年度資料將暫緩納入,以此作為後台開發時的測試資料。
沒有留言:
張貼留言