PSID Data Center的購物車也是利用樹狀結構呈現,如果選擇了多年的資料,樹狀圖的第一層是按照年代排列,第二層則顯示選擇了該年的變數清單。可以勾選變數刪除,亦可直接將整個購物車清除重來。或點選check out,產生資料表。
點選check out程序共有六個部分可進行設定:
Codebook type:可設定codebook的格式,共可選擇HTML, PDF, XML也可以選擇不要產生codebook。另外,還有一個相對的選項是「只產生codebook不輸出資料」不過我想應該不會有人勾選這個吧?!
Data output type:可選擇輸出資料的格式包含ASCII Data with SAS/ SPSS/ Stata Statements, Excel檔, , SAS V9 Transport Data File共六種格式。不過這是單選提,所以一次只能選擇輸出一種格式。
Subsetting Criteria:可以提供你輸入一些條件語法,篩選變數,不過僅限購物車裡有選擇的變數。另外,語法採用SAS格式。這不禁讓我十分好奇背後的資料架構到底是什麼database?不過老實講,這樣的個開放格式讓使用者輸入語法篩選,背後勢必需要相當複雜而言僅的檢核程式,另外也增加了流程上出錯的機率,所以我目前開發的系統並不打算提供樣本篩選功能。
Subsetting of CDs and Family Members:可以選擇要輸出所有家庭成員的資料,或是指輸出小孩的部分。這應該是配合PSID樣本結構的特殊選項。
Compression Option:可以選擇是否要將相關檔案壓縮成一個zip檔。如果不選擇的話,下一步驟會將所有檔案個別的連結列出,可以一一下載。
Cart Options:可選擇是否讓目前選擇的這個資料檔公開。以及是否將下載資料的連結email到信箱一份。
全部選擇完畢後按submit就可以產生資料檔嚕!資料檔產生頁面處了下載檔案的連結外,也會顯示資料檔的基本訊息(這次選了幾個變數,包含多少樣本等等)。
另外就是兩點基本的注意事項嚕! 第一點告訴你資料檔會在七天後刪除。這句話也顯示了資料檔會在server上保留七天。另外就是,他還是強烈的建議你要下載完整的問卷檔或codebook,比較能夠看到全貌。
整個操作過程中,感覺網站的反應速度並不快,各項功能雖然不能說非常方便,但已經十分完整了。是一個非常值得觀摩學習的對象。
華人家庭動態資料庫從1999年迄今,在台灣每年進行追蹤調查,記錄了台灣五千多個家庭過去十多年來的變化。但隨著資料的不斷累積,龐大的數據資料及複雜的樣本、問卷結構使得研究者的進入障礙越來越高。為了方便使用者操作,因此有了建立合併資料的構想。這裡記錄了我的工作歷程及相關資料。也歡迎有興趣的人跟我一起討論。
2012年9月27日 星期四
2012年9月24日 星期一
PSID Data Center-資料檢視
今天不講PSFD講一下PSID Data Center。
原來,資料購物車的概念人家早就有了!而且也已經完成了。經老師的提點,我也去試用了他們的data center。基本上,我的概念與想法和PSID是相同的,所提供的功能和結果也大致相同;不過由於資料本身的特性不盡相同,加上一開始的設計理念差異,所以在產生資料的流程上仍有些許的差異。本篇先比較分析資料檢視的部分,產生資料將利用另一篇文章描述。
首先PSID的Data Center需註冊成為會員。沒有註冊會員並登入,雖然也可以瀏覽、選擇變數,但到了「結帳」的步驟仍然必須註冊會員。實際測試,若等到結帳時才登入或註冊會員,有時候網頁連線會不大正常。所以建議一開始就先登入會員。
在Data Center的首頁提供了file, cross-year index及previous carts四個選項。file和cross-year index大致都是以樹狀結構展示題目,不同的地方在於file將歷年的題目全部放在樹狀結構中,而cross-year index則是將題目整合過,將訪問波次列於後面工勾選。我目前設計的結構比較接近cross-year index,但考量同一份資料檔不同的變數選選擇的時間範圍應該差不多,所以並沒有讓使用者於每個變數逐一勾選需要的年度,而是於產生資料檔的過程中,由系統分析受訪者所選的所有變數,取可下載年份的聯集讓使用者一次勾選。換句話說,我的設計是讓受訪者統一勾選資料檔的涵蓋年度,而非個別變數的涵蓋年度。
previous carts則是一個蠻有趣的設計,當你選擇完你的資料檔後,你可以選擇將資料檔公開,這樣別人就可以看到你的資料檔了,也算是一種共享吧!至於我設計的系統,目前暫時沒有這樣的規劃。當然日後還是看研究人員的需求嚕!如果希望留個記錄,再來研究該如何規劃吧!
展示題目的樹狀結構可能考量題目過於龐大的關係,是採用javascript的非同步通訊技術完成的。題目並不會在一開始全部載入,當某一層樹狀結構展開時,電腦才向server端要求載入這一層的題目資訊。但缺點就是展開時會有loading的時間。我目前由於測試的題目有限,所以並沒有這樣處理,而是將整個樹狀結構一次載入,未來再看隨著題組增加時的執行效率調整。
點選題目,會以彈出視窗的方式顯示該提的細節,包含簡單的次數分配、選項說明。我目前的規劃並沒有將次數分配包含於詳細說明當中,將來視研究人員的需要調整。
搜尋介面顧名思義,可以輸入關鍵字搜尋題目。另外可以勾選年度、資料類別等選項限制搜尋範圍。搜尋結果是以列表的方式呈現,可直接勾選加入購物車。
原來,資料購物車的概念人家早就有了!而且也已經完成了。經老師的提點,我也去試用了他們的data center。基本上,我的概念與想法和PSID是相同的,所提供的功能和結果也大致相同;不過由於資料本身的特性不盡相同,加上一開始的設計理念差異,所以在產生資料的流程上仍有些許的差異。本篇先比較分析資料檢視的部分,產生資料將利用另一篇文章描述。
首先PSID的Data Center需註冊成為會員。沒有註冊會員並登入,雖然也可以瀏覽、選擇變數,但到了「結帳」的步驟仍然必須註冊會員。實際測試,若等到結帳時才登入或註冊會員,有時候網頁連線會不大正常。所以建議一開始就先登入會員。
在Data Center的首頁提供了file, cross-year index及previous carts四個選項。file和cross-year index大致都是以樹狀結構展示題目,不同的地方在於file將歷年的題目全部放在樹狀結構中,而cross-year index則是將題目整合過,將訪問波次列於後面工勾選。我目前設計的結構比較接近cross-year index,但考量同一份資料檔不同的變數選選擇的時間範圍應該差不多,所以並沒有讓使用者於每個變數逐一勾選需要的年度,而是於產生資料檔的過程中,由系統分析受訪者所選的所有變數,取可下載年份的聯集讓使用者一次勾選。換句話說,我的設計是讓受訪者統一勾選資料檔的涵蓋年度,而非個別變數的涵蓋年度。
previous carts則是一個蠻有趣的設計,當你選擇完你的資料檔後,你可以選擇將資料檔公開,這樣別人就可以看到你的資料檔了,也算是一種共享吧!至於我設計的系統,目前暫時沒有這樣的規劃。當然日後還是看研究人員的需求嚕!如果希望留個記錄,再來研究該如何規劃吧!
展示題目的樹狀結構可能考量題目過於龐大的關係,是採用javascript的非同步通訊技術完成的。題目並不會在一開始全部載入,當某一層樹狀結構展開時,電腦才向server端要求載入這一層的題目資訊。但缺點就是展開時會有loading的時間。我目前由於測試的題目有限,所以並沒有這樣處理,而是將整個樹狀結構一次載入,未來再看隨著題組增加時的執行效率調整。
點選題目,會以彈出視窗的方式顯示該提的細節,包含簡單的次數分配、選項說明。我目前的規劃並沒有將次數分配包含於詳細說明當中,將來視研究人員的需要調整。
搜尋介面顧名思義,可以輸入關鍵字搜尋題目。另外可以勾選年度、資料類別等選項限制搜尋範圍。搜尋結果是以列表的方式呈現,可直接勾選加入購物車。
2012年9月21日 星期五
資料產生流程完成「對接」
其實這並不是今天的進度,只是前幾天都是抽空檔在寫程式,雖然完成了,也沒空上來寫日誌,所以就利用此篇文章統一交代一下目前的進度。
目前,資料選擇與下載的流程大致定案。流程如下:
目前,資料選擇與下載的流程大致定案。流程如下:
使用者透過搜尋或樹狀圖瀏覽題目,並將有興趣的變數加入購物車。
↓
檢視購物車
↓
產生合併資料
↓
選擇下載年度
↓
選擇合併方式
↓
產生檔案
其中,可在檢視購物車中看到所選擇的變數,也可以刪除不要的變數。當變數選擇妥當後,點選「產生合併資料」便會進入下一個步驟。
接下來,系統會分析是否有選擇多次詢問的變數,如果有,會列入可選擇的年度工勾選。
下一步是選擇合併方式。共分成串連和堆疊兩種。選擇後,系統就會產生資料檔了。
今天進度:完成教育程度題組的題目及選項載入系統,目前完工的合併資料已全部載入。
下一步將進行產生「統計軟體讀檔程式」的程式撰寫,希望可以在開會前置少完成一到兩種統計軟體讀檔程式。這部分目前已知的困難有二:統計軟體讀檔需要宣告變數長度及類別,目前資料庫中沒有儲存這部分的資訊,需要整理相關資料,並在適當的資料表中插入。其次,format和label有長度限制,恐無法直接由題目及選項資料表中載入,還要想想該如何解決。
2012年9月3日 星期一
題目資料庫的暫時處理方式
接續前篇。
考量開發時程限制,題目資料庫目前暫時先直接以codebook的形式帶入(以變數為主)。參考PSID的形式,設計以樹狀圖結構的方式呈現題組及題目(變數)。另外也設計搜尋介面。
目前此方式的缺點在於對單題多選項的題目或是量表題組而言,比較不容易看到題目的全貌。未來可考慮在現行的架構下,增加題目的文字描述,方便使用者瞭解。或是增加一個完整題目的資料庫,雖然此舉會增資資料維護的複雜度,但我認為在題目的呈現上會比較完整。
目前,樹狀結構、搜尋介面及詳細資料描述頁面都已初步完成。今日並完成選擇變數功能(購物車)的開發,待完成變數清單與確認(結帳)功能後,資料搜尋與資料輸出兩部分變算是完成初步的「對接」了。
另外,題目資料庫目前只暫時將基本資料及工作訊息兩部分的「題目」及「選項」匯入,還有很多描述細節有待後續慢慢補充。另外,教育題組的資訊也還有待整理匯入。
考量開發時程限制,題目資料庫目前暫時先直接以codebook的形式帶入(以變數為主)。參考PSID的形式,設計以樹狀圖結構的方式呈現題組及題目(變數)。另外也設計搜尋介面。
目前此方式的缺點在於對單題多選項的題目或是量表題組而言,比較不容易看到題目的全貌。未來可考慮在現行的架構下,增加題目的文字描述,方便使用者瞭解。或是增加一個完整題目的資料庫,雖然此舉會增資資料維護的複雜度,但我認為在題目的呈現上會比較完整。
目前,樹狀結構、搜尋介面及詳細資料描述頁面都已初步完成。今日並完成選擇變數功能(購物車)的開發,待完成變數清單與確認(結帳)功能後,資料搜尋與資料輸出兩部分變算是完成初步的「對接」了。
另外,題目資料庫目前只暫時將基本資料及工作訊息兩部分的「題目」及「選項」匯入,還有很多描述細節有待後續慢慢補充。另外,教育題組的資訊也還有待整理匯入。
訂閱:
文章 (Atom)