評估二手數據必不可少的五個具體標準是什么?
在我的職業生涯中,我經常使用二手數據,所以以下是我的觀察:
首先,誰產生了數據,為什么?
- 它是否是可靠的來源,例如政府統計機構(例如加拿大統計局)?這并不是說政府消息來源不能有偏見。
- 是學術論文嗎?同行評審的來源通常很好,但您也必須小心那里可能存在的偏見。
- 它是一個倡導團體還是一個“智囊團”?就其基礎數據而言,這些不一定是壞事。他們的問題通常在于他們對報告中數據的“旋轉”,他們關注的事情和他們忽略的事情。你總是要考慮“他們的角度是什么?”這個問題。
- 是民意調查公司嗎?這些結果可能很有用,但它們也有很多變化,尤其是在進行贊助投票時。你必須仔細考慮他們如何表達問題,他們選擇檢查的主題,諸如此類。
他們是否透露了他們的數據來源?
- 如果他們不解釋他們是如何獲得數據的,它可能不是很可靠。事實上,它甚至可能是由數據組成的。
- 您能否訪問他們的數據或他們使用的來源。如果是這樣,那么檢查一下是個好主意。
- 有時,次要資源有很長的來源鏈,它們所依賴的資源鏈很長,當你深入了解它時,那里并不多,或者它不是你想象的那樣。
數據是否最新且與您的需求相關?
- 如果數據過去太遠,它可能沒有用,甚至可能會產生誤導。1975 年關于人們對蘇聯態度的民意調查可能對當今人們對俄羅斯的態度沒有多少信息。
- 也就是說,你可能會在很長一段時間內將一堆二手調查結果放在一起,這可能很有趣(例如,當蘇聯解體時,人們對俄羅斯的態度是否發生了變化,或者它們是否“具有粘性”)。因此,舊數據仍然可以有洞察力。如果它是關于本質上是時間不變的東西,則尤其如此。
- 但是,二手數據應該與您感興趣的問題相關。因此,您必須再次仔細考慮二手數據的真正含義。
- 是在您感興趣的分析單位上嗎?例如,如果您對城市級別的數據感興趣,那么州或省級別的輔助數據可能并不真正適合您的需求,盡管它可能很適合使用。所以,提防諸如生態謬誤之類的事情。
但總的來說,如果仔細考慮,二手數據可能非常有用。
例如,我正在研究國家層面的強制性口罩法對 Covid 率的影響。我的主要來源是一個非常正面的面具網站,以獲取有關面具法律的數據和 Covid 相關數據的 GitHub 存儲庫。
我認為口罩陽性網站是一個可靠的信息來源,目的是了解哪些國家/地區制定了口罩法以及何時通過了這些法律。至于 GitHub 數據,是約翰霍普金斯大學出品的,所以這是一個非常可靠的來源。但即便如此,我發現最好從其他來源(例如有關口罩法的政府網站)抽查一些數據點。
因此,正如戈爾巴喬夫不久前所說,這個故事的寓意是“信任但要驗證”。但是,絕對可以從二手資料中獲得一些聲明。
本站所有相關知識僅供大家參考、學習之用,部分來源于互聯網,其版權均歸原作者及網站所有,如無意侵犯您的權利,請與小編聯系,我們將會在第一時間核實并給予反饋。