处理数据

PDF版本

数据集是我们研究的唯一最有价值(和最昂贵的)输出。威廉希尔老虎机如果评估花费一百万美元,难道我们不应该将底层数据集也估价为100万美元吗??
- - - - - -巴瓦尼·普拉塔普·卡西纳,前副研究主任,威廉希尔老虎机威廉体育网址J-PAL南亚,当前区域主任,亚洲和拉丁美洲,异丙醇。

确保数据安全和安全至关重要。数据必须随时备份和保护,采取适当的程序以确保符合IRB和其他研究规程。威廉希尔老虎机确保了数据的安全性,遵循适当的数据清理和分析协议对于准确结果至关重要,为了确保透明,可复制的数据分析。本节中处理的数据管理的广泛类别是:

  1. 数据安全性,备份,存储
  2. 数据清洗
  3. 数据分析

数据安全性,备份,存储

当涉及到数据存储和安全性时,有许多问题需要回答:

  1. 我们应该在哪里存储,我们该如何后退,我们的数据?应该存储在云中吗?如果不是,为什么不??
  2. 所有数据都需要密码保护吗?什么是好的密码?在团队成员之间传输密码的合适协议是什么??
  3. 什么构成了个人识别信息,还是需要加密的其他敏感数据??
  4. 如果数据要存储在非安全位置,如何删除标识符?是否可以与未获得IRB批准的用于处理已识别数据的各方共享未识别数据??
  5. 应该多久备份一次数据,应该在多少位置进行备份??
  6. 我们如何传输数据,内部和外部?什么构成安全通道用于传输数据??

对于构成敏感信息的一个分类,查阅哈佛数据分类表.

威廉体育网址J-PAL建议使用维拉克里普,安TrueCrypt的更新版本,读取并创建用于存储敏感数据的加密存储卷。然而,最近对VeraCrypt的审计发现Windows XP存在问题,这是外部VeraCrypt范围的地址。强烈鼓励任何仍在运行Windows XP的用户将他们的计算机升级到Windows 7或Windows 10。

作为社区的资源,我们已经修改了truecrypt Stata命令以使用VeraCrypT可以找到更新的包在这里.请注意,这个软件包是测试版的,如果您遇到任何问题,请提交一个问题在这里.一旦定稿,我们将通过Stata SSC归档使包可用。我们也发展了。指南安装和使用VeraCrypt软件。

盒密码子是另一个广泛用于对云中存储的数据进行加密的选项(使用诸如Box之类的服务,Dropbox,谷歌驱动器,等)

驱动器加密是对Windows操作系统上存储的所有数据进行加密的服务。

数据清洗

即使来自最佳设计的调查的数据在准备分析之前也通常需要一些准备和清洁工作。我们将需要处理输入数据的一些问题包括:

  • 数据应该如何命名,重新编码,和标签??
  • 有标准的最佳实践之前准备数据分析?应该对唯一标识符和变量值执行哪些标准检查??
  • 我们如何处理数据中的冲突??
  • 我们应该如何处理丢失的数据??
  • 检查答案的逻辑一致性以及根据调查选项验证数据中的答案的最佳方法是什么??

数据分析

在对我们项目的数据进行分析时,我们经常对两个变量之间的关系感兴趣。作为例子,我们可以利用分析:测试理论,理解变量之间的关系,预测结果,并运行仿真。影响分析的范围可以从- - - - - -比如测试个体在治疗和治疗之间是否存在统计学上的显著差异。对照组- - - - - -来越复杂- - - - - -例如,使用数据查看异构影响,估计结构模型的参数,等。

  • 对于在随机化评估中因果推理背后的理论的广泛概述,参考随机化工具包.
  • 掌握度量,一本教科书,旨在大学生由约书亚·安格瑞斯特和Jorn-Steffen Pischke,对各种研究设计中绘制因果推理背后的计量经济学有很好的指导,包括随机评价。
  • 科林·卡梅隆和Praveen Trivedi综合指南使用软件进行microeconometric分析占据。
  • 查克·休伯和大卫·德鲁克有一个一系列帖子在Stata的博客上,使用程序的治疗效果命令,““teffect."“
  • 克里斯托弗·鲍姆幻灯片(2013)关于使用Stata进行数据管理和可再现的研究包含许多有价值的提示和工具。威廉希尔老虎机
  • 有关使用软件管理和分析数据的进一步技术资源,参考软件工具部分。

请注意,实际研究资源引用的是策划为特定的研究和培训需求,仅供参威廉希尔老虎机考。William Hill手球拜托给我们发电子邮件为更多的信息。