推荐语: Larry Wasserman在圣诞节时挂了篇文章“Universal Inference Using the Split Likelihood Ratio Test”,看到Universal我就想起了神经网络的Universal approximation theorem,没想到统计推断也有Universal Inference了,强不强看官得自己评判了…
推荐人:高涛
链接: https://arxiv.org/abs/1912.11436
推荐语:数据共享是科研进步的重要推动力,不过隐私问题也需要规范,这篇文章考察了12篇共享了环境健康数据的研究,发现其数据特征可链接外部数据库,甚至可以以80%-98%的准确率推断出居住地址。环境暴露与污染特征也具备潜在的溯源性,例如你家空气净化器的运行频率可以耦合气象监测数据库来推测家庭住址,所谓隐私很多时候只是想不想而不是能不能的问题。
推荐人:于淼
链接:https://ehp.niehs.nih.gov/doi/10.1289/EHP4817
推荐语:Wolfram 的 mathematica 笔记本是一种非常小众的文学化编程工具,其最大的优势在于可以直连 Wolfram Knowledgebase 来直接调用各学科的知识与数据,这个案例演示的是臭虫对美国的生物入侵。
推荐人:于淼
链接:https://community.wolfram.com/groups/-/m/t/1834628
推荐语:谷歌的数据集搜索结束了beta正式发布,可看作一个数据集市场,可用来搜索用户提供的数据集,有些需要付费,也可以将自己的可公开数据集发布到上面。例如,你可以搜索 Dataset: Prices of Clothing And Shoes in New York City 来寻找纽约的衣服与鞋的销售数据。
推荐人:于淼
链接:https://datasetsearch.research.google.com/
推荐语:剑桥出版社的新书,内容是关于机器学习中的数学。涉及的数学知识比较简单、宽泛,内容不算多,精简短小。这本书更多是对基础性的知识和技巧进行了一个系统的整理,值得关注机器学习的朋友一览。
推荐人:林枫
推荐语:前些天我在 RStudio 大会上偶遇 Balasubramanian Narasimhan(斯坦福统计系的高级研究员)。他兴致勃勃给我讲了一些有趣的事情,比如吐槽一个致力于推广可重复性研究的小组的 R 代码第一行为 setwd(choose.dir())
,我看了差点没晕过去。最为有意思的当属 1999 年他与人合作的一篇 JSS 论文,因为那是我头一次见到有人真用文学化编程的手段写论文。唉呀妈呀,真是难得遇到一位知心人。
推荐人:谢益辉
链接:https://www.jstatsoft.org/article/view/v004i03
推荐语:caret
包是 R 语言里一个经典成熟的机器学习框架,类似 python 里的 scikit-learn
包,用统一的语法支持超过两百个机器学习模型,是探索性数据分析的利器,这篇教程可供初学者了解其框架。
推荐人:于淼
链接:https://towardsdatascience.com/create-predictive-models-in-r-with-caret-12baf9941236
推荐语:今年 RStudio 会议的幻灯片。
推荐人:于淼
链接:https://github.com/rstudio/rstudio-conf/tree/master/2020
会议培训课程材料:https://github.com/rstudio-conf-2020
推荐语:目前医院会采购的内置机器学习模型的软件,而这些算法被指在同样得分条件下会低估有色人种的疾病,或者说给白人更多的治疗建议而对可能付不起钱的有色人种给出更少的治疗建议。具有决策指导性的算法歧视问题值得关注与监管。
推荐人:于淼
链接:https://onezero.medium.com/hospital-algorithms-are-biased-against-black-patients-new-research-shows-7ab4cc896fb3
推荐语:谷歌地图会依赖手机使用状况来估计道路交通,因此有人就搞了个行为艺术,拖着99部打开谷歌地图的二手手机在大街小巷游走,然后那条路就被谷歌标记为了交通堵塞。如果这个方法被滥用,那么对带自动驾驶规划路线的车可能不是什么好消息。
推荐人:于淼
链接:http://www.simonweckert.com/googlemapshacks.html
注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。
发表/查看评论