简介 俞声博士的研究方向是医学信息学,主要研究内容包括自动术语识别、关系提取、表示学习等自然语言处理问题,以及大规模医学知识图谱构建、表型提取、临床决策支持等问题。俞声博士现任职清华大学统计学研究中心副教授、数据科学研究院 RONG 教授,归国前是电子病历驱动的基因组学研究先驱-i2b2美国国家生物医学计算中心的成员之一,在多项精准医学重点项目中承担研发任务。俞声所开发的高通量表型提取技术使i2b2疾病表型识别算法开发速度从每年1-2个提高到每年超过1000个,并应用于Veteran Affairs “Million Veteran Program”等美国国家级精准医学研究项目,方法发表于Nature Protocols。归国后,俞声发明了深度学习与图论结合的中文医学术语发现技术,解决了中文医学术语体系建设不全的难题,并于2018年带领团队通过无字典、无监督自动为影像报告生成结构化标注的技术获得解放军总医院急诊Datathon冠军。俞声博士将统计学与人工智能技术应用于医学信息领域,在电子病历文本数据分析领域取得了一系列突破性成果,每年在医学信息学顶刊 JAMIA上发表论文,并获选Editor’s Choice。2019年国际医学信息学学会年鉴将他的论文评选为年度最佳论文之一。

俞声老师

学习经历

我的研究理想,在今天看可能特俗——就是想利用模型提取海量的医疗记录里蕴藏的医生的经验,形成一个辅助医生看病的临床决策支持系统。我不指望模型能够在专科专病上胜过这个领域的专家,但是在数据、模型和知识库的全面辅助下提高基层的诊疗能力是一个合理的期待。——谈学术理想

统计之都:感谢俞老师百忙之中抽出时间接受统计之都的采访。首先您能给我们大致介绍一下您的研学经历吗?

俞声:谢谢统计之都的采访!我2007年本科毕业于南开大学统计系,之后两年在密歇根大学安娜堡分校读的统计硕士,博士在乔治华盛顿大学读的系统工程,主要研究方向是运筹学。2012年到哈佛大学做了3年博士后,开始进入医学信息学领域的研究。2015年回国,加入了清华大学统计学研究中心。

统计之都:您本科、硕士和博士的专业方向并不相同,如今您的研究方向是医学信息学,请问是什么样的契机让您决定从事目前的研究方向?

俞声:要说契机,这个必须要感谢蔡天西老师,她是我的博士后导师。我是天然就对医学,特别是医生看病的过程感兴趣的。本科做毕业设计的时候其实我本来是想做中医的数据分析,因为我一直对中医挺好奇的。正巧我舅妈是个中医大夫,我就去问她能不能给我些病历数据让我分析分析,也就是从那个时候我才知道病历数据是保密数据,不是随便能给我的。结果这个题目就没做成。后来朋友介绍了个项目,我就用当时还很新潮的支持向量机做了个阿拉伯语的语法剖析方法。后来以为这事就这么过去了,没想到博士快毕业,四处联系博士后机会的时候,蔡天西老师发现我本科毕设做过自然语言处理(NLP)问题,就问我要不要跟她做电子病历分析。我当时是喜出望外,毫不犹豫就答应了。所以其实医学信息学一直就是我想研究的方向,但是这个领域门槛很高,主要的一个问题是数据获取难。另一个问题是医学信息学很大程度上是“team science”,团队合作研究,一个团队里要有统计学家来建模和分析数据,要有医学专家提供医学知识,并且保证大家做的是一个医学上有意义的工作,要有会做NLP的人处理病历文本,要有特别了解医院数据结构的数据专家辅助,另外最好有一个领域内资深的很有专业远见的领导者。所以我特别感谢蔡老师一上来就带我进入哈佛大学i2b2生物医学计算中心这样一个很高的平台来开始我的研究。

统计之都:您当初为什么选择进入学术界呢?您的研究理想是什么?

俞声:当初进入学术界并不是因为想当老师,而主要是考虑获取医疗数据的优势。因为医疗数据毕竟是十分敏感的,而且医院也明白医疗大数据里隐藏着很大潜在的利益。所以以学校这样的非盈利机构的身份,相对更容易和医院形成合作。这是几年前的情况,现在可能有些变化了,国内也有一些企业比较成功地和医院建立了比较正式的大规模的合作,那么现在如果我找工作,去这些企业可能也是一个选择。不过另一方面,当了几年的老师,我也喜欢上和学生在一起了,而且在大学可以做一些基础性的我认为重要的长期研究,这个在多数企业可能难以接受。

我的研究理想,在今天看可能特俗——就是想利用模型提取海量的医疗记录里蕴藏的医生的经验,形成一个辅助医生看病的临床决策支持系统。我不指望模型能够在专科专病上胜过这个领域的专家,但是在数据、模型和知识库的全面辅助下提高基层的诊疗能力是一个合理的期待。说它俗是因为今天每一个搞医疗AI创业的人都会讲这个故事。但是我肯定还是要朝着这个理想来努力,因为我认为这是值得我们去付出的事业。

关于医学信息学

统计学家,以及计算机科学家也是一样,需要避免认为医学信息学只是统计方法和机器学习方法的应用,而应该是在了解行业、了解数据以及相应的条件制约与困难之后,引入各自领域的方法,有针对性地建模。董家鸿院士曾对某些学者有过批评,叫“拿着锤子找钉子”。我们需要避免做这样的研究。 ——谈医学信息学和统计学、计算机科学的关系

统计之都:您能大致介绍一下什么是医学信息学吗?您如何看待医学信息学与统计学之间的关系?

俞声:医学信息学总体来讲是个新兴学科。它其实也有好几十年的历史了,但是是这几年才渐渐进入大家的视野的,这和医院病历的电子化,以及数据科学的兴起都有关系。在过去,医学信息学研究的重点很多在数据库的设计,术语系统,编码系统等等。而现在人工智能和数据科学的性质越来越浓。医学信息学的研究范围也变得很广,除了核心的医学和医疗外,一些社会科学性质的研究,比如利用信息化技术和数据科学手段研究弱势群体的医疗状况,也都属于医学信息学的研究范围。具体了解医学信息学在干什么可以翻翻医学信息学顶刊Journal of the American Medical Informatics Association(简称JAMIA),扫一眼目录就能有所了解。偏技术的还推荐看看Journal of Biomedical Informatics(简称JBI),里面有很多更适合统计方向的人看的文章。

统计学在医学信息学里是有很大用武之地的。医学信息学是个典型的交叉科学,用统计、计算机的方法,利用大规模数据,解决医学的问题。可能因为历史原因,做医学信息学方向的统计学家目前并不多。但是我们的一些尝试发现统计学家在这个领域很有优势,审稿人很喜欢从统计角度的建模。我个人觉得比较“漂亮”的几个成果也恰恰都是统计学模型,比如高通量表型判别最终是用的混合正态模型解决的,无监督多粒度分词用的是谱聚类方法,病历结构自动分解是隐马尔可夫模型等等。所以我推荐统计学家都来探索这个领域。另外统计学家,以及计算机科学家也是一样,需要避免认为医学信息学只是统计方法和机器学习方法的应用,而应该是在了解行业、了解数据以及相应的条件制约与困难之后,引入各自领域的方法,有针对性地建模。董家鸿院士曾对某些学者有过批评,叫“拿着锤子找钉子”。我们需要避免做这样的研究。

统计之都:您认为医学信息学今后数十年的发展前景如何?医学信息学的发展会为我们带来哪些好处?

俞声:医学信息学未来几十年的发展一定是非常好的。测序技术带来了生物信息学的大发展,而病历的电子化也会带来医学信息学的大发展。未来医学信息学很可能会像生物信息学一样成为生物统计的一个新的主要研究方向。事实上我个人觉得医学信息学的规模会超过生物信息学,因为医疗是人类社会很重要的一个活动,不管是社会意义上还是经济意义上。医学涉及到的数据类型也比组学数据丰富,因此也会带来更多的研究问题。目前美国许多顶尖大学都相继设立生物医学信息学系,哈佛是2015年设立的,算是比较新的。我希望国内能赶上这波趋势。

统计之都:国内外医学信息学的发展现状是怎样的?对于该领域在国内的发展,您有何建议?

俞声:国内与国外相比,技术水平差不多,但是规模上小很多,我们做这个方向的人还太少。另外国内的一大劣势是基础设施的历史欠账。最典型的例子是术语系统。在美国做英语的电子病历分析其实不是太难,因为有一个超大型的术语数据库叫the Unified Medical Language System(简称UMLS)。这个数据库美国政府建设维护了三十多年了,是开放的,里面有几百万个医学相关概念,以及每个概念的各种名称,同义词,还有缩写。所以处理英文病历我只要做字符串匹配就好了。但是中文没有类似UMLS的东西,所以中文病历处理就会变得困难得多。所以我这几年的主要工作都是在做基础设施建设,扫平历史欠账。有了这个基础,以后才能发展好医学人工智能。

对于医学信息学在国内的发展,我猜测有一个阻碍可能是我们的教师评价体系。我们一般每一个系都会有一个可接受的期刊列表,老师发这个列表里的期刊才算考核成绩,否则不算。对于医学信息学这样的新兴学科,现有院系几乎没有将它的期刊纳入列表的,这样年轻老师就不敢进入这个学科。我比较幸运的是清华统计学研究中心的领导很开明,把JAMIA给纳入了A刊,所以我能继续做这个学科,但是其它系和其它学校就不这么乐观了。所以我想国内要想大力发展医学信息学,有必要在教师的评价方式上做些灵活调整,至少是把相应的期刊纳入接受范围。

统计之都:您和国内多家医院都有合作,根据您的观察,智能医疗在产业界的落地成效如何?

俞声:目前智能医疗相关创业公司很多,也花了很大精力去推广他们的产品。比如很多医院都在尝试上“辅助智能诊断系统”,做得好的话可以极大提高就医效率,节省医疗资源。目前的落地情况是速度很快,成效不足。速度快,是因为创业公司需要快速去占领市场,怕晚了赶不上趟。成效不足,是因为智能诊断本身难度很大,不可能一蹴而就,需要慢工出细活。仅从数据的视角来看,就有三大难点:1)数据收集难;2)数据规范难; 3)数据建模难。

数据收集难,是因为医疗数据涉及患者的健康、隐私,如何合理合法收集、使用这些数据是全世界的难题。现实层面还存在相关领导因为缺少技术背景,无法判断哪些数据合作是安全的,因此抱着“不出事”的心态,对一切数据合作层层防范。而没有数据,就很难产生有用的成果。数据规范难,包括两个层面,首先,各家医院使用的医疗设备差别很大,同样的读数背后的含义可能不一样,而且出的报告、图纸规范也不统一;第二,是整理这些材料耗时耗力,而且需要非常专业的人去干,时间和资金成本很大。我们组内也在研究许多自动的数据规范化方法。数据建模难在不同的问题里有不同的体现。比如对于诊断模型,同样的症状在不同的地区的病因可能完全不一样,因为先验分布不一样。比如一个症状,在卫生条件不好的地区可能首先会怀疑寄生虫,但在北京上海等大城市就不会首先做这种怀疑。此外还可能涉及到效费比、分级诊疗等多目标优化。因此,做出有用的能落地的智能诊疗产品无法求快,同时需要在数据获取方式上有所创新和突破。

对博士生学习的建议

深度学习确实解决很多问题,许多过去棘手的问题现在都变得相对好处理了。就算你的模型不是深度学习的,至少论文里也需要和深度学习模型做下对比。另外我很推荐医学信息学的学生多学习自然语言处理技术。自然语言处理相比前面,难度就比较高了,属于前沿技术,但是医学信息学需要处理自由文本的场景非常多,典型的就是电子病历,没有自然语言处理能力能做的研究就很局限了。其实我自己的自然语言处理能力也是当年被逼出来的,不具备这个能力就走不远。 ——谈深度学习、NLP在医学信息学中的价值

统计之都:您认为博士生需要有哪些必备素养?您对于博士生的学习、生活规划有何建议?

俞声:我片面地讲讲我的感受。博士生需要哪些必备素养可能不好一概而论,特别是科研上的素养往往取决于选择的专业方向。但是有一点科研以外的素养我认为是共通的,那就是写作与沟通。我经常发现学生工作能力很强,但是卡在写作上,论文迟迟发不出去。我经常觉得是我们的中小学没训练好,语文课没有培养好应用文写作,而且高考作文也是散文一类的辞藻华丽的容易得高分,不够重视逻辑性。这就导致许多学生写论文,宏观上找不对重点,不知道论文里应该突出什么,淡化什么;微观上东一句西一句,逻辑不连贯。我经常给学生讲,写论文一条基本准则是让人看懂——不是让你的导师看懂,而是让一个有本学科基本训练,但是没了解过你这个问题的人看懂。因此要有必要的背景介绍,让读者觉得你做的这个问题很重要;要有文献回顾,让读者知道之前什么地方没有解决好;要一点一点牵着读者走到你想给他看的结果上,想看你是怎么解决这个问题的。演讲也是类似的问题,一共给你二、三十分钟的时间,你怎么把问题背景讲清楚,把方法、结果讲清楚。或者只给你一分钟,你怎么介绍你在研究什么问题,让对方感兴趣。清华统计中心在这方面经常给同学们锻炼机会,定期安排各种类型的演讲,有三十分钟的,也有一两分钟的所谓“elevator pitch”,锻炼学生的表达能力。

另外英语能力也是很重要的。毕竟现在顶级期刊都是英文的,英文写作不好会严重耽误论文进度。英语能力没什么捷径可走,只能每天坚持读,而且还要坚持写。学生英语写作一个常见的问题是用词不对,经常是中文想说什么,汉英词典查了个英文词就按上了,但实际上这个词表达的意思和语境都不对。我这里推荐上wiktionary.org查英英释义,上面有例句。汉英词典一般能查出好几个候选,把那些词挨个儿查一遍,看例句,看哪个表达的感情色彩才是你想要的。这样肯定很慢,但你对这些词不熟只能这样,以后熟了就快了。

统计之都:您认为医学信息学博士生需要学习哪些方面的专业知识?今后能从事哪些领域的工作?

俞声:医学信息学本身是多学科交叉,学的东西比较杂,前面我说统计学在医学信息学里很吃香,但光会统计学也是不够的,计算机知识很重要,包括编程能力和基本的数据科学技能。R一般来讲是不够的,至少还得会Python,因为我们面对的数据不是给你整理好的矩阵,而是非常乱的原始数据,需要通用编程。数据结构和算法要会,靠堆硬件能提高十倍、一百倍的计算力,靠算法可以提高甚至几千倍、几万倍的计算力。机器学习肯定要会。另外这个年代深度学习也算是必会的了。深度学习确实解决很多问题,许多过去棘手的问题现在都变得相对好处理了。就算你的模型不是深度学习的,至少论文里也需要和深度学习模型做下对比。另外我很推荐医学信息学的学生多学习自然语言处理技术。自然语言处理相比前面,难度就比较高了,属于前沿技术,但是医学信息学需要处理自由文本的场景非常多,典型的就是电子病历,没有自然语言处理能力能做的研究就很局限了。其实我自己的自然语言处理能力也是当年被逼出来的,不具备这个能力就走不远。

很多同学在来我这里前都问我要不要懂医学。这个其实是不必要的,你可以边做边了解。懂医学的任务在导师身上。导师有责任了解医疗行业和医疗数据,这样才能告诉学生需要解决什么样的问题。学生暂且不用担心。

医学信息学的学生找工作太容易了,所以我经常“安利”学生来学医学信息学。医疗是刚需,不管是和平年代还是战争年代,也不管经济景气还是不景气,人生病了就要看病。而我国面临的医疗供给缺口又这么大,因此医疗大数据和人工智能百分之百是个特别庞大的市场。前面我们又说了咱们医学信息学的人才供给远远跟不上需求,你毕业了还愁找工作吗?而且即使你不喜欢医学,有了前面提到的那些训练,特别是自然语言处理,找人工智能类的工作也是超抢手的。现在人工智能这么火,各行各业都有需求,我甚至了解到房地产企业都开始搞自然语言处理了。所以学生不用担心找不到好工作。

发表/查看评论