|
|
來(lái)自中國(guó)博士生的奇跡:72小時(shí)寫(xiě)稿,32小時(shí)過(guò)審,被引近萬(wàn)次 |
|
當(dāng)?shù)弥聜€(gè)月就要告別親手創(chuàng)建的新冠疫情儀表盤(pán),董恩盛五味雜陳,他在朋友圈寫(xiě)道:感謝大家的關(guān)注與支持!愿全球疫情早日完全結(jié)束!
疫情該翻頁(yè)了。就在2月,美國(guó)約翰·霍普金斯大學(xué)(JHU)通告稱,該校于2020年1月開(kāi)發(fā)的用于跟蹤新冠疫情的儀表盤(pán)將于3月10日終止運(yùn)作。
深黑底色點(diǎn)綴著或大或小的紅圈,左右兩側(cè)是各國(guó)確診病例、死亡和接種疫苗的數(shù)目,以及綠色、紅色或白色曲線,這個(gè)醒目的儀表盤(pán)讓全球在3年里實(shí)時(shí)看到了詳盡的、可視化的疫情地圖數(shù)據(jù)。2260億點(diǎn)擊,超過(guò)36億次瀏覽,這半年前的數(shù)據(jù)足以說(shuō)明其影響力。
?
JHU新冠疫情儀表盤(pán)(圖源:官網(wǎng)截圖)
因?yàn)檫@項(xiàng)工作,董恩盛的導(dǎo)師、JHU土木和系統(tǒng)工程系教授Lauren Gardner入選了《時(shí)代》雜志2020年全球最具影響力百人榜,她還獲得了有“諾獎(jiǎng)風(fēng)向標(biāo)”之稱的2022年拉斯克獎(jiǎng)。
導(dǎo)師殊榮屢獲的背后,有著2個(gè)中國(guó)博士生董恩盛和杜鴻儒的極大付出。董恩盛也略帶調(diào)侃地自稱是導(dǎo)師“背后的男人”。
這兩個(gè)“背后的男人”也得到了回饋,董恩盛以第一作者署名的文章已有4篇,杜鴻儒以第一作者署名的文章有1篇。尤其是其中一篇由他們與導(dǎo)師3人署名的文章,2020年2月發(fā)在《柳葉刀-傳染病》上,引用次數(shù)超過(guò)9500次。而按照湯森路透在2014年的統(tǒng)計(jì),有史以來(lái)排名第100位的論文引用次數(shù)是12000多次。
這篇文章正是介紹新冠疫情數(shù)據(jù)儀表盤(pán)創(chuàng)建的。這只是一篇讀者來(lái)信(correspondence),且僅有一頁(yè)多一點(diǎn)。更神的是,“72個(gè)小時(shí)寫(xiě)稿,32個(gè)小時(shí)過(guò)審”。如果這是研究論文的話,這個(gè)引用次數(shù)的價(jià)值會(huì)更大。
按照谷歌學(xué)術(shù)的統(tǒng)計(jì),董恩盛、杜鴻儒二人的引用次數(shù)都已經(jīng)超過(guò)1萬(wàn)。
這一切,卻是歷史的偶然。
?
2020年2月《柳葉刀-傳染病》文章截圖
?
董恩盛的Google Scholar數(shù)據(jù)
“一不小心做成了一件大事”
“一不小心做成了一件大事”,2020年上半年,美國(guó)達(dá)特茅斯學(xué)院地理系教授施迅跟董恩盛有一次對(duì)話,他給出了這句由衷的評(píng)價(jià)。
讓我們把時(shí)鐘撥回到2020年1月21日上午,董恩盛和導(dǎo)師Gardner如約來(lái)到圖書(shū)館喝咖啡交流課題。
彼時(shí)30歲的董恩盛作為一年級(jí)博士生,進(jìn)入JHU僅10個(gè)月;而35歲的Gardner也是剛剛從澳大利亞新南威爾士大學(xué)悉尼分校跳槽過(guò)來(lái),董恩盛、杜鴻儒是她唯二的博士生。
因?yàn)楦邕M(jìn)入師門(mén),董恩盛也就跟導(dǎo)師有更多交流,可謂Gardner在JHU的開(kāi)山大弟子。值得一提的是,早在2019年5、6月份的時(shí)候,董恩盛與Gardner就針對(duì)美國(guó)麻疹暴發(fā)風(fēng)險(xiǎn)做了一份可視化地圖,得到了《紐約時(shí)報(bào)》等美國(guó)主流媒體的關(guān)注。
他本科畢業(yè)于重慶的西南大學(xué)地理系,期間交換到中國(guó)臺(tái)灣“中央大學(xué)”地球科學(xué)系,于2012年赴美,在愛(ài)達(dá)荷大學(xué)拿了地理與統(tǒng)計(jì)雙碩士。期間他在地理信息系統(tǒng)公司Esri實(shí)習(xí)過(guò),儀表盤(pán)技術(shù)就是在那里接觸到的。在之后美國(guó)電力領(lǐng)域和電信領(lǐng)域工作的3年中,他用該技術(shù)做了一些項(xiàng)目。董恩盛看中了Gardner從事傳染病數(shù)字建模的學(xué)術(shù)背景,這跟他地理信息系統(tǒng)、計(jì)算機(jī)和統(tǒng)計(jì)學(xué)的技術(shù)背景非常匹配,有助于他將來(lái)從事建模研究。
這次跟導(dǎo)師見(jiàn)面談新學(xué)期計(jì)劃,董恩盛是有所準(zhǔn)備的。彼時(shí)新冠疫情主要在中國(guó),泰國(guó)、韓國(guó)和日本出現(xiàn)了少量病例,美國(guó)也剛剛確診了第一例。出于對(duì)中國(guó)疫情的關(guān)注和擔(dān)憂,也出于對(duì)自己博士課題的早做準(zhǔn)備,他已經(jīng)把疫情數(shù)據(jù)收集好,做了一個(gè)小樣。不料想當(dāng)Gardner買了咖啡端過(guò)來(lái)的時(shí)候,她告訴董恩盛,“要不咱們做一個(gè)儀表盤(pán)疫情地圖吧”。
一拍即合!影響人類應(yīng)對(duì)新冠疫情的重要一環(huán)就此開(kāi)啟。
Gardner后來(lái)坦承,這個(gè)決定是一時(shí)沖動(dòng)。他們最初的想法是通過(guò)數(shù)據(jù)收集,把一種傳染病從發(fā)生到被消滅的全過(guò)程記錄下來(lái)。
當(dāng)天晚上,董恩盛熬夜奮戰(zhàn)8、9個(gè)小時(shí)構(gòu)建了一個(gè)儀表盤(pán)。最初,這個(gè)流程并不復(fù)雜:收集、翻譯并整合全球來(lái)自各式各樣渠道的數(shù)據(jù),原始數(shù)據(jù)公布在Google Sheet上(后改為GitHub),之后使用地理信息技術(shù)和Esri的平臺(tái)對(duì)疫情數(shù)據(jù)進(jìn)行空間可視化渲染。
杜鴻儒于2月1日加入了進(jìn)來(lái),負(fù)責(zé)數(shù)據(jù)的自動(dòng)抓取、更新,并編寫(xiě)了自動(dòng)更新的代碼。當(dāng)時(shí)25歲的杜鴻儒本科畢業(yè)于天津大學(xué)化工學(xué)院,在威斯康星大學(xué)麥迪遜分校獲得工業(yè)工程及運(yùn)籌學(xué)專業(yè)碩士學(xué)位,他擅長(zhǎng)數(shù)學(xué)模型和優(yōu)化。
董、杜就此開(kāi)始了聯(lián)手奮戰(zhàn)。到后來(lái)隨著數(shù)據(jù)陡增,人手再度增加,有4、5個(gè)人一起寫(xiě)代碼,等一周后自動(dòng)地圖上線已是凌晨3、4點(diǎn)。
?
董恩盛和杜鴻儒(圖源:JHU官網(wǎng))
他們得到了來(lái)自本校學(xué)生、圖書(shū)館、JHU應(yīng)用物理實(shí)驗(yàn)室,以及Esri公司的幫助。很快團(tuán)隊(duì)擴(kuò)大到了近40人。到當(dāng)年4月,該儀表盤(pán)的日均點(diǎn)擊量超過(guò)10億次,最高達(dá)到了46億次。
在回顧這段經(jīng)歷的時(shí)候,Gardner說(shuō)了一句,“不要等待許可, 坐下來(lái)并采取行動(dòng)”(Don't wait for permission. Take your seat and take action)。
作為旁觀者的施迅,對(duì)他們這段頗具傳奇性的開(kāi)端很是感慨:要有這種開(kāi)創(chuàng)性的勇氣,不要覺(jué)得自己只是一個(gè)學(xué)生就做不成大事,而是應(yīng)該大膽去想,大膽去做,去跟導(dǎo)師、同事請(qǐng)教,去獲得支持,“在很多情況下,你會(huì)得到可能比你預(yù)想的要多的支持”。
流量取勝
紛至沓來(lái)的關(guān)注和榮譽(yù)遠(yuǎn)遠(yuǎn)超出了他們的預(yù)期。
董恩盛的朋友圈記錄下了一些激動(dòng)的時(shí)刻:
2020年:1月29日,他做的圖被BBC引用;2月29日,他們的儀表盤(pán)成了美國(guó)副總統(tǒng)、意大利總理決策的重要參考;3月12日,2013年諾貝爾化學(xué)獎(jiǎng)得主、斯坦福大學(xué)結(jié)構(gòu)生物學(xué)系教授Michael Levitt來(lái)信對(duì)其工作點(diǎn)名鼓勵(lì),董恩盛“頓感信心滿滿、干勁兒十足”;3月20日,JHU校長(zhǎng)來(lái)看望疫情數(shù)據(jù)團(tuán)隊(duì),“結(jié)果我以為他是高級(jí)清潔工,囧”;4月7日,《科學(xué)》雜志點(diǎn)名報(bào)道;5月,被《華爾街日?qǐng)?bào)》采訪;6月,同一天有2篇《柳葉刀》系列文章被接受。
2021年:5月,儀表盤(pán)數(shù)據(jù)成為美國(guó)疾控中心的指定來(lái)源。7月,德國(guó)時(shí)任總理默克爾來(lái)到JHU接受榮譽(yù)博士學(xué)位時(shí),贊揚(yáng)了新冠疫情地圖的工作。
2022年:3月,《自然》雜志以新聞特寫(xiě)報(bào)道了包括他們團(tuán)隊(duì)在內(nèi)的新冠疫情數(shù)據(jù)工作;7月,《自然》雜志再次報(bào)道了各個(gè)疫情地圖團(tuán)隊(duì)的技術(shù)特色。
他們的工作早已出圈。據(jù)說(shuō)從制藥公司測(cè)試疫苗到好萊塢的電影拍攝,都會(huì)參考他們的儀表盤(pán)來(lái)安排工作,以至于JHU被人們叫成了 “map school”(地圖大學(xué))。
隨之而來(lái)的,導(dǎo)師有了更多的研究經(jīng)費(fèi),董恩盛也不用再為自己的學(xué)費(fèi)和生活費(fèi)發(fā)愁了,他們的辦公室也翻新了,可謂喜事連連。
他們是以流量取勝的,但他們并非只靠流量。
開(kāi)展新冠疫情數(shù)據(jù)收集并可視化的機(jī)構(gòu)還有多家,包括美國(guó)疾控中心、世衛(wèi)組織、《紐約時(shí)報(bào)》等。而JHU的疫情儀表盤(pán)之所以拔得頭籌,有眾多因素:由于數(shù)據(jù)收集和可視化做得專業(yè)且最早,也因此獲得了先發(fā)優(yōu)勢(shì);其數(shù)據(jù)抓取和更新也更加及時(shí)、準(zhǔn)確,一些國(guó)家地區(qū)用戶會(huì)主動(dòng)聯(lián)系他們更新數(shù)據(jù);JHU醫(yī)學(xué)與公共衛(wèi)生專業(yè)盛名的加持。
除了天時(shí)、地利、人和的種種因素,在董恩盛眼里,出于對(duì)祖國(guó)疫情的關(guān)注和擔(dān)憂從而開(kāi)始盤(pán)算這個(gè)項(xiàng)目,才是第一推動(dòng)力。
?
日常工作場(chǎng)景,左三為L(zhǎng)auren Gardner,左二為董恩盛,右二為杜鴻儒(圖片來(lái)源:JHU官網(wǎng))
新的游戲規(guī)則制定者
他們受到的關(guān)注度以及得到的榮譽(yù)是當(dāng)之無(wú)愧的。
讓世界上每一個(gè)人都能實(shí)時(shí)追蹤疫情是他們最大、最重要的創(chuàng)新。
拉斯克獎(jiǎng)給出的獲獎(jiǎng)理由是,他們?yōu)閷?shí)時(shí)傳播權(quán)威公共衛(wèi)生數(shù)據(jù)設(shè)定了新標(biāo)準(zhǔn)。換言之,他們制定了新的游戲規(guī)則。
并不是所有疫情地圖制作者都始終秉持?jǐn)?shù)據(jù)的公開(kāi)、透明,以及非商業(yè)化。董恩盛還對(duì)施迅“抱怨”過(guò):《紐約時(shí)報(bào)》用了JHU那么多無(wú)償?shù)臄?shù)據(jù),當(dāng)董恩盛找《紐約時(shí)報(bào)》要數(shù)據(jù)時(shí)卻遭拒。到了2020年3月,《紐約時(shí)報(bào)》才開(kāi)始公布全部數(shù)據(jù)。
公開(kāi)、透明以及非商業(yè)化,也是Gardner更為看重的。她在拉斯克獎(jiǎng)的獲獎(jiǎng)感言中談及,這項(xiàng)工作更重要的意義是實(shí)現(xiàn)了“數(shù)據(jù)民主化”(data democratization)和科學(xué)傳播,這有助于公眾的知情決策,并促進(jìn)以證據(jù)為基礎(chǔ)的公共衛(wèi)生政策。
換個(gè)角度看,當(dāng)JHU的儀表盤(pán)成為流量霸主的時(shí)候,它自然就成了標(biāo)準(zhǔn)。法國(guó)的態(tài)度就是典型。疫情初期,董恩盛找法國(guó)要數(shù)據(jù),對(duì)方完全無(wú)視;然而到了后期,法國(guó)衛(wèi)生部發(fā)現(xiàn)JHU數(shù)據(jù)與其要公布的數(shù)據(jù)有偏差,就主動(dòng)聯(lián)系溝通。
作為專業(yè)同行,施迅長(zhǎng)期從事地理信息技術(shù)在健康領(lǐng)域應(yīng)用,他深深感受到了這次全球大流行對(duì)傳染病研究的顛覆:在上世紀(jì)的西班牙大流感時(shí)代,診斷技術(shù)和信息技術(shù)過(guò)于原始,遑論數(shù)據(jù)準(zhǔn)確;而這次全球大流行也是一次史無(wú)前例的數(shù)據(jù)收集和整理的過(guò)程,這個(gè)過(guò)程本身就有巨大的科學(xué)價(jià)值。人們發(fā)現(xiàn),需要一些非常革命性的手段,重新建立對(duì)傳染病的認(rèn)識(shí)以及建模手段,而這些的基礎(chǔ)都是數(shù)據(jù)。
董恩盛更是對(duì)大數(shù)據(jù)的影響感同身受:只有量變,才會(huì)有質(zhì)變,才能有進(jìn)一步的分析,才會(huì)帶來(lái)更多資金和人力資源的投入。他們的數(shù)據(jù)吸引的不僅僅只是公共衛(wèi)生專家、計(jì)算機(jī)科學(xué)專家、地理信息專家,還有政治學(xué)者、經(jīng)濟(jì)學(xué)者,每個(gè)人都能挖掘到自己的金礦。
儀表盤(pán)只是起點(diǎn)
榮譽(yù)再多,終有告別時(shí)。該和儀表盤(pán)說(shuō)再見(jiàn)了。
這個(gè)背景是復(fù)雜的。JHU新冠資源中心(CRC)數(shù)據(jù)負(fù)責(zé)人Beth Blauer接受采訪時(shí)分析說(shuō),由于居家快速檢測(cè)已經(jīng)廣泛使用,世界各地發(fā)布病例數(shù)據(jù)的實(shí)用性和準(zhǔn)確性已經(jīng)大大降低,那么儀表盤(pán)數(shù)據(jù)的準(zhǔn)確性也就難以保障。另一方面,如美國(guó)聯(lián)邦政府的數(shù)據(jù)收集能力比之前已經(jīng)大大提高,尤其是其報(bào)告的住院數(shù)據(jù)成了如今最可靠和完整的決策依據(jù)。
還有一個(gè)原因是許多國(guó)家疫情趨于平穩(wěn),數(shù)據(jù)源的公布頻率和人們的關(guān)注度沒(méi)有以前那么高了。
Gardner用了“苦樂(lè)交織”來(lái)形容過(guò)去的3年。她說(shuō),經(jīng)過(guò)3年日夜不休的維護(hù),是時(shí)候改變已有的響應(yīng)模式了。
談起自己的導(dǎo)師,董恩盛和杜鴻儒都不吝稱贊。
最讓董恩盛欽佩不已的是Gardner對(duì)信息接受和對(duì)學(xué)生反饋的速度。她能很快理解他人想表達(dá)的意思,然后會(huì)給出她的意見(jiàn)。這在3年前兩人那次喝咖啡時(shí)表現(xiàn)得尤為明顯,當(dāng)董恩盛剛提出自己深思熟慮了好幾天的意圖,Gardner馬上就給出了做儀表盤(pán)的計(jì)劃。
實(shí)際上,Gardner在儀表盤(pán)上的貢獻(xiàn)是關(guān)鍵的,她會(huì)指出哪些數(shù)據(jù)是更重要的,從而需要在儀表盤(pán)上展示。同時(shí)她需要把各種資源整合到這個(gè)項(xiàng)目中。
杜鴻儒感受更深刻的則是Gardner與學(xué)生的平等相處。她從來(lái)不會(huì)催著做任何事情,而是留更多時(shí)間給學(xué)生自由思考。
董恩盛的工作交叉性更強(qiáng),他也更愿意做一些有實(shí)際應(yīng)用的事情。接下來(lái),董恩盛需要把精力投入到博士課題中來(lái)。課題當(dāng)然繞不開(kāi)新冠數(shù)據(jù),畢竟疫情儀表盤(pán)在一開(kāi)始也是為了其博士課題而來(lái),所以他會(huì)繼續(xù)進(jìn)行數(shù)據(jù)的挖掘以及做一些網(wǎng)絡(luò)分析工作。
杜鴻儒的研究更偏理論,他已經(jīng)在利用收集的數(shù)據(jù)建立深度學(xué)習(xí)模型,尤其是關(guān)注那些人類行為數(shù)據(jù)和社會(huì)調(diào)查數(shù)據(jù)。他希望把人類行為對(duì)外界的反饋加入到傳統(tǒng)的流行病模型當(dāng)中,他相信這種混合模型能對(duì)未來(lái)的疫情作出更準(zhǔn)確的預(yù)測(cè)。
起點(diǎn)足夠高,壯闊的科學(xué)圖景正在他們面前徐徐展開(kāi),愿他們走得更遠(yuǎn)。
參考:
https://www.esri.com/about/newsroom/blog/how-researchers-built-johns-hopkins-dashboard/
https://www.nature.com/news/the-top-100-papers-1.16224
https://www.nature.com/nature-index/news-blog/behind-the-johns-hopkins-university-coronavirus-dashboard
https://laskerfoundation.org/winners/covid-19-dashboard/
<script src="/html/js/share.js" type="text/javascript"></script>