12月1號消息,本周二,一篇名為“Predicting the flu from Instagram”(通過Instagram預測流感)的論文在康奈爾大學arXiv服務器上發布,作者是來自芬蘭坦佩爾大學醫學院的Oguzhan Gencoglu和軟件服務公司Tieto,Ltd的Miikka Ermes。
芬蘭的AI研究人員利用公共健康數據嚴格收集了這個國家的500萬居民,在Instagram上比對“流感”標簽,以及人們提出流感藥物的圖像,發帖與記錄的流感爆發有顯著的統計相關性,預測流感爆發的歷史公共衛生數據。這是利用社交媒體衡量人口和健康趨勢的一系列嘗試中的最新舉措。
作者提出他們的論點是“首項在社交媒體中使用圖像來預測流感流行病的研究”,但他們也列出了關于社交媒體的其他研究,例如關于抑郁癥指標的Instagram帖子研究和煙草使用。
對于很多人關注的隱私問題,他們稱只使用公開發布過的,基于python的網絡爬蟲程序收集數據,并且爬蟲只記錄了發布日期和主題標簽,以及單個圖像URL,它沒有記錄用戶名,也沒有存儲任何圖像。
從2012年4月到2018年5月,調查人員在Instagram上收集了六年的帖子,超過22,000份,收集芬蘭語中有關疾病的標簽,例如芬蘭語“flunssa”,意思是流感,或“lihaskipu”,意思是肌肉酸痛。對Gencoglu和Miikka這項研究來說,重要的是他們能夠將搜索限制在“單一語言和國家”,以便能夠將帖子與單個國家的健康數據進行比較。
Gencoglu和Miikka通過將帖子中的標簽參考數量,與芬蘭國家健康與福利研究所記錄的官方流感發病率相關聯,歸類了9種不同的神經網絡模型。他們對五年的數據進行了統計,然后用第六年的Instagram數據和健康數據來測試模型。
論文稱,最好的臨近預報模型的平均絕對誤差為每周11.33次事故,測試數據的相關系數為0.963。用于預測1周和2周的預測模型顯示出統計顯著性,同時達到相關系數分別為0.903和0.862。這項研究表明社交媒體,特別是數字照片的公開分享,可以成為流行病學領域的寶貴信息來源。
這種社交媒體搜索的一個重要問題是,如何通過媒體本身來改變統計數據。作者指出谷歌2013年“谷歌流感”搜索趨勢失敗,因為“媒體對谷歌工作的高度關注”歪曲了搜索活動。因此,他們得出結論,在未來的工作中,將每周帖子數量“標準化”與人口中每周Instagram帖子的總數相比,通過考慮平臺的受歡迎程度來提高預測性能。
關鍵詞: 轉網新流程