Member-only story
判定新聞內容品質的另類方法:網頁結構分析/Frederic Filloux
本文是筆者一系列內容品質評分系統研究的一環。只要簡單查看任何HTML頁面的組成要素,就能得到許多內容可靠性的線索。問題在於各大內容傳播平台,並沒有在這些線索上花過心思。
一位微生物學者在論及某種致命病毒的基因序列時,曾經說過:魔鬼並非藏在細節中,而是藏在結構之內;數位世界某種程度上也有點像活生生的有機體,不但經常變來變去、極不穩定,而且還會到處製造髒東西。
筆者曾經以一篇英國衛報網站上的文章為例分析其HTML,結果發現內文中每一個字母,都附帶一百個字元的程式碼。
新聞學界長久以來都會提供少許資訊以供讀者追溯訊息來源。舉例來說,新聞一定會標示報導者和發生地,所以讀者會得到一點關於報導者的訊息,有時還能藉此查閱延伸報導。
聖塔克拉拉大學的「新聞徵信計畫」(Trust Project)主要著眼於發展新聞公開透明程度的各項判準(可以在此檢閱他們提出的各項指標);而筆者在史丹佛大學John S. Knight學院的計畫,和「新聞徵信計畫」可說是相輔相成的。
只要簡單查看任何HTML頁面的組成要素,就能得到許多內容可靠性的線索。
「新聞品質評分計畫」(The News Quality Scoring Project, NQS)的主要目標,是找出各種能夠呈現內容品質的指標,並且將這些指標量化,然後發展出能夠大規模部署且儘可能自動化執行的流程。這個計畫也能用以抓出有問題的新聞來源,揭穿網路上流傳的假新聞。讀者可以參看筆者這篇《對抗假新聞的另類做法:以評分系統標示優質新聞》。
目前我們已經從全美五百大新聞網站及其八百五十個RSS,於三星期內收集了六十四萬篇文章;眼下正在從這些文章中取得並分析相關的文章品質訊號,評斷其相關度、可信度和雜訊對抗能力。數周之後就會有更多成果可以分享給各位讀者。
回頭來談HTML結構,我們先來看看基本的網頁裡有哪些組件: