Member-only story

判定新聞內容品質的另類方法：網頁結構分析／Frederic Filloux

本文是筆者一系列內容品質評分系統研究的一環。只要簡單查看任何HTML頁面的組成要素，就能得到許多內容可靠性的線索。問題在於各大內容傳播平台，並沒有在這些線索上花過心思。

吐納商業評論

7 min readApr 18, 2017

Frederic Filloux

資深記者、創業家，擁有多年編輯與新聞產業經驗，現任Monday Note編輯。本站已獲Monday Note直接授權編譯其作品。

tuna.to

一位微生物學者在論及某種致命病毒的基因序列時，曾經說過：魔鬼並非藏在細節中，而是藏在結構之內；數位世界某種程度上也有點像活生生的有機體，不但經常變來變去、極不穩定，而且還會到處製造髒東西。

筆者曾經以一篇英國衛報網站上的文章為例分析其HTML，結果發現內文中每一個字母，都附帶一百個字元的程式碼。

新聞學界長久以來都會提供少許資訊以供讀者追溯訊息來源。舉例來說，新聞一定會標示報導者和發生地，所以讀者會得到一點關於報導者的訊息，有時還能藉此查閱延伸報導。

聖塔克拉拉大學的「新聞徵信計畫」（Trust Project）主要著眼於發展新聞公開透明程度的各項判準（可以在此檢閱他們提出的各項指標）；而筆者在史丹佛大學John S. Knight學院的計畫，和「新聞徵信計畫」可說是相輔相成的。

只要簡單查看任何HTML頁面的組成要素，就能得到許多內容可靠性的線索。

「新聞品質評分計畫」（The News Quality Scoring Project, NQS）的主要目標，是找出各種能夠呈現內容品質的指標，並且將這些指標量化，然後發展出能夠大規模部署且儘可能自動化執行的流程。這個計畫也能用以抓出有問題的新聞來源，揭穿網路上流傳的假新聞。讀者可以參看筆者這篇《對抗假新聞的另類做法：以評分系統標示優質新聞》。

目前我們已經從全美五百大新聞網站及其八百五十個RSS，於三星期內收集了六十四萬篇文章；眼下正在從這些文章中取得並分析相關的文章品質訊號，評斷其相關度、可信度和雜訊對抗能力。數周之後就會有更多成果可以分享給各位讀者。

回頭來談HTML結構，我們先來看看基本的網頁裡有哪些組件：

判定新聞內容品質的另類方法：網頁結構分析／Frederic Filloux

本文是筆者一系列內容品質評分系統研究的一環。只要簡單查看任何HTML頁面的組成要素，就能得到許多內容可靠性的線索。問題在於各大內容傳播平台，並沒有在這些線索上花過心思。

Frederic Filloux

資深記者、創業家，擁有多年編輯與新聞產業經驗，現任Monday Note編輯。本站已獲Monday Note直接授權編譯其作品。

Written by 吐納商業評論

No responses yet