Member-only story

如何用演算法判斷文章品質高下?系列二:根據既有內容推算其品質的判斷基準/Frederic Filloux

當文章在網站上刊出後,可以用各種不同的基準來評斷內容品質;不過這些基準的可信度會有相當大的差異。本文是〈如何用演算法判斷文章品質高下?系列一:內容管理系統與品質判斷基準〉的續篇,繼續談論我對文章品質的研究。

6 min readNov 29, 2016

--

文章品質判斷標準仍待建立

在上篇文章中,筆者列出一些理想狀態下,當文章內容尚在編輯中,就可以附加上去的一些內容品質判斷基準;這些基準能夠有效運作的前提,是內容業界普遍認同,在內容從CMS系統製作刊出時,就採用同樣的方法幫內容加上品質判定基準標籤,以便從讀者端或廣告端獲取利潤。

實際上這個想法尚有許多困難得要面對。大型電信業者或藥廠等產業,會因為長遠的共同利益而彼此結盟,甚至合縱連橫;但是我們從來沒看過內容產業中的業者彼此合作。內容業者不但很少坐下來討論共同問題,提出共同的因應對策,甚至當產業危機已經迫在眉睫了,這些業者也還是自掃門前雪。

不像其他產業,內容業者很少坐下來,面對問題共商對策。

也因為如此,在內容(文字、影音、多媒體等形式)刊出後,針對已經刊出的內容推算出內容品質分數,這種做法有其不確定因素存在。很難確認到底哪些判斷基準是最適切的也最容易判斷的,哪些比較客觀公正,而且不易篡改。

在發展這一系列「推算基準」時,筆者暫且將這些基準分為兩類。一類是「可由機器量化」的基準,另一類則是由編輯人員來評斷。在我這個研究計畫中,人類的評分是包含在自動化機器學習的架構之內的;就像我們可以教會機器從一大堆標示為「貓」的相片中,找到真正的貓咪照片一樣,筆者也假設神經網路能夠透過一些人類精心設計的內容品質判斷基準,在人類的逐步教導之下,學會如何判斷內容品質的高低。

從既有文章中推算的內容品質基準

不可諱言的,總是有很多魔鬼藏在細節中;筆者會在後續的文章中討論和機器學習、神經網路相關的一些特定問題和解法。現在,我們先來討論這些暫定的「內容品質推算基準」。

--

--

吐納商業評論

Written by 吐納商業評論

以科技產業、管理、數位媒體出版等主題為核心,由多位資深產業作者撰稿、並授權編輯與刊登的原創共筆網站。

No responses yet