2013年5月12日

續談 lire 與全文閱讀 Full-text

全文閱讀(Full-text) 與 Mobilize

lire 為什麼可以全文閱讀呢?其實就類似 mobilize 的作法一樣,根據 RSS 提供的連結網址,從原始網頁上面找出主文章的內容,再將內容傳回 lire 提供讀者閱讀。因此儘管作者提供給你的是部分文章摘要,你還是可以從主頁面獲得完整的資訊。

以上的工作都是交給伺服器端去作業,你的軟體只是對著伺服器下達請求資訊的訊號。因此,若是伺服器有一天掛點,lire 的全文閱讀功能就會失靈。這大概也是所有雲端軟體的缺點,不用太去擔心。

全文閱讀的優點

這類的作法對於什麼很好用呢?像是聯合新聞網、自由時報、蘋果日報等不提供完整資訊,希望讀者會連回原始網頁的網站最好用。這類網站多半有廣告收益、統計讀者人數等目的,因此不會讓你讓你透過 RSS 訂閱把內容看完,非得多花個一步功夫才能看見。

▲ 聯合新聞網常見的斷尾新聞(左 Reeder ,右 lire)

▲ 自由時報的 RSS 只有標題沒內容(左 Reeder ,右 lire) 

lire 的缺點

誤抓主內容

全文閱讀有個缺點所在,要是伺服器的應用程式去抓取原始網頁時,他誤認了主要內容的位置該怎麼辦。我就碰過這個問題,他抓下來的並不是文章本身,而是 Google 廣告區塊(笑)的確,有時候我看一些網站,我都搞不清楚他的主要內容是啥,因為廣告區塊都快比內容還多了。

文章分頁(Paging)

有些文章太長的網站,為了避免版面被拉太長,因此會設定一個機制讓一篇文章分成好幾頁。這樣的機制還有一個好處,就是人們沒辦法一次把你的文章複製走,因此這類的方法也受到商業周刊宅宅新聞 採用。

宅宅新聞 為例,RSS 會擁有文章全部的內容,而網頁上則因為分頁的關係被切成了好幾段,因此這時使用全文閱讀的方式去抓資料,你抓回來的只是第一個分頁的內容而已喔。

▲ 使用 Full-text 的效果不一定保證比較好,有時 RSS 的內容反而更完整

lire v.1.9.19(May 10, 2013 updated)增加了一個新功能,針對那些已經提供完整文章內容的 RSS (就像宅宅新聞),你可以個別設定不要開啟全文閱讀功能,避免因為文章分頁造成文章閱讀不成還成了殘廢。


疑難雜症:BBC 中文網

由於台灣的新聞鮮少報導國外大事,對於中國與中東國家提到的更是少之又少,因此我有訂閱 BBC 中文網。BBC中文網的RSS模式與蘋果日報相同,都是提供第一段的文章摘要,有趣的是 BBC 中文網的內容向來沒辦法抓到主內容。

舉例來說,我使用 Instapaper 的 Instapaper Text 功能,出來的網頁理論上應該是要排除網頁其他元素,只留下乾淨的主文字…等等,怎麼什麼東西都不剩了。似乎他們的網頁在設計時會讓自動抓取新聞的程式摸不著頭緒,分不清楚什麼才是主要內容,因此會留下一片空白。

使用 lire 觀看 RSS 時,他顯示的不是網頁抓下來的純文字內容,而是普通的 RSS 摘要。當我企圖觀看原始網頁時,它竟然告訴我:「no link」。以下我做了一個對照,左邊是 RSS 閱讀軟體 Reeder,右邊則是 lire。


Reeder vs lire on BBC Chinese

在普通的狀況下,Reeder 與 lire 看到的是相同內容,這代表 lire 的全文閱讀功能失靈。


Reeder vs lire on BBC Chinese

當我企圖看到全文時,Reeder 使用了 Readability,而 lire 則請伺服器抓資料回來。左邊的 Reeder 成功抓下圖片與資料,右邊的 lire 則冒出了奇妙的資訊。


對 lire 的評論

我個人會喜歡 lire 是因為我在看新聞時,需要的是全部文章在我面前,無論我只看部分文字或是詳細閱讀,我都覺得全文閱讀是個必要的功能。lire 的全文閱讀的好處在於他會主動抓取每一篇的全文文字,而非你看到有興趣的文章時還必須點取某個按鈕獲得。

缺點則是不太習慣 lire 的閱讀方式,lire 沒有方便的手勢切換,文章有讀過跟沒讀過沒有清楚標示,另外有時會出現閃退的現象,這點非常奇妙。

沒有留言: