跳到主要內容

聊書籍數位化與電子書

為什麼以前一大堆人把 CD 數位化成 MP3 讓唱片公司急著跳腳,卻鮮少聽到出版社說一大堆人數位化書籍讓他們快撐不下去(同樣是夕陽產業,不過是因為客群減少,而非客戶變更取得來源),原因很簡單,因為根本沒什麼人想要數位化電子書。


麻煩的書籍數位化

CD 和書都是實體,CD 可以利用電腦播放,既然可以用電腦播放就代表能夠擷取,同樣的道理也是為什麼電影 DVD 也容易被盜版。但是書本不一樣,你無法把一本書直接塞入電腦要他幫忙辨識,你必須透過第三方管道把書本「塞給」電腦。


為何要用掃描

要在電腦產生文字最簡單的方式就是打字,但這也是最累人的工作;另外就是人力有限,你能夠用繪圖軟體畫出一本書裡面的照片嗎?如果可以逐個像素繪圖,而且顏色完全沒有誤差,我想這也不能阻止你。但為了方便起見,還有能在有生之年多做一些其他有意義的事情,我們直接進入現代常用的方式——掃描機。

使用掃描機可以將書籍上的文字轉為數位訊號的圖檔,如果你將這些圖檔用 PDF 軟體拼成單一一個 PDF 檔案,基本上你就算是完成數位化,從一本書變成一個電子檔。至於原始圖檔的部份,請使用 PhotoShop 等軟體修圖裁切,留著給製作電子書時使用。


文字辨識

不過光是這樣還不夠,數位化的更深入是要讓電腦知道這個圖像檔案的內容為何,因此就要藉由軟體進行光學字元辨識(OCR),這時才能得到「幾乎是正確」的文字檔。

接下來的工作就有趣了,你需要開始進行文字校對。因為 OCR 的缺點就在於會被字型、相近的文字、書本底色而影響辨識出來的結果。另外文字辨識也不知道主文內容在哪,因此你的頁碼、章節標題可能會亂入文章當中,這時就要人工校對。多半至少要校對兩次才能有可能讓正確率接近 99%。


檔案格式

電子書的定義很麻煩,基本上只要能在電子裝置看的都叫做電子書。

  • 你想要手機看書,TXT 。
  • 你想要圖文並茂,PDF。
  • 你想要可以搜尋,PDF + 文字辨識。
  • 你想要增加互動,Flash 動畫。
  • 你想要配合平板尺寸輕鬆閱讀,你要的是 ePub。

上述這幾種,都可以被稱為電子書,但是真正能夠拿出來在電子書閱讀器播放,而且感覺還不賴的大概就是 ePub 這類電子書文檔。電子書文檔就類似壓縮檔,裡面包含目錄、文字、圖片甚至影音,電子書播放器會自行調整版面讓你閱讀,因此每個人都可以依據自己的閱讀習慣調整字體大小。

有趣的是,當國內教育在推動電子書時,他們開出來的條件根本就不是要製作成電子書,而是要具備有動畫的應用程式。因此國內號稱有互動的電子書,初期多半都是使用 Flash 製作而成,目前則是依據各個閱讀器而開發成 app 應用程式。


為什麼電子書推那麼慢

為什麼出版商沒有用 ePub,原因就在於這種東西拿出來,等於就是把書本拱手讓人。若是你能夠從裡面擷取資料,你就省去了掃描、校搞、編排等工作,因為出版業者已經幫你全部都做好了。

因此當 iPad 推出,國內一頭電子書狂熱時,出版業拿出來的雜誌不是不主流的雜誌,要不然就是把檔案作成 PDF 加密後給讀者,有些甚至圖檔解析度還不怎麼高,甚至還有直接給你 JPEG 破壞性壓縮圖檔的。

拿出爛的東西往新興市場試水溫,對出版者安全卻沒有誠意,就好像隔著防菌手套跟 人握手一般,但我們可以理解他們的隱憂。

當然出版業界那麼慢,還是因為數位版權談不攏。台灣的暢銷書八成都是翻譯書籍,你有翻譯作品的銷售權利不代表你有販售衍生數位版權的權利。當然有錢好談,但是不確定是否可以暢銷的情況下,還有不確定數位作品購買的市場有多大前,台灣大概很難見到好的作品出現在紙本與數位版本中。

留言

這個網誌中的熱門文章

浴室蓮蓬頭水量復活了!

狀況是這樣的,進入冬季之後開始感覺熱水器的水似乎越來越常忽冷忽熱,熱水洗不到兩分鐘馬上就變成冷水,由於狀況太過頻繁因此開始上網查查可能的原因有哪些。

熱水器進水量太多,熱水器來不及燒熱熱水器裝錯,大廈用裝成公寓用(水壓不同)水壓不穩,建議裝個加壓器蓮蓬頭卡到沙子水管內鈣化.....
個人相當偏向簡單容易的解決方法,所以調整了水塔的水量,也把蓮蓬頭打開來清了清,順便把櫻花牌熱水器的溫度調了又調都沒有明顯的改善效果。

這時讓我比較驚奇的事情發生了,因為數年前曾經發生不良的洗手臺可能因為熱脹冷縮的關係而發生爆裂的情況,因此我很久沒有使用洗手臺裝熱水來使用。但因為逼不得已,打開洗手臺開熱水使用,竟然發現熱水可以源源不絕地供應,這代表說從水塔到熱水器到浴室的運作都是正常的,那代表的是蓮蓬頭有問題!

蓮蓬頭多半有個旋扭,可以決定是由蓮蓬頭出水還是下方的水龍頭出水,兩邊的出水量都一樣小就代表進水的時候有問題。而這時我在 Mobile01 上頭找到了相同狀況的苦主,用了他的方法竟然一試見效。

先全開熱水
再用一字起子將制水塞(螺絲) 轉緊轉鬆 轉緊轉鬆 轉緊轉鬆
就看到一些砂狀污垢流出
熱水的水量就恢復正常
沒錯,就是拿一字起調整熱水管線下方的螺絲,順時鐘轉緊時,水量會變小;逆時鐘轉鬆時,水量會變大。重複幾次這樣的動作後,我終於看到我的蓮蓬頭有了正常的水量,原來是負責水量的螺絲因為長時間使用,空隙被一些鈣質給填滿,造成水量變小。

為什麼水量變小會影響到水溫呢?因為現在的熱水器都有防空燒裝置,當熱水水量過小的時候就會自動熄火,你需要把熱水關起來重新打開才會讓熱水器重新點火。當你的蓮蓬頭水量過小卻很熱時,你會降低熱水的水量並且提高冷水的水量,此時熱水溫度降低而熱水量低到某種程度的時候就會讓熱水器熄火,接著就是清涼的冷水從蓮蓬頭灑到你的身上,透清涼啊XD


插曲:

當我對蓮蓬頭完全失望時,拿著水盆猛從臉盆撈水沖澡的我,還真想買這款產品,可以將臉盆的水龍頭轉接到蓮蓬頭的工具,《面盆沐浴切換頭》,真是超吸引人的。



Ref
(己解決)浴缸水龍頭及蓮蓬頭純熱水是純冷水出水量的1/3, 是水龍頭內阻塞? 還是熱水水管阻塞? - Mobile01行動版 - http://goo.gl/NTBrl 面盆沐浴切換頭 、水龍頭及水管修理零件 | 水材/防水商品 - 特力屋 - http://goo.gl/uA…

合併多個 Excel 檔到一個工作表中

最近工作遇到一個問題,需要去檢驗近千個檔案的內容是否有問題。檢驗的方式雖然可以透過函數來判斷,但是上千個檔案量光是打開就覺得麻煩,覺得在驗證之前一定要把檔案想辦法合併起來。

巨集合併M Riza 先生提出一個很棒的方法,"Merge multiple excel files into a single spreadsheet (MS Excel 2007)"。

Step by Step開啟 Excel,按下 Alt + F11 叫出巨集編輯器,貼入網站中的 Code
修改第8行的路徑,改成需要合併的 Excel 檔存放路徑
按下執行鍵就 OK 了
心得儘管是 CSV 檔案也能正確合併。
這邊要注意一件事情,Code 當中的 A2 是起始的儲存格,在合併過程中會忽略掉標題列,直接從第二列開始複製;若是你想連標題列都合併起來,請改成 A1。IV 是他的複製欄寬,可以改成自己想要的欄寬。
Range("A2:IV" & Range("A65536").End(xlUp).Row).Copy
值得注意的是,雖然這個方法是給 Excel 2007 使用,但 Excel 2007 開始有個重大變化,就是 Excel 最大列數從 2^16 次方改成了 2^20 次方。這代表你可以處理的資料從 Excel 2003 的 65,536 筆增加至 1,048,576 筆。
心得第二點的發現是因為我合併了所有的檔案,還很慶幸原來只有六萬多筆,最後慚愧地發現原來資料數量有三十萬筆,而 Code 當中卻只設定到 65,536 筆,只需要把 A65536 改成 A1048576 即可。

2^4 代表的是16倍的資料處理量,過去 Excel 2003 只能處理六萬筆資料,如今拜軟體、處理器的提升,我們比起過去的人擁有更大的優勢來處理資料,感謝技術的進步。

JMC ExcelJeeShen Lee 李毅胜先生也寫了一個 Excel 巨集,"JMC Excel – Join, Merge, Combine multiple Excel sheets or Excel workbooks",畫面是我喜歡的簡潔類型,試用版可以一次合併 10 個檔案,如果你想要完整版的話可以寫信給作者花個 $7 購買他的檔案來使用看看。

不…

ASUS 主機板驅動全裝卻還有黃色驚嘆號?也許你少裝了這個…

今天重灌了一台電腦,主機板是 ASUS P9X79 WS ,照例上了 ASUS 的官網下載了相關的驅動程式安裝,因為原始的驅動程式光碟已經毀損無法使用。

等到全部安裝完,連 Windows 7 的更新結束後,裝置管理員內的部份硬體依然出現黃色驚嘆號( yellow exclamation mark ),這顯然代表我有什麼東西沒有裝到。

問題:安裝了所有驅動程式,還是有部份裝置沒被驅動SM匯流排控制器基本系統裝置( Base System Device ) x N 個
解決:你可能真的有東西沒裝到,例如…

我通常安裝的都是置頂的晶片組驅動程式,也就是使用綠色框框的 MEI 驅動程式,安裝完成之後也的確可以正常運作。

MEIIntel(R) Management Engine Interface
我再回頭到官網看一下,奇怪,為什麼舊版本的驅動程式反而容量大許多,新版只有59MB,舊版卻有 255MB。

好奇安裝了一下,黃色驚嘆號竟然全部消失了。該死,原來我一直少裝這款驅動程式。

ChipsetIntel(R) Chipset Software Installation Utility
如果你有相同問題,不妨回頭到官網,找一下 Chipset 驅動程式,就挑最容量大的那個吧!