聊書籍數位化與電子書

  • 0
為什麼以前一大堆人把 CD 數位化成 MP3 讓唱片公司急著跳腳,卻鮮少聽到出版社說一大堆人數位化書籍讓他們快撐不下去(同樣是夕陽產業,不過是因為客群減少,而非客戶變更取得來源),原因很簡單,因為根本沒什麼人想要數位化電子書。


麻煩的書籍數位化

CD 和書都是實體,CD 可以利用電腦播放,既然可以用電腦播放就代表能夠擷取,同樣的道理也是為什麼電影 DVD 也容易被盜版。但是書本不一樣,你無法把一本書直接塞入電腦要他幫忙辨識,你必須透過第三方管道把書本「塞給」電腦。


為何要用掃描

要在電腦產生文字最簡單的方式就是打字,但這也是最累人的工作;另外就是人力有限,你能夠用繪圖軟體畫出一本書裡面的照片嗎?如果可以逐個像素繪圖,而且顏色完全沒有誤差,我想這也不能阻止你。但為了方便起見,還有能在有生之年多做一些其他有意義的事情,我們直接進入現代常用的方式——掃描機。

使用掃描機可以將書籍上的文字轉為數位訊號的圖檔,如果你將這些圖檔用 PDF 軟體拼成單一一個 PDF 檔案,基本上你就算是完成數位化,從一本書變成一個電子檔。至於原始圖檔的部份,請使用 PhotoShop 等軟體修圖裁切,留著給製作電子書時使用。


文字辨識

不過光是這樣還不夠,數位化的更深入是要讓電腦知道這個圖像檔案的內容為何,因此就要藉由軟體進行光學字元辨識(OCR),這時才能得到「幾乎是正確」的文字檔。

接下來的工作就有趣了,你需要開始進行文字校對。因為 OCR 的缺點就在於會被字型、相近的文字、書本底色而影響辨識出來的結果。另外文字辨識也不知道主文內容在哪,因此你的頁碼、章節標題可能會亂入文章當中,這時就要人工校對。多半至少要校對兩次才能有可能讓正確率接近 99%。


檔案格式

電子書的定義很麻煩,基本上只要能在電子裝置看的都叫做電子書。

  • 你想要手機看書,TXT 。
  • 你想要圖文並茂,PDF。
  • 你想要可以搜尋,PDF + 文字辨識。
  • 你想要增加互動,Flash 動畫。
  • 你想要配合平板尺寸輕鬆閱讀,你要的是 ePub。

上述這幾種,都可以被稱為電子書,但是真正能夠拿出來在電子書閱讀器播放,而且感覺還不賴的大概就是 ePub 這類電子書文檔。電子書文檔就類似壓縮檔,裡面包含目錄、文字、圖片甚至影音,電子書播放器會自行調整版面讓你閱讀,因此每個人都可以依據自己的閱讀習慣調整字體大小。

有趣的是,當國內教育在推動電子書時,他們開出來的條件根本就不是要製作成電子書,而是要具備有動畫的應用程式。因此國內號稱有互動的電子書,初期多半都是使用 Flash 製作而成,目前則是依據各個閱讀器而開發成 app 應用程式。


為什麼電子書推那麼慢

為什麼出版商沒有用 ePub,原因就在於這種東西拿出來,等於就是把書本拱手讓人。若是你能夠從裡面擷取資料,你就省去了掃描、校搞、編排等工作,因為出版業者已經幫你全部都做好了。

因此當 iPad 推出,國內一頭電子書狂熱時,出版業拿出來的雜誌不是不主流的雜誌,要不然就是把檔案作成 PDF 加密後給讀者,有些甚至圖檔解析度還不怎麼高,甚至還有直接給你 JPEG 破壞性壓縮圖檔的。

拿出爛的東西往新興市場試水溫,對出版者安全卻沒有誠意,就好像隔著防菌手套跟 人握手一般,但我們可以理解他們的隱憂。

當然出版業界那麼慢,還是因為數位版權談不攏。台灣的暢銷書八成都是翻譯書籍,你有翻譯作品的銷售權利不代表你有販售衍生數位版權的權利。當然有錢好談,但是不確定是否可以暢銷的情況下,還有不確定數位作品購買的市場有多大前,台灣大概很難見到好的作品出現在紙本與數位版本中。

No comments: