『壹』 文本格式
1.EXE文件格式
這是目前比較流行也是被許多人青睞的一種電子讀物文件格式,這種格式的製作工具也是最多的。它最大的特點就是閱讀方便,製作簡單,製作出來的電子讀物相當精美,這種格式電子書中內嵌了閱讀軟體,所以無需安裝專門的閱讀器就可以閱讀,對運行環境並無很高的要求。
EXE格式的電子書在2004年以前主要應用於文本型的圖書閱讀,但是這種電子圖書也有一些不足之處,如多數相關製作軟體製作出來的EXE文件都不支持Flash和Java及常見的音頻視頻文件,需要IE瀏覽器支持等。
但是2004年以後,電子雜志和數字報紙開始流行,無一例外地都採用了EXE這種格式,並支持FLASH、多媒體甚至腳本語言,展現的內容更加豐富,製作相當精美,成為目前最流行的電子雜志的格式。目前,方正阿帕比的飛閱、XPLUS、ZCOM等廠商提供的數字報、刊、書都採用了這種格式。
閱讀軟體:內嵌閱讀器,無需額外閱讀軟體。
2.PDF文件格式 (http://www.adobe.com.cn/)
PDF(Portable Document Format)文件格式是Adobe公司開發的電子文件格式。這種文件格式與操作系統平台無關,也就是說,PDF文件不管是在Windows,Unix還是在蘋果公司的Mac OS操作系統中都是通用的。這一特點使它成為在Internet上進行電子文檔發行和數字化信息傳播的理想文檔格式。越來越多的電子圖書、產品說明、公司文告、網路資料、電子郵件開始使用PDF格式文件。PDF格式文件目前已成為數字化信息事實上的一個工業標准。
Adobe公司設計PDF文件格式的目的是為了支持跨平台上的,多媒體集成的信息出版和發布,尤其是提供對網路信息發布的支持。為了達到此目的, PDF具有許多其他電子文檔格式無法相比的優點。PDF文件格式可以將文字、字型、格式、顏色及獨立於設備和解析度的圖形圖像等封裝在一個文件中。該格式文件還可以包含超文本鏈接、聲音和動態影像等電子信息,支持特長文件,集成度和安全可靠性都較高。
PDF文件使用了工業標準的壓縮演算法,通常比PostScript文件小,易於傳輸與儲存。它還是頁獨立的,一個PDF文件包含一個或多個「頁」,可以單獨處理各頁,特別適合多處理器系統的工作。此外,一個PDF文件還包含文件中所使用的PDF格式版本,以及文件中一些重要結構的定位信息。正是由於 PDF文件的種種優點,它逐漸成為出版業中的新寵。
對普通讀者而言,用PDF製作的電子書具有紙版書的質感和閱讀效果,可以「逼真地」展現原書的原貌,而顯示大小可任意調節,給讀者提供了個性化的閱讀方式。由於PDF文件可以不依賴操作系統的語言和字體及顯示設備,閱讀起來很方便。這些優點使讀者能很快適應電子閱讀與網上閱讀,無疑有利於計算機與網路在日常生活中的普及。Adobe公司以PDF文件技術為核心,提供了一整套電子和網路出版解決方案,其中包括用於生成和閱讀PDF文件的商業軟體Acrobat和用於編輯製作PDF文件的Illustrator等。 Adobe還提供了用於閱讀和列印亞洲文字,即中日韓文字所需的字型包。
閱讀軟體:Adobe Acrobat8.1、Adobe Reader8.1、或其它第三方閱讀軟體。
3. CEB 文件格式 (http://www.apabi.cn/ )
CEB即Chinese eBook,是完全高保真的中文電子書的格式。由北京方正阿帕比技術有限公司開發的全新的電子圖書閱讀工具——方正Apabi Reader 使用的格式. 它能夠保留原文件的字元、字體、版式和色彩的所有信息,包括圖片、數字公式、化學公式、表格、棋牌以及樂譜等,同時,該格式對文字圖象等進行很好的壓縮,文件的數據量小。
CEB版式文件技術基於方正全球領先的印刷出版技術之上,在版式文件技術領域已處於國際一流。從2000年推出以來,方正CEB版式文件技術已在電子書、電子公文領域得到廣泛應用。同時,方正CEB版式文件技術可以方便的應用到方正在傳統印刷出版領域的產品中。
CEB的優勢和技術先進性:在不同的軟硬體環境下保持顯示不發生變化,生成後不可修改;融合了當前主要字型表示技術:包括各種編碼體系和各種字型檔技術,支持少數民族文(蒙文、維文、藏文、韓文等)的轉換;自動下載補字,保證CEB文件不發生「開天窗」的情況;提供全面圖形處理技術(包括各種線形的完整描述);提供全面的圖像和顏色處理支持及壓縮(如多種色彩空間、包括ICC在內的色彩還原、RLE,G3,G4,Wavelet等數據壓縮);支持電子簽名,數據加密等安全機制;轉換方便,幾乎所有格式都可以轉換成CEB格式,包括XML、S2、 PS、 PDF、 TIFF、 DOC、WPS等;CEB文件佔用空間小,在排版比較復雜情況下,只有原來DOC文件的十分之一;CEB與XML結合,支持版面自動生成,支持信息提取,使用靈活;可以在CEB上製作目錄、鏈接跳轉,增加聲音、動畫和視頻。
方正CEB版式文件作為電子文檔一體化的基礎、國家電子公文的版式文件推薦的參考標准,可以原版原式、原滋原味的展現電子公文,電子文檔的不可篡改性,保證文檔的完整性。
如何應用CEB文件?
1、CEB文件直接通過免費的Apabi Reader閱讀器瀏覽。並可以直接嵌入到IE瀏覽器中使用。
2、可以通過移動設備閱讀,掌上電腦、PDA、閱讀器實現移動辦公
3、CEB文件直接列印出紙質文件。
4、CEB文件直接發排到印刷機、數碼印刷機,輸出紙質文件。
5、CEB文件通過標引工具,生成XML公文要素,實現文件信息交換
6、CEB文件通過CEB SDK 導出TXT文本文件,實現文件的檢索、再利用。
閱讀軟體:Apabi Reader3.1、Apabi Inspire Reader2.0
4 STK文件格式
STK文件格式是宜銳公司開發的電子書格式,需要使用該公司的掌上閱讀器Starebook來閱讀。
2006年成都閱通公司開發了eREAD6.0閱讀軟體,可以再PC上閱讀STK格式圖書,主要圖書內容包括漫畫、小說、商業、時尚生活、宗教,閱讀器操作簡單,特別適合閱讀漫畫類圖書。
eREAD閱讀軟體集成了書籍製作功能,用戶可以親手製作自己的書籍,符合了用戶分享圖書的需求,網路上免費的STK圖書,大部分都是讀者自己製作並在網路上傳播的。
閱讀軟體:eREAD6.0
5. PDG 文件格式 (http://www.ssreader.com.cn/ )
PDG(圖文資料數字化)格式是超星公司推出的一種圖像存儲格式,具有多層TIFF格式的優點,由於採用了獨有的小波變換演算法,圖像壓縮比很高。超星公司將PDG格式作為其數字圖書館瀏覽器的專有格式。
閱讀軟體:超星閱讀器SSReader4.0
6. CAJ 文件格式 (http://test.cnki.net/ )
(Chinese academic journal 簡稱 CAJ)是清華同方公司的文件格式,中國期刊網提供這種文件格式的期刊全文下載,可以使用CAJViewer在本機閱讀和列印通過「全文資料庫」獲得的CAJ文件。
閱讀軟體:CAJViewer7.0
7.SEP格式
SEP是中文平台上通用的、優秀的、安全可靠的文檔分發和交換格式,基於書生公司達到國際先進水平的技術構建,已歷經版式技術、數字紙張技術發展到了智能文檔技術。SEP符合傳統紙張特性,可用於將基於紙張的應用e化。每一個SEP文件都相當於若干頁紙張文檔,並能附加很多數字特性和智能特性。SEP軟體可以完整地原版原貌地轉換各種來源的應用程序所生成的電子文檔, 對文字、圖像、圖形、文檔布局等都可以完整地保留。書生 SEP 文件採用先進的分類壓縮方式,對於圖像、文字、圖形、影像等都採用了相應的先進壓縮演算法,使得電子文檔的共享、交換和歸檔變為一件輕松愉快的事情。免費使用的書生SEP閱讀器,和超過1000萬份以上的各式SEP電子文檔的廣泛使用保證了該技術易用和穩定。採用SEP文件格式及SEP家族系列文檔格式的書生軟體產品,為政府與企事業單位的文檔一體化工作和電子政務建設提供了值得信賴的文檔解決方案。
閱讀軟體:書生閱讀器SursenReader7.0、Sursen SepReader
8.XPS格式
XPS,XML Paper Specification(XML文件規格書),是一種微軟推出的電子文件格式,使用者不需擁有製造該文件的軟體就可以瀏覽或列印該文件,為微軟對抗Adobe PDF格式的利器。微軟下一版的辦公室軟體Office 12將提供XPS可攜式文件格式的文件儲存功能,包括Word、Excel、PowerPoint、 Access、Publisher、Visio、OneNote、及InfoPath等應用程序所保存的檔案都可以存成XPS。
XPS格式是一種基於Zip壓縮格式的文件,使用Zip或者RAR軟體可以對其進行解壓,然後就可以看出它的內部結構,這種壓縮方案也保證了XPS文件的大小是比較小的。但是僅僅是壓縮是不夠的,還要在一些地方進行優化,比如說Subset font 等。
閱讀軟體:Xps viewer
9.WDL文件格式 (http://www.dynalab.com/ )
WDL是華康公司開發的一種電子讀物文件格式。其特點是較好地保留了原來的版面設計,可以通過在線閱讀也可以將電子讀物下載到本地閱讀,但是需要使用該公司專門的閱讀器DynaDoc Free Reader來閱讀,該閱讀器可以從該公司的網站免費下載。
這種格式的電子讀物由於對列印和拷貝作了限制,所以適當保護了作者和出版商的利益。與PDF格式一樣,該格式依然不支持上述的一些效果。但是支持圖片的導入。該格式對文件圖像文字質量和最後成品的大小之間的平衡做了較好的處理,採用該格式的文件一般壓縮率都比較高。對大中小電子讀物都是一個不錯的選擇。
製作該種格式的電子讀物需要使用該公司的軟體DynaDoc生成器來完成。該軟體目前還沒有共享版本,讀者可以到該公司的站點去查找關於該軟體的相關信息。
10. NLC 文件格式
NLC格式中國國家圖書館的電子圖書格式。它把掃描的圖書圖像以JBIG標准壓縮(無損壓縮)為很小的NLC文件。NLC文件是JBIG格式的一種變種。
11.TXT格式(http://www.txtgs.com)
TXT格式的電子書是被手機普遍支持的一種文字格式電子書,這種格式的電子書容量大,所佔空間小,所以得到廣大愛看電子書人們的支持,而更因為這種格式為手機普遍支持的電子書格式,所以也得到廣大手機用戶的肯定和喜愛。對於部分手機因無附帶TXT電子書閱讀器的手機用戶,在此向大家推薦一款軟體「MOTO TXT」(S40手機可安裝此軟體)。而隨著TXT格式電子書受到越來越多的人們的喜愛,對於TXT格式電子書的需求也逐漸增加。想找一個資源齊全的網站下載TXT電子書也成了很多人的煩惱,在此也向大家推薦一個TXT電子書資源較齊全的網站www.txtgs.com
txt格式的優勢:
1:體積小、存儲簡單方便
2:txt格式比較簡單,不會中毒
3:txt格式是電腦和很多移動設備的通用格式
『貳』 有沒有這樣一個軟體:可以將圖片上的文字如掃描一樣記錄下來,並保存為文本格式!
有的呀,迅捷ocr7.0,可以把圖片上的文字掃描出來的;
基本使用方法如下:
第一步:打開ocr軟體,點擊功能欄中的極速識別功能;
第二步:通過上面的添加文件按鈕,把圖片添加進去,請注意圖片的格式哦!
第三步:點擊右下角的一鍵識別按鈕,開始進行圖片文字識別。
希望上面的方法可以幫助到您,祝您成功哦!
『叄』 文本主題模型之潛在語義索引(LSI)
文本主題模型之潛在語義索引(LSI)
在文本挖掘中,主題模型是比較特殊的一塊,它的思想不同於我們常用的機器學習演算法,因此這里我們需要專門來總結文本主題模型的演算法。本文關注於潛在語義索引演算法(LSI)的原理。
1. 文本主題模型的問題特點
在數據分析中,我們經常會進行非監督學習的聚類演算法,它可以對我們的特徵數據進行非監督的聚類。而主題模型也是非監督的演算法,目的是得到文本按照主題的概率分布。從這個方面來說,主題模型和普通的聚類演算法非常的類似。但是兩者其實還是有區別的。
聚類演算法關注於從樣本特徵的相似度方面將數據聚類。比如通過數據樣本之間的歐式距離,曼哈頓距離的大小聚類等。而主題模型,顧名思義,就是對文字中隱含主題的一種建模方法。比如從「人民的名義」和「達康書記」這兩個詞我們很容易發現對應的文本有很大的主題相關度,但是如果通過詞特徵來聚類的話則很難找出,因為聚類方法不能考慮到到隱含的主題這一塊。
那麼如何找到隱含的主題呢?這個一個大問題。常用的方法一般都是基於統計學的生成方法。即假設以一定的概率選擇了一個主題,然後以一定的概率選擇當前主題的詞。最後這些片語成了我們當前的文本。所有詞的統計概率分布可以從語料庫獲得,具體如何以「一定的概率選擇」,這就是各種具體的主題模型演算法的任務了。
當然還有一些不是基於統計的方法,比如我們下面講到的LSI。
2. 潛在語義索引(LSI)概述
潛在語義索引(Latent Semantic Indexing,以下簡稱LSI),有的文章也叫Latent Semantic Analysis(LSA)。其實是一個東西,後面我們統稱LSI,它是一種簡單實用的主題模型。LSI是基於奇異值分解(SVD)的方法來得到文本的主題的。而SVD及其應用我們在前面的文章也多次講到,比如:奇異值分解(SVD)原理與在降維中的應用和矩陣分解在協同過濾推薦演算法中的應用。如果大家對SVD還不熟悉,建議復習奇異值分解(SVD)原理與在降維中的應用後再讀下面的內容。
這里我們簡要回顧下SVD:對於一個m×n的矩陣A,可以分解為下面三個矩陣:
Am×n=Um×mΣm×nVn×nT
有時為了降低矩陣的維度到k,SVD的分解可以近似的寫為:
Am×n≈Um×kΣk×kVk×nT
如果把上式用到我們的主題模型,則SVD可以這樣解釋:我們輸入的有m個文本,每個文本有n個詞。而Aij則對應第i個文本的第j個詞的特徵值,這里最常用的是基於預處理後的標准化TF-IDF值。k是我們假設的主題數,一般要比文本數少。SVD分解後,Uil對應第i個文本和第l個主題的相關度。Vjm對應第j個詞和第m個詞義的相關度。Σlm對應第l個主題和第m個詞義的相關度。
也可以反過來解釋:我們輸入的有m個詞,對應n個文本。而Aij則對應第i個詞檔的第j個文本的特徵值,這里最常用的是基於預處理後的標准化TF-IDF值。k是我們假設的主題數,一般要比文本數少。SVD分解後,Uil對應第i個詞和第l個詞義的相關度。Vjm對應第j個文本和第m個主題的相關度。Σlm對應第l個詞義和第m個主題的相關度。
這樣我們通過一次SVD,就可以得到文檔和主題的相關度,詞和詞義的相關度以及詞義和主題的相關度。
3. LSI簡單實例
這里舉一個簡單的LSI實例,假設我們有下面這個有10個詞三個文本的詞頻TF對應矩陣如下:
這里我們沒有使用預處理,也沒有使用TF-IDF,在實際應用中最好使用預處理後的TF-IDF值矩陣作為輸入。
我們假定對應的主題數為2,則通過SVD降維後得到的三矩陣為:
從矩陣Uk我們可以看到詞和詞義之間的相關性。而從Vk可以看到3個文本和兩個主題的相關性。大家可以看到裡面有負數,所以這樣得到的相關度比較難解釋。
4. LSI用於文本相似度計算
在上面我們通過LSI得到的文本主題矩陣可以用於文本相似度計算。而計算方法一般是通過餘弦相似度。比如對於上面的三文檔兩主題的例子。我們可以計算第一個文本和第二個文本的餘弦相似度如下 :
sim(d1,d2)=(?0.4945)?(?0.6458)+(0.6492)?(?0.7194)(?0.4945)2+0.64922(?0.6458)2+(?0.7194)2
5. LSI主題模型總結
LSI是最早出現的主題模型了,它的演算法原理很簡單,一次奇異值分解就可以得到主題模型,同時解決詞義的問題,非常漂亮。但是LSI有很多不足,導致它在當前實際的主題模型中已基本不再使用。
主要的問題有:
1) SVD計算非常的耗時,尤其是我們的文本處理,詞和文本數都是非常大的,對於這樣的高維度矩陣做奇異值分解是非常難的。
2) 主題值的選取對結果的影響非常大,很難選擇合適的k值。
3) LSI得到的不是一個概率模型,缺乏統計基礎,結果難以直觀的解釋。
對於問題1),主題模型非負矩陣分解(NMF)可以解決矩陣分解的速度問題。對於問題2),這是老大難了,大部分主題模型的主題的個數選取一般都是憑經驗的,較新的層次狄利克雷過程(HDP)可以自動選擇主題個數。對於問題3),牛人們整出了pLSI(也叫pLSA)和隱含狄利克雷分布(LDA)這類基於概率分布的主題模型來替代基於矩陣分解的主題模型。
回到LSI本身,對於一些規模較小的問題,如果想快速粗粒度的找出一些主題分布的關系,則LSI是比較好的一個選擇,其他時候,如果你需要使用主題模型,推薦使用LDA和HDP。
『肆』 有什麼軟體能將圖片里的文字內容識別出來並保存
將圖片里的文字內容識別出來,一般我們都會使用ocr文字識別軟體,操作方法如下:
1、先將需要識別的圖片文件保存到電腦上指定位置,打開電腦上的ocr文字識別軟體,點擊左側的圖片局部識別。
4、識別完成後,識別出來的結果會呈現在右側的框框內。
『伍』 怎樣持續抓取並保存一個軟體子窗口的文本框里的數據
應該有好幾個form吧,你可以把中間的文本框的form設置為target=_blank,這樣會在新窗口中提交,文本框所在的窗口不會改變。
別刷新(或叫重載)頁面就行了,但密碼處要用空白填充。我用的其他編程語言,但道理應該是一樣的
『陸』 如何抓取圖片中的文字
這是一個OCR圖片文字識別的問題
不同的方法,不同的軟體,網上很多,自己找找看
給你一篇常見的
巧把圖片中的文字摳出來
http://www.fm086.com 2006年5月9日 08:31
巧把圖片中的文字"摳"出來
Office在2003版中增加了Document Imaging工具,用它可以查看、管理、讀取和識別圖像文檔和傳真文本。其實,利用它的這個功能,我們還可以把網頁或電子書中的文字給「摳」出來。
打開電子書,盡量採用較大的字體,翻到想要獲取的頁面,用抓圖軟體SnagIt對相關的內容進行抓取,然後在「文件」菜單中選擇「復制到剪貼板」命令(也可以用其他抓圖軟體,當然最簡單的是Windows中自帶的Print Screen鍵來抓取整個屏幕,然後在「畫圖」程序中對不要的部分進行裁剪並保存,然後復制)。
在「開始」菜單的「Microsoft Office工具」中打開Microsoft Office Document Imaging,在左側窗口中單擊滑鼠右鍵,選擇「粘貼頁面」,把復制的圖片粘貼到Document Imaging中,在「工具」中選擇「使用OCR識別文本」,Document Imaging的OCR識別程序就會對圖片進行識別,完成後選擇「工具」中的「將文本發送到Word」,程序會自動打開Word文檔,就會看到"摳"出來的文字。
這里也列出了一些軟體
http://..com/question/2818838.html
『柒』 如何從圖片中提取出文字, 並保存好圖片
在PS中操作,提出文字選用矩形工具選中,然後用移動工具把它移到你所需要的位置。
『捌』 ROSTcm6網路語義分析圖怎麼讓關鍵詞變多
文檔編碼改成ANSI就可以了
如果是txt文檔,則文件-另存為-編碼選擇ANSI。
ROST CM 6是武漢大學沈陽教授研發編碼的國內目前唯一的以輔助人文社會科學研究的大型免費社會計算平台。該軟體可以實現微博分析、聊天分析、全網分析、網站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類分析等一系列文本分析。