‘壹’ 文本格式
1.EXE文件格式
这是目前比较流行也是被许多人青睐的一种电子读物文件格式,这种格式的制作工具也是最多的。它最大的特点就是阅读方便,制作简单,制作出来的电子读物相当精美,这种格式电子书中内嵌了阅读软件,所以无需安装专门的阅读器就可以阅读,对运行环境并无很高的要求。
EXE格式的电子书在2004年以前主要应用于文本型的图书阅读,但是这种电子图书也有一些不足之处,如多数相关制作软件制作出来的EXE文件都不支持Flash和Java及常见的音频视频文件,需要IE浏览器支持等。
但是2004年以后,电子杂志和数字报纸开始流行,无一例外地都采用了EXE这种格式,并支持FLASH、多媒体甚至脚本语言,展现的内容更加丰富,制作相当精美,成为目前最流行的电子杂志的格式。目前,方正阿帕比的飞阅、XPLUS、ZCOM等厂商提供的数字报、刊、书都采用了这种格式。
阅读软件:内嵌阅读器,无需额外阅读软件。
2.PDF文件格式 (http://www.adobe.com.cn/)
PDF(Portable Document Format)文件格式是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。
Adobe公司设计PDF文件格式的目的是为了支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的支持。为了达到此目的, PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。
PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。它还是页独立的,一个PDF文件包含一个或多个“页”,可以单独处理各页,特别适合多处理器系统的工作。此外,一个PDF文件还包含文件中所使用的PDF格式版本,以及文件中一些重要结构的定位信息。正是由于 PDF文件的种种优点,它逐渐成为出版业中的新宠。
对普通读者而言,用PDF制作的电子书具有纸版书的质感和阅读效果,可以“逼真地”展现原书的原貌,而显示大小可任意调节,给读者提供了个性化的阅读方式。由于PDF文件可以不依赖操作系统的语言和字体及显示设备,阅读起来很方便。这些优点使读者能很快适应电子阅读与网上阅读,无疑有利于计算机与网络在日常生活中的普及。Adobe公司以PDF文件技术为核心,提供了一整套电子和网络出版解决方案,其中包括用于生成和阅读PDF文件的商业软件Acrobat和用于编辑制作PDF文件的Illustrator等。 Adobe还提供了用于阅读和打印亚洲文字,即中日韩文字所需的字型包。
阅读软件:Adobe Acrobat8.1、Adobe Reader8.1、或其它第三方阅读软件。
3. CEB 文件格式 (http://www.apabi.cn/ )
CEB即Chinese eBook,是完全高保真的中文电子书的格式。由北京方正阿帕比技术有限公司开发的全新的电子图书阅读工具——方正Apabi Reader 使用的格式. 它能够保留原文件的字符、字体、版式和色彩的所有信息,包括图片、数字公式、化学公式、表格、棋牌以及乐谱等,同时,该格式对文字图象等进行很好的压缩,文件的数据量小。
CEB版式文件技术基于方正全球领先的印刷出版技术之上,在版式文件技术领域已处于国际一流。从2000年推出以来,方正CEB版式文件技术已在电子书、电子公文领域得到广泛应用。同时,方正CEB版式文件技术可以方便的应用到方正在传统印刷出版领域的产品中。
CEB的优势和技术先进性:在不同的软硬件环境下保持显示不发生变化,生成后不可修改;融合了当前主要字型表示技术:包括各种编码体系和各种字库技术,支持少数民族文(蒙文、维文、藏文、韩文等)的转换;自动下载补字,保证CEB文件不发生“开天窗”的情况;提供全面图形处理技术(包括各种线形的完整描述);提供全面的图像和颜色处理支持及压缩(如多种色彩空间、包括ICC在内的色彩还原、RLE,G3,G4,Wavelet等数据压缩);支持电子签名,数据加密等安全机制;转换方便,几乎所有格式都可以转换成CEB格式,包括XML、S2、 PS、 PDF、 TIFF、 DOC、WPS等;CEB文件占用空间小,在排版比较复杂情况下,只有原来DOC文件的十分之一;CEB与XML结合,支持版面自动生成,支持信息提取,使用灵活;可以在CEB上制作目录、链接跳转,增加声音、动画和视频。
方正CEB版式文件作为电子文档一体化的基础、国家电子公文的版式文件推荐的参考标准,可以原版原式、原滋原味的展现电子公文,电子文档的不可篡改性,保证文档的完整性。
如何应用CEB文件?
1、CEB文件直接通过免费的Apabi Reader阅读器浏览。并可以直接嵌入到IE浏览器中使用。
2、可以通过移动设备阅读,掌上电脑、PDA、阅读器实现移动办公
3、CEB文件直接打印出纸质文件。
4、CEB文件直接发排到印刷机、数码印刷机,输出纸质文件。
5、CEB文件通过标引工具,生成XML公文要素,实现文件信息交换
6、CEB文件通过CEB SDK 导出TXT文本文件,实现文件的检索、再利用。
阅读软件:Apabi Reader3.1、Apabi Inspire Reader2.0
4 STK文件格式
STK文件格式是宜锐公司开发的电子书格式,需要使用该公司的掌上阅读器Starebook来阅读。
2006年成都阅通公司开发了eREAD6.0阅读软件,可以再PC上阅读STK格式图书,主要图书内容包括漫画、小说、商业、时尚生活、宗教,阅读器操作简单,特别适合阅读漫画类图书。
eREAD阅读软件集成了书籍制作功能,用户可以亲手制作自己的书籍,符合了用户分享图书的需求,网络上免费的STK图书,大部分都是读者自己制作并在网络上传播的。
阅读软件:eREAD6.0
5. PDG 文件格式 (http://www.ssreader.com.cn/ )
PDG(图文资料数字化)格式是超星公司推出的一种图像存储格式,具有多层TIFF格式的优点,由于采用了独有的小波变换算法,图像压缩比很高。超星公司将PDG格式作为其数字图书馆浏览器的专有格式。
阅读软件:超星阅读器SSReader4.0
6. CAJ 文件格式 (http://test.cnki.net/ )
(Chinese academic journal 简称 CAJ)是清华同方公司的文件格式,中国期刊网提供这种文件格式的期刊全文下载,可以使用CAJViewer在本机阅读和打印通过“全文数据库”获得的CAJ文件。
阅读软件:CAJViewer7.0
7.SEP格式
SEP是中文平台上通用的、优秀的、安全可靠的文档分发和交换格式,基于书生公司达到国际先进水平的技术构建,已历经版式技术、数字纸张技术发展到了智能文档技术。SEP符合传统纸张特性,可用于将基于纸张的应用e化。每一个SEP文件都相当于若干页纸张文档,并能附加很多数字特性和智能特性。SEP软件可以完整地原版原貌地转换各种来源的应用程序所生成的电子文档, 对文字、图像、图形、文档布局等都可以完整地保留。书生 SEP 文件采用先进的分类压缩方式,对于图像、文字、图形、影像等都采用了相应的先进压缩算法,使得电子文档的共享、交换和归档变为一件轻松愉快的事情。免费使用的书生SEP阅读器,和超过1000万份以上的各式SEP电子文档的广泛使用保证了该技术易用和稳定。采用SEP文件格式及SEP家族系列文档格式的书生软件产品,为政府与企事业单位的文档一体化工作和电子政务建设提供了值得信赖的文档解决方案。
阅读软件:书生阅读器SursenReader7.0、Sursen SepReader
8.XPS格式
XPS,XML Paper Specification(XML文件规格书),是一种微软推出的电子文件格式,使用者不需拥有制造该文件的软件就可以浏览或打印该文件,为微软对抗Adobe PDF格式的利器。微软下一版的办公室软件Office 12将提供XPS可携式文件格式的文件储存功能,包括Word、Excel、PowerPoint、 Access、Publisher、Visio、OneNote、及InfoPath等应用程序所保存的档案都可以存成XPS。
XPS格式是一种基于Zip压缩格式的文件,使用Zip或者RAR软件可以对其进行解压,然后就可以看出它的内部结构,这种压缩方案也保证了XPS文件的大小是比较小的。但是仅仅是压缩是不够的,还要在一些地方进行优化,比如说Subset font 等。
阅读软件:Xps viewer
9.WDL文件格式 (http://www.dynalab.com/ )
WDL是华康公司开发的一种电子读物文件格式。其特点是较好地保留了原来的版面设计,可以通过在线阅读也可以将电子读物下载到本地阅读,但是需要使用该公司专门的阅读器DynaDoc Free Reader来阅读,该阅读器可以从该公司的网站免费下载。
这种格式的电子读物由于对打印和拷贝作了限制,所以适当保护了作者和出版商的利益。与PDF格式一样,该格式依然不支持上述的一些效果。但是支持图片的导入。该格式对文件图像文字质量和最后成品的大小之间的平衡做了较好的处理,采用该格式的文件一般压缩率都比较高。对大中小电子读物都是一个不错的选择。
制作该种格式的电子读物需要使用该公司的软件DynaDoc生成器来完成。该软件目前还没有共享版本,读者可以到该公司的站点去查找关于该软件的相关信息。
10. NLC 文件格式
NLC格式中国国家图书馆的电子图书格式。它把扫描的图书图像以JBIG标准压缩(无损压缩)为很小的NLC文件。NLC文件是JBIG格式的一种变种。
11.TXT格式(http://www.txtgs.com)
TXT格式的电子书是被手机普遍支持的一种文字格式电子书,这种格式的电子书容量大,所占空间小,所以得到广大爱看电子书人们的支持,而更因为这种格式为手机普遍支持的电子书格式,所以也得到广大手机用户的肯定和喜爱。对于部分手机因无附带TXT电子书阅读器的手机用户,在此向大家推荐一款软件“MOTO TXT”(S40手机可安装此软件)。而随着TXT格式电子书受到越来越多的人们的喜爱,对于TXT格式电子书的需求也逐渐增加。想找一个资源齐全的网站下载TXT电子书也成了很多人的烦恼,在此也向大家推荐一个TXT电子书资源较齐全的网站www.txtgs.com
txt格式的优势:
1:体积小、存储简单方便
2:txt格式比较简单,不会中毒
3:txt格式是电脑和很多移动设备的通用格式
‘贰’ 有没有这样一个软件:可以将图片上的文字如扫描一样记录下来,并保存为文本格式!
有的呀,迅捷ocr7.0,可以把图片上的文字扫描出来的;
基本使用方法如下:
第一步:打开ocr软件,点击功能栏中的极速识别功能;
第二步:通过上面的添加文件按钮,把图片添加进去,请注意图片的格式哦!
第三步:点击右下角的一键识别按钮,开始进行图片文字识别。
希望上面的方法可以帮助到您,祝您成功哦!
‘叁’ 文本主题模型之潜在语义索引(LSI)
文本主题模型之潜在语义索引(LSI)
在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。
1. 文本主题模型的问题特点
在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型也是非监督的算法,目的是得到文本按照主题的概率分布。从这个方面来说,主题模型和普通的聚类算法非常的类似。但是两者其实还是有区别的。
聚类算法关注于从样本特征的相似度方面将数据聚类。比如通过数据样本之间的欧式距离,曼哈顿距离的大小聚类等。而主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。比如从“人民的名义”和“达康书记”这两个词我们很容易发现对应的文本有很大的主题相关度,但是如果通过词特征来聚类的话则很难找出,因为聚类方法不能考虑到到隐含的主题这一块。
那么如何找到隐含的主题呢?这个一个大问题。常用的方法一般都是基于统计学的生成方法。即假设以一定的概率选择了一个主题,然后以一定的概率选择当前主题的词。最后这些词组成了我们当前的文本。所有词的统计概率分布可以从语料库获得,具体如何以“一定的概率选择”,这就是各种具体的主题模型算法的任务了。
当然还有一些不是基于统计的方法,比如我们下面讲到的LSI。
2. 潜在语义索引(LSI)概述
潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Semantic Analysis(LSA)。其实是一个东西,后面我们统称LSI,它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。而SVD及其应用我们在前面的文章也多次讲到,比如:奇异值分解(SVD)原理与在降维中的应用和矩阵分解在协同过滤推荐算法中的应用。如果大家对SVD还不熟悉,建议复习奇异值分解(SVD)原理与在降维中的应用后再读下面的内容。
这里我们简要回顾下SVD:对于一个m×n的矩阵A,可以分解为下面三个矩阵:
Am×n=Um×mΣm×nVn×nT
有时为了降低矩阵的维度到k,SVD的分解可以近似的写为:
Am×n≈Um×kΣk×kVk×nT
如果把上式用到我们的主题模型,则SVD可以这样解释:我们输入的有m个文本,每个文本有n个词。而Aij则对应第i个文本的第j个词的特征值,这里最常用的是基于预处理后的标准化TF-IDF值。k是我们假设的主题数,一般要比文本数少。SVD分解后,Uil对应第i个文本和第l个主题的相关度。Vjm对应第j个词和第m个词义的相关度。Σlm对应第l个主题和第m个词义的相关度。
也可以反过来解释:我们输入的有m个词,对应n个文本。而Aij则对应第i个词档的第j个文本的特征值,这里最常用的是基于预处理后的标准化TF-IDF值。k是我们假设的主题数,一般要比文本数少。SVD分解后,Uil对应第i个词和第l个词义的相关度。Vjm对应第j个文本和第m个主题的相关度。Σlm对应第l个词义和第m个主题的相关度。
这样我们通过一次SVD,就可以得到文档和主题的相关度,词和词义的相关度以及词义和主题的相关度。
3. LSI简单实例
这里举一个简单的LSI实例,假设我们有下面这个有10个词三个文本的词频TF对应矩阵如下:
这里我们没有使用预处理,也没有使用TF-IDF,在实际应用中最好使用预处理后的TF-IDF值矩阵作为输入。
我们假定对应的主题数为2,则通过SVD降维后得到的三矩阵为:
从矩阵Uk我们可以看到词和词义之间的相关性。而从Vk可以看到3个文本和两个主题的相关性。大家可以看到里面有负数,所以这样得到的相关度比较难解释。
4. LSI用于文本相似度计算
在上面我们通过LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。比如对于上面的三文档两主题的例子。我们可以计算第一个文本和第二个文本的余弦相似度如下 :
sim(d1,d2)=(?0.4945)?(?0.6458)+(0.6492)?(?0.7194)(?0.4945)2+0.64922(?0.6458)2+(?0.7194)2
5. LSI主题模型总结
LSI是最早出现的主题模型了,它的算法原理很简单,一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。
主要的问题有:
1) SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。
2) 主题值的选取对结果的影响非常大,很难选择合适的k值。
3) LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。
对于问题1),主题模型非负矩阵分解(NMF)可以解决矩阵分解的速度问题。对于问题2),这是老大难了,大部分主题模型的主题的个数选取一般都是凭经验的,较新的层次狄利克雷过程(HDP)可以自动选择主题个数。对于问题3),牛人们整出了pLSI(也叫pLSA)和隐含狄利克雷分布(LDA)这类基于概率分布的主题模型来替代基于矩阵分解的主题模型。
回到LSI本身,对于一些规模较小的问题,如果想快速粗粒度的找出一些主题分布的关系,则LSI是比较好的一个选择,其他时候,如果你需要使用主题模型,推荐使用LDA和HDP。
‘肆’ 有什么软件能将图片里的文字内容识别出来并保存
将图片里的文字内容识别出来,一般我们都会使用ocr文字识别软件,操作方法如下:
1、先将需要识别的图片文件保存到电脑上指定位置,打开电脑上的ocr文字识别软件,点击左侧的图片局部识别。
4、识别完成后,识别出来的结果会呈现在右侧的框框内。
‘伍’ 怎样持续抓取并保存一个软件子窗口的文本框里的数据
应该有好几个form吧,你可以把中间的文本框的form设置为target=_blank,这样会在新窗口中提交,文本框所在的窗口不会改变。
别刷新(或叫重载)页面就行了,但密码处要用空白填充。我用的其他编程语言,但道理应该是一样的
‘陆’ 如何抓取图片中的文字
这是一个OCR图片文字识别的问题
不同的方法,不同的软件,网上很多,自己找找看
给你一篇常见的
巧把图片中的文字抠出来
http://www.fm086.com 2006年5月9日 08:31
巧把图片中的文字"抠"出来
Office在2003版中增加了Document Imaging工具,用它可以查看、管理、读取和识别图像文档和传真文本。其实,利用它的这个功能,我们还可以把网页或电子书中的文字给“抠”出来。
打开电子书,尽量采用较大的字体,翻到想要获取的页面,用抓图软件SnagIt对相关的内容进行抓取,然后在“文件”菜单中选择“复制到剪贴板”命令(也可以用其他抓图软件,当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕,然后在“画图”程序中对不要的部分进行裁剪并保存,然后复制)。
在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging,在左侧窗口中单击鼠标右键,选择“粘贴页面”,把复制的图片粘贴到Document Imaging中,在“工具”中选择“使用OCR识别文本”,Document Imaging的OCR识别程序就会对图片进行识别,完成后选择“工具”中的“将文本发送到Word”,程序会自动打开Word文档,就会看到"抠"出来的文字。
这里也列出了一些软件
http://..com/question/2818838.html
‘柒’ 如何从图片中提取出文字, 并保存好图片
在PS中操作,提出文字选用矩形工具选中,然后用移动工具把它移到你所需要的位置。
‘捌’ ROSTcm6网络语义分析图怎么让关键词变多
文档编码改成ANSI就可以了
如果是txt文档,则文件-另存为-编码选择ANSI。
ROST CM 6是武汉大学沈阳教授研发编码的国内目前唯一的以辅助人文社会科学研究的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。