一支融合了多项技术的“笔”
- 发布时间:2014-09-19 02:31:34 来源:科技日报 责任编辑:罗伯特
一支马克笔大小,在纸面上一扫,文字材料马上就输入其中,再一按按钮,中英文即可对照着翻译出来,这就是汉王日前推出的e典笔A30T的直观使用感受。
A30T还被称为首款云端翻译利器,依靠置入802.11b/g/n无线网络连接模块,用户还可进行WiFi连接,登录之后即可实现摘抄资料、录音的云端存储等功能。
当更多人关注其收录了多少部权威英语辞典,或是可以摘抄和翻译多大量文档时,记者却注意到,有人说这是一款“搭载了汉王多项核心技术”的产品。
小照片拼成大照片
A30T是一款翻译笔,扫描纸质文件就能将文档收录,还可在线翻译。那么这个短暂的过程蕴含了多少技术呢?
主抓科研的汉王科技副总经理王杰告诉记者,在硬件方面,他们定制了一款适合手握的高分辨OLED屏,以及一款高清镜头,在软件方面,其用到了图像拼接技术、OCR技术、智能查词技术和手写识别技术。这些技术在各个环节扮演着其重要角色。
从扫描输入开始说起。翻译笔的“笔尖”其实是一个大光圈高清转直角镜头,成像质量高,成像距离也非常短。LED灯通过光学级设计的光腔,可以均匀照射在需要摘抄或翻译的纸面上,然后高速摄像头通过镜头进行高速拍摄。
因此,扫描的过程其实就是一个高速拍摄的过程。技术人员透露,拍摄频率在每秒100帧以上。“可以理解成拼接,就在一刹那间,我们把这么多小照片拼成一个大照片。”王杰解释说,拍摄到的图像拼接任务跟扫描是同时进行的,系统每采集到一帧图像,就送其到图像处理模块进行拼接。抬笔的同时,全景图也就生成了。
这个过程听似简单,却包含着很多技术性难点。“扫描笔支持从左往右和从右往左两种扫描方式,扫描的材质可能是透底的书本、不同字体不同颜色的杂志、暗淡的报纸、反光的铜版纸,情况很复杂……”王杰举例道,拼接的全景图像一般呈波浪形,为了后续的准确识别,需要校正图像以及拉直文字行。
并不陌生的OCR技术
在图像拼接的同时,让图片中文字电子化用到的就是大名鼎鼎的OCR技术。
OCR是英文Optical Character Recognition的缩写,意为光学字符识别。该技术解决将扫描仪或者摄像头等设备,获取的印刷体文字图像转化为可编辑的编码文字的问题。
提及OCR技术,很多人应该并不陌生,通过相关OCR软件我们可将扫描的文档转换成可编辑的电子文档。
早在上世纪六七十年代,OCR研究就在各国开展。在研究初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965年至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。
我国在OCR技术方面的研究起步于上世纪70年代,先是对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年汉字识别的研究进入一个实质性的阶段,不少研究单位相继推出了中文OCR产品。汉王的手写识别技术就曾获得国家科技进步一等奖,OCR技术获得国家科技进步奖二等奖。
OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多,书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本……都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的纠错功能与方法,亦是决定产品好坏的重要因素。
独特的OCR技术原理
关于OCR技术的原理,汉王科技的研究人员告诉记者,首先根据输入的图像的情况进行几何校正或者亮度校正等图像预处理;再通过版面分析技术划分版面为区域,并且分析区域属性,区域属性大概可分为横排文字、竖排文字、表格及图像四种类型;进一步切割文字区域部分得到文字行,对文字行进行单字符切割和识别;根据语言模型对识别结果做后处理,进一步提高识别准确率;最后可根据需要把识别结果按照原图像版面格式输出。
那么用于这根笔内的OCR技术,又有何特殊性?
首先是文字行定位技术。如果扫描窗口比待扫描文字行高,扫描图像会包含其他文字行部分,由于待文字行不能保证在中心位置,针对此,研究人员根据大量的用户使用体验,按照用户使用习惯提取用户待输入的文字图像行,用于识别处理。
然后是图像校正技术。由于各人手持A30T的姿势及扫描速度不一样,“我们直接获取的图像有不同角度的旋转、伸缩等变形,拼接得到的全景图像也会有扭曲形变。通过图像校正技术调整全景图像,使其更利于进一步的单字符切割和识别。”王杰表示。
另外,由于嵌入式设备的内存较小,运算速度较慢,OCR识别模块要尽量少占内存,识别尽量快。
首次应用的云存储
按一下按钮,中文就变成了英文。这一个过程并非仅发生在这根“笔”里。“抬笔后,扫描笔把全景图送入OCR识别模块,得到编码文字。扫描笔通过WiFi跟汉王翻译云联系,汉王云应答。扫描笔得到应答后把编码文字送给翻译云进行翻译,等待翻译云的译文。得到译文后,扫描笔就将其显示在屏幕上。”王杰这样描述道。
另外,首次应用的云储存技术,也是业界所重点关注的一项功能,在该技术的支持下,e典笔A30T可将海量扫描资料、录音及日常记录学习的点滴上传至云端,只要有WiFi热点,便可满足消费者随时上传、调阅云端内容的需要。而考虑到移动端用户的使用需要,汉王还推出全新的汉王云app,此手机软件可让用户通过手机即时呈现上传内容,真正做到易查、易编、易复习,同时简洁的UI和清晰的操作指示,都让这款APP获得了业内专家的肯定。
- 股票名称 最新价 涨跌幅