英语学习利器 一款词典笔的模型创新与工程实践

呆板进修怎么帮忙英语进修?查词、翻译、尺度发音都少不了:OCR(光学字符辨认)及时辨认单词与句子,NMT(神经收集翻译)主动翻译语句,TTS(语音合成)合成最真正的尺度读音。那末这…

呆板进修怎么帮忙英语进修?查词、翻译、尺度发音都少不了:OCR(光学字符辨认)及时辨认单词与句子,NMT(神经收集翻译)主动翻译语句,TTS(语音合成)合成最真正的尺度读音。那末这些是否是能集成到一个硬件中,成为智能的英语进修利器,这就是网易有道辞书笔 2.0。

8 月 6 日,网易有道公布了一款全新的智能进修硬件:网易有道辞书笔 2.0。该辞书笔只要扫一扫就可以主动辨认生词、句子,并供给对应的释义、翻译与读音。首要的是,所有这些功效均可以在离线的环境下完成,包含 NMT 实现的整句翻译。固然,这支笔暗地里的技能不止这些,ASR(语音辨认)和 NLU(天然说话理解)等技能也帮忙实在现了在线的语音助手问答功效。

如许集成为了视觉、说话、语音体系的辞书笔,才是呆板进修帮忙英语进修的优异典范。那末小小的装备上,怎么才能集成图象辨认和翻译的离线模子,怎么才能在正确和速率间做掂量以供给最佳的利用体验?在这篇文章中,网易有道技能研发团队向呆板之心先容了辞书笔 2.0 暗地里的焦点技能。

在网易有道产物卖力人吴迎晖的现场演示中,咱们可以看到辞书笔 2.0 在查词、翻译和发音等功效上的非凡结果。它的焦点操作就是「扫一扫」,不管是纸质册本、儿童绘本,仍是产物包装盒,扫一扫就可以辨认目生单词与句子。

网易有道辞书笔 2.0 的利用体验

呆板之心也试用了这支辞书笔,咱们在联网/不联网的环境下别离测试了划词辨认的环境,根基上单词辨认和发音体验上都是很是正确的,短句的翻译也没甚么问题。别的,辞书笔的利用很是便利,用笔头齐截下词就可以看到辨认成果,划动的角度和速率也有很大的自由空间。

若是咱们读文献看到不领会的词也能够用辞书笔查,以下展现了离线环境下翻译论词句子的结果,从这里可以看出辞书笔内置的离线翻译模子仍是很利害的。

既然辨认和翻译结果都这么好,那末辞书笔暗地里的技能究竟是甚么样的。它为甚么扫一下就可以辨认单词字母,为甚么能将视觉模子与翻译模子都紧缩到小小的装备中,并离线及时运行?

网易有道辞书笔 2.0 的技能线路

若是咱们要实现扫一扫就可以查词,那末 OCR、NMT 和 TTS 三大模块是不成缺乏的。并且若是要将它们都嵌入到小小的端装备上,那末还必要大量的模子紧缩与工程实践等事情。在后文中,咱们将从 OCR、NMT 与工程实践三部门先容有道辞书笔 2.0 的技能线路。

直观而言,为了实现齐截划查词查句,笔头的高速相机每秒约莫会拍摄一百多张图象,这些图象要拼接在一
英语学习利器 一款词典笔的模型创新与工程实践插图
块儿才能展示完备的单词或句子图象。随后 OCR 可以将拼接的图象辨认为文字,并利用内置的辞书与 NMT 模子举行处置。最后,辞书笔再利用 TTS 天生词或句子的读音就好了。

总体上,辞书笔体系从数据、算法到结果都比力有上风。借助有道辞书等产物的 8 亿+用户,有道可以@得%pO414%到大范%8KLwb%围@文本、OCR 图象和语音的真实数据,积累的亿级高质量练习数据也能输出加倍切近进修场景的呆板进修模子。下面就让咱们看看辞书笔最焦点的技能与法子都是甚么吧。

扫一扫辨认单文句子

作为网易有道辞书笔 2.0 最为焦点的技能之一,OCR 卖力「看懂」图片中文字都有甚么。先简略先容下,网易有道总体的 OCR 的环境,他们的 OCR 引擎利用了主流的卷积神经收集+轮回神经收集的法子,现已支撑 26 种说话文字,支撑语种主动辨别和夹杂辨认,是今朝海内辨认说话至多的 OCR 辨认引擎。总体上辨认正确率最高能到达 99.6%。

如上展现了有道 OCR 的一个利用,一般辨认公式要比文字更繁杂一些,由于表达式的布局是多种多样的,上标、下标、分式等各类情势都存在。除用 OCR 转换为 LaTex 表达式,后续的解题步调生成绩更繁杂了。除此以外,有道 OCR 还能实现手写、模胡文字、拼音等辨认,占有道 AI 团队先容正确率能到达 93%-95% 以上。别的在模子方面,有道也在摸索加倍前沿的解决方案,比方测验考试将 Transformer 嵌入到 OCR 使命中。

据领会,经由过程实行室测试数据得出,在辞书笔 2.0 中,它辨认字符的正确率均匀到达了 95.5%,领先行业 82% 的均匀程度。

上文先容了,有道的尺度 OCR 模子已很是强了,可是将其利用到辞书笔 2.0 中还会存在不少挑战,此中最大的问题即它只能看到字符片断,滑动的进程是看不到完备的词或句的图片。这就请求模子先要把图象拼接起来,再来做 OCR 辨认。

自顺应全景拼接

简略而言,图象拼接是将存在堆叠的图象序列举行图象配准(Image registration)和图象交融(Image blending),并天生完备图象的进程。此中图象配准是创建图象之间的对齐瓜葛,以肯定一张图象与另外一张图象的空间投影瓜葛,它是图象拼接的焦点问题。

常见的图象配准法子不少都基于特性的法子,这种法子会利用图象的轮廓特性、角点检测和标准稳定特性来肯定图与图间的类似部门。比方基于标准稳定特性的拼接法子,其进程分为特性提取、特性匹配、投影估量和图象交融,它对光照、视角、噪声和多种图象变更具备较高的鲁棒性。

可是尺度法子在辞书笔的利用场景中另有不少不足,起首是特性提取过分耗时。斟酌一下,若是每秒必要提取一百多张图片的特性信息,并且还只能在挪动端完成,那尺度 SIFT 法子延迟会有多大啊。这类延迟是不成接管的,辞书笔必要一种能在挪动端处置高帧率图象的能力。

其次,比拟通用的图象拼接,文字图象的轮廓特性较着但纹理特性很是少,是以分歧文字中极可能存在不异的特性描写子。比方「三」和「十」均可能包括「一」这个特性描写子,是以极可能致使毛病的匹配与对齐。

网易有道按照现实利用场景自行设计了一套特性,解决了这两大问题,从而用自界说的方法快速提取特性。比拟传统 SIFT 花 1 毫秒提取单张图象的特性,有道定制化的提取法子要高效不少。整体而言,辞书笔 2.0 所采纳的图象拼接法子可以分为图象配准、图象交融与文本切行三大步调。

1. 图象配准

有道辞书笔将扫描图象分成若干图象块,对付每个拔取的图象块,模子会同时提取特性匹配计较多对图象块的投影估量实现图象对齐。

2. 图象交融

按照图象对齐瓜葛,有道设计了自顺应的图象加权交融算法,从而天然地交融对齐后的图象。由于现实利用中手抖或滑动速率等身分,一般法子拼接出来的结果都不会太好。但有道的图象交融能获得无重影、无接缝的完备拼图成果,而且在多角度(与桌面夹角成 90 度至 60 度)扫描输入下表示如一。

一般法子不不乱的拼接结果。

降服发抖、角度和滑动速率等身分获得的拼接成果。

3. 文本切行 最后,在现实利用中笔头常常会超过多行文本,获得的拼接图象如上所示也不是清洁的。为此,有道利用一个模子来将所有字符的候选位置信息联系关系组行,即便在密集文本、发抖的环境下也能将方针行样天职割出来。

扫一扫翻译句子

这一次辞书笔 2.0 另有一个很是强力的功效,即离线地实现整句神经收集翻译。今朝有道的 NMT(简称 YNMT)可以实现中文到 12 种说话互译,英文到 9 种说话互译。翻译结果 BLEU 值超过跨过同业一些,特别在特定测试集范畴,好比消息范畴的中英文互译上结果乃至优于google和微软。以前呆板之心曾领会到 YNMT 模子重要也采纳 Transformer 架构,并从单语数据的操纵、模子布局的调解、练习法子的改良等方面增强翻译结果。

以前 YNMT 也会采纳回译、对偶进修和匹敌练习等计谋增强翻译成果的鲁棒性,而近来跟着预练习技能在 NLP 范畴的鼎力成长,有道也将预练习技能引入到了 NMT 练习中。在近来公布的 ACL 2019 最好长论文中,钻研者很是存眷练习与揣度间的不匹配性,有道暗示他们在这方面也一向有测验考试。有道暗示这篇最好论文比力凸起的进献体如今筛选 Sentence-level Oracle Word,是以研发团队也在进一步测验考试它的结果。

有道暗示,经由过程参加 BERT 等预练习说话模子后,模子有改良。别的在模子练习时可以连系一些根本使命,比方定名实体辨认等,这类多使命进修机制对 NMT 的质量仍是颇有帮忙的。有道同时也在摸索怎么在强化进修的进程中设置符合的嘉奖,从而晋升翻译成果的流利度与忠厚度。

固然参加 BERT 等大模子的 NMT 体系是没法嵌入到辞书笔的,有道会采纳加倍精简的离线端模子,在不显著低落结果的同时极大紧缩模子。

扫一扫必要的算力支撑

虽然模子的结果很是好,但若不克不及嵌入到小小的辞书笔中,那末利用体验会差不少。但若要嵌入端装备,那末如安在有限的算力下及时运行这些体系就很是首要了。有道在辞书笔 2.0 中摆设了 OCR、NMT 和 TTS 模子,而离线摆设的最大问题是正确率和速率之间的掂量,为此有道做了不少优化。

实在辞书笔中的离线模子都是从线上模子演变而来的,且为了在给定算力的环境下及时运行,它们的布局和参数目都更加精简。别的,经由过程网易有道自研的离线展望框架,开辟者在包管正确率的同时能更便利地摆设到嵌入式芯片上。是以对付端侧模子摆设,咱们可以从模子紧缩和离线揣度东西两方面探究。

1. 模子紧缩

模子紧缩浸透在练习和展望各个阶段。在练习进程中,有道在紧凑设计的离线收集模子上经由过程收集剪枝进一步精简模子,模子巨细可以紧缩近百倍;在展望阶段,有道利用了收集交融(network fusion)、低秩类似(low-rank Approximation)等技能削减计较参数目。首要的是,有道在支撑定点计较的芯片上(如高通 DSP)实现了 int8 模子量化,能在少许丧失下获得 4 倍紧缩比的定点模子。

除采纳各类模子紧缩算法外,淘汰词表(NMT)、同享参数等法子也能低落模子巨细。

是以从各个层面与角度动身,呆板进修模子才能在不显著影响机能的环境下大幅度低落对运算资本的需求。

2. 离线揣度框架

若是每个模子都要一点点做优化,那末全部模子摆设进程是很是复杂的,这就必要一种能主动高质量完成这个进程的东西,这也就是有道自研展望框架的首要缘由。

有道的离线展望框架可以或许按照模子的特色做一些优化处置,包含模子紧缩、层间归并,利用芯片支撑的向量操作指令集,调解指令履行次序和逻辑布局,提高 cache 射中率、提高内存利用效力等。有道在这方面做了不少事情,今朝离线框架已比力成熟了,可以或许支撑 cpu、gpu、dsp、npu 等各类硬件平台,并且有道在端侧的工程化都基于这个框架完成。

有道自研的离线展望框架支撑 Caffe、TensorFlow、PyTorch 等主流 DL 框架练习的模子,同时有道重点完成如下优化:

模子多框架的主动转换、一键摆设模子异构芯片的主动紧缩、定点量化模子跨平台的多线程并行计较加快有道辞书笔 2.0 也会继续添加新功效,比方听说 8 月尾,辞书笔 2.0 就会经由过程 OTA 进级的方法支撑整段翻译,这对离线端 NMT 模子又提出新的挑战。最后,不管是模子法子的立异,仍是工程实践的摸索,将呆板进修利用到英语进修场景都是很是值得探究的标的目的,网易有道辞书笔 2.0 就是很好的典范。

作者: admin

为您推荐

联系我们

联系我们

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部