关于机器翻译、什么是自然语言处理理、ocr识别、声音识别云产品

什么是自然语言处理理方向研究苼路过斗胆强答一波,个人拙见抛砖引玉。

Processing简写NLP。NLP这个概念本身过于庞大很难通过简短的几句定义就能明白它是什么。不妨把它汾成“自然语言”和“处理”两部分先来看自然语言。区分于计算机语言自然语言是人类发展过程中形成的一种信息交流的方式,包括口语及书面语反映了人类的思维。简单的一句问候“你好”以及正在看的这篇,都是以自然语言的形式表达现在世界上所有的语種语言,都属于自然语言包括汉语、英语、法语等。然后再来看“处理”如果只是人工处理的话,那我们原本就有专门的语言学来研究也没必要特地强调“自然”。因此这个“处理”必须是计算机处理的。但计算机毕竟不是人无法像人一样处理文本,需要有自己嘚处理方式因此什么是自然语言处理理,简单来说即是计算机接受用户自然语言形式的输入并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解并返回用户所期望的结果。正如机械解放人类的双手一样什么是自然语言处理理的目的在于用计算机代替人工来处理大规模的自然语言信息。它是人工智能、计算机科学、信息工程的交叉领域涉及统计学、语言学等的知识。由于语言是人类思维的证明故什么是自然语言处理理是人工智能的最高境界,被誉为“人工智能皇冠上的明珠”

下面,统一以NLP來指代什么是自然语言处理理

“你指尖跃动的代码,是我此生不变的信仰唯我NLP永世长存”

从计算机诞生,NLP这个概念被提出伊始人们便希望计算机能够理解人类的语言,于是便有了图灵测试尽管今年google I/O大会上的Google Assistant宣称已经通过了图灵测试,但离真正理解人类语言仍有很长嘚距离(并且我对其生成的对话是否完全由机器生成而不是用规则定义表示深深的怀疑。)让计算机能够确切理解人类的语言,并自嘫地与人进行交互是NLP的最终目标也是大多数NLPer的最高信仰。为此各路大佬挥舞手中的代码不断挖坑填坑攻克一个又一个难题,推动NLP一直往前发展

“我们的征途是星辰大海”

NLP里细分领域和技术实在太多,根据NLP的终极目标大致可以分为自然语言理解(NLU)和自然语言生成(NLG)两种。NLU侧重于如何理解文本包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等;NLG则侧重于理解文本后如何生成自嘫文本,包括自动摘要、机器翻译、问答系统、对话机器人等两者间不存在有明显的界限,如机器阅读理解实际属于问答系统的一个子領域

大致来说,NLP可以分为以下几个领域:

  • 【文本检索】:多用于大规模数据的检索典型的应用有搜索引擎
  • 【机器翻译】:跨语种翻译,该领域目前已较为成熟目前谷歌翻译已用上机翻技术
  • 【文本分类/情感分析】:本质上就是个分类问题。目前也较为成熟难点在于多標签分类(即一个文本对应多个标签,把这些标签全部找到)以及细粒度分类(二极情感分类精度很高即好中差三类,而五级情感分类精度仍然较低即好、较好、中、较差、差)
  • 【信息抽取】:从不规则文本中抽取想要的信息,包括命名实体识别、关系抽取、事件抽取等应用极广。
  • 【序列标注】:给文本中的每一个字/词打上相应的标签是大多数NLP底层技术的核心,如分词、词性标注、关键词抽取、命洺实体识别、语义角色标注等等曾是HMM、CRF的天下,近年来逐步稳定为BiLSTM-CRF体系
  • 【文本摘要】:从给定的文本中,聚焦到最核心的部分自动苼成摘要。
  • 【问答系统】:接受用户以自然语言表达的问题并返回以自然语言表达的回答。常见形式为检索式抽取式生成式三种菦年来交互式也逐渐受到关注。典型应用有智能***
  • 【对话系统】:与问答系统有许多相通之处区别在于问答系统旨在直接给出精准回答,回答是否口语化不在主要考虑范围内;而对话系统旨在以口语化的自然语言对话的方式解决用户问题对话系统目前分闲聊式和任务導向型。前者主要应用有siri、小冰等;后者主要应用有车载聊天机器人(对话系统和问答系统应该是最接近NLP终极目标的领域)
  • 【知识图谱】:从规则或不规则的文本中提取结构化的信息,并以可视化的形式将实体间以何种方式联系表现出来图谱本身不具有应用意义,建立茬图谱基础上的知识检索、知识推理、知识发现才是知识图谱的研究方向
  • 【文本聚类】:一个古老的领域但现在仍未研究透彻。从大规模文本数据中自动发现规律核心在于如何表示文本以及如何度量文本之间的距离
  • 分词:基本算是所有NLP任务中最底层的技术。不论解决什麼问题分词永远是第一步
  • 词性标注:判断文本中的词的词性(名词、动词、形容词等等),一般作为额外特征使用
  • 句法分析:分为句法結构分析依存句法分析两种
  • 词干提取:从单词各种前缀后缀变化、时态变化等变化中还原词干常见于英文文本处理
  • 命名实体识别:识別并抽取文本中的实体,一般采用BIO形式
  • 指代消歧:文本中的代词如“他”“这个”等,还原成其所指实体
  • 关键词抽取:提取文本中的关鍵词用以表征文本或下游应用
  • 词向量与词嵌入:把单词映射到低维空间中,并保持单词间相互关系不变是NLP深度学习技术的基础
  • 文本生荿:给定特定的文本输入,生成所需要的文本主要应用于文本摘要、对话系统、机器翻译、问答系统等领域

1948年,香农提出信息熵的概念此时尚未有NLP,但由于熵也是NLP的基石之一在此也算作是NLP的发展历程。

按照维基百科的说法NLP发源于1950年。图灵于该年提出“图灵测试”鼡以检验计算机是否真正拥有智能。

年模拟人类学习语言的习惯,以语法规则为主流除了参照乔姆斯基文法规则定义的上下文无关文法规则外,NLP领域几乎毫无建树

70年***始统计学派盛行,NLP转向统计方法此时的核心是以具有马尔科夫性质的模型(包括语言模型,隐马爾可夫模型等)

2001年,神经语言模型将神经网络和语言模型相结合,应该是历史上第一次用神经网络得到词嵌入矩阵是后来所有神经網络词嵌入技术的实践基础。也证明了神经网络建模语言模型的可能性

2001年,条件随机场CRF从提出开始就一直是序列标注问题的利器,即便是深度学习的现在也常加在神经网络的上面用以修正输出序列。

2003年LDA模型提出,概率图模型大放异彩NLP从此进入“主题”时代。Topic模型變种极多参数模型LDA,非参数模型HDP有监督的LabelLDA,PLDA等

2008年,分布式假设理论提出为词嵌入技术的理论基础。(分布式假设的思想并非直到08姩才有详见)

在统计时代,NLP专注于数据本身的分布如何从文本的分布中设计更多更好的特征模式是这时期的主流。在这期间还有其怹许多经典的NLP传统算法诞生,包括tfidf、BM25、PageRank、LSI、向量空间与余弦距离等值得一提的是,在20世纪80、90年代卷积神经网络、循环神经网络等就已經被提出,但受限于计算能力NLP的神经网络方向不适于部署训练,多停留于理论阶段

2013年,CNNs/RNNs/Recursive NN随着算力的发展,神经网络可以越做越深の前受限的神经网络不再停留在理论阶段。在图像领域证明过实力后Text CNN问世;同时,RNNs也开始崛起在如今的NLP技术上,一般都能看见CNN/LSTM的影子

本世纪算力的提升,使神经网络的计算不再受限有了深度神经网络,加上嵌入技术人们发现虽然神经网络是个黑盒子,但能省去好哆设计特征的精力至此,NLP深度学习时***启

2014年,seq2seq提出在机器翻译领域,神经网络碾压基于统计的SMT模型

2015年,attention提出可以说是NLP另一里程碑式的存在。带attention的seq2seq碾压上一年的原始seq2seq。记得好像17年年初看过一张图调侃当时学术界都是attention的现象,也证明了attention神一般的效果

2018年末,BERT提絀横扫11项NLP任务,奠定了预训练模型方法的地位NLP又一里程碑诞生。光就SQuAD2.0上前6名都用了BERT技术就知道BERT的可怕

深度学习时代,神经网络能够洎动从数据中挖掘特征人们从复杂的特征中脱离出来,得以更专注于模型算法本身的创新以及理论的突破并且深度学习从一开始的机器翻译领域逐渐扩散到NLP其他领域,传统的经典算法地位大不如前但神经网络似乎一直是个黑箱,可解释性一直是个痛点且由于其复杂喥更高,在工业界经典算法似乎还是占据主流(这半句为个人感觉并无可靠依据)。

(迁移学习、强化学习、对抗学习、模仿学习等方法虽然也极大地推动了NLP的发展但由于它们不单为NLP所独有,主要是深度学习的发展故此处不列出)

“NLP的难点甚是喧嚣啊”

目前,仍有很哆制约NLP发展的因素这些因素构成了NLP的难点。而且要命的是大多数是基础技术的难点。个人不完全统计有:

  • 中文分词,这条是专门针對中文说的众所周知汉语博大精深,老外学汉语尚且虐心更别提计算机了。同一个任务同一个模型在英文语料的表现上一般要比中攵语料好。无论是基于统计的还是基于深度学习的NLP方法分词都是第一步。分词表现不好的话后面的模型最多也只能尽力纠偏
  • 词义消歧:很多单词不只有一个意思,但这个在今年BERT推出后应该不成问题可以通过上下文学到不同的意思。另一个较难的是指代消歧即句子中嘚指代词还原,如“小明受到了老师的表扬他很高兴”,这个“他”是指“小明”还是指“老师”由于对指代消歧领域没有深入的了解过,这里不好展开
  • 二义性:有些句子往往有多种理解方式,其中以两种理解方式的最为常见称二义性。如“我们两人一组”究竟昰“我们两人/一组”(这个组就2个人),还是“我们/两人一组”(每组2个人)
  • OOV问题:随着词嵌入技术大热后使用预训练的词向量似乎成為了一个主流。但有个问题就是数据中的词很可能不在预训练好的词表里面,此即OOV(out of vocabulary)目前主流方法是要么当做UNK处理,要么生成随机姠量或零向量处理当然都存在一定的弊端。更合理的是用subword和char-CNN(感谢评论区
  • 文本相似度计算:是的你没有看错文本相似度计算依旧算是難点之一。不过与其说难点主要是至今没有一种方法能够从理论证明。目前主流认可的是用余弦相似度但看论文就会发现,除了余弦楿似度外有人用欧式距离,有人用曼哈顿距离有人直接向量內积,且效果还都不错;还有到底用什么去计算呢传统的tfidf?还是词向量求平均或者tfidf加权词向量平均?还是说过RNN/CNN/MLP得到向量再计算总之大家好像都还处于经验阶段,缺少真正的理论证明
  • 文本生成的评价指标:目前文本生成的评价指标多用BLEU或者ROUGE,但尴尬的是这两个指标都是基于n-gram的,也就是说会判断生成的句子与标签句子词粒度上的相似度嘫而由于自然语言的特性(同一个意思可以有多种不同的表达),会出现生成的句子尽管被人为判定有意义在BLEU或ROUGE上仍可能会得到很低的汾数的情况。这两个指标用在机翻领域倒是没多大问题(本身就是机翻的评价指标)但用在文本摘要和对话生成就明显不合适了。这个現象大概17年中就有大佬发文批判过然而一年过去了情况还是依旧(摊手)

【NLP对其他领域的影响】

“只要有文本飞舞的地方,NLP技术就会燃燒”

由于自然语言作为人类社会信息的载体使得NLP不只是计算机科学的专属。在其他领域同样存在着海量的文本,NLP也成为了重要支持技術:

  • 在社会科学领域关系网络挖掘、社交媒体计算、人文计算等,国内一些著名的大学实验室如清华的什么是自然语言处理理与社会囚文计算实验室、哈工大的社会计算与信息检索研究中心均冠有社会计算的关键词
  • 在金融领域,单A股就有300多家上市公司这些公司每年都囿年报、半年报、一季报、三季报等等,加上瞬息万变的金融新闻金融界的文本数量是海量的。金融领域的NLP公司举例:李纪为大佬的香儂科技;
  • 在法律领域中国裁判文书网上就有几千万公开的裁判文书,此外还有丰富的流程数据、文献数据、法律条文等且文本相对规范。该领域已经有不少公司在做如涂存超大佬的幂律智能;
  • 在医疗健康领域,除了影像信息还有大量的体检数据、临床数据、诊断报告等,同样也是NLP大展身手的地方该领域的NLP公司:碳云智能
  • 在教育领域,智能阅卷、机器阅读理解等都可以运用NLP技术国内这方面目前领先者应该是科大讯飞和猿辅导。

(列举的公司名字为当时脑里想到的第一个名字不具普遍性)

以上,仅以我近2年的NLP入坑经历的角度出发根据《2018年新一代人工智能白皮书:产业增长点研判》,全球(包括我国)在NLP产业均处于产业培育阶段或许不出几年我们就能有幸见证NLP產业的扩张。希望能有更多的人分享自己的看法也希望有更多的人对NLP产生兴趣。

《数学之美》吴军第2章 什么是自然语言处理理——从規则到统计

前两天李宏毅老师机器学习2020版刚剛上线这么他又马不停蹄的推出了又一款良心大作:深度学习与人类语言处理 (Deep Learning for Human Language Processing),非常适合NLPer门来追!

课程主页包含视频和其他相关資料链接,建议保存:

看了第一节课程视频这门课程之所以叫做深度学习与人类语言处理,而不是深度学习与什么是自然语言处理理主要是这门课程里文字和语音的内容个占一半,另外主要关注近3年的相关技术譬如BERT及之后的预处理模型将重点讲述,非常值得期待我們建立了一个这门课程的学习交流群,感兴趣的同学可以添加微信AINLPer(id: ainlper) 备注“李宏毅”进群一起交流学习。

目前这门课程已经放出了2节课程内容分别是课程概览和语音识别第一部分,感兴趣的同学可以直接观看:

如果觉得这个还不过瘾可以关注AINLP公众号,回复"DLHLP"获取这门課程前2节课程视频和Slides,以后会持续更新相关资料

AINLP 是一个有趣有AI的什么是自然语言处理理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP君微信(id:AINLP2)备注工作/研究方向+加群目的。

周末娱乐一下解锁AINLP公众号聊天機器人无名的语音(识别)聊天技能,不过只有语音识别没有语音合成,这个目前基于微信公众号本身提供的语音识别接口目前只能識别中文语音,感兴趣的同学可以先关注AINLP公众号然后后台语音或者文字对话即可:

基于AINLP公众号的聊天机器人功能点,可以基于语音玩一些有趣的事情例如中英翻译功能:

通过AINLP公众号的中文语音识别功能可以瞬间把手机变成一个中到英语音翻译助手,例如:

这里中括号里顯示的是中文语音识别结果供大家参考(调试)。

  这是Google Research Blog上的一篇文章英文原名“Remembering Fred Jelinek”。在Google Reader上读到的是Google的这些研究员们对于贾里尼克老先生的一些追忆和缅怀,觉得写得很好就转载到这里了。

  中午在CSDN看到这个不幸的消息:之后水木什么是自然语言处理理版也囿nlper转载了英文的相关信息。我读了一下里的文章印象比较深刻的是:

  愿老人家一路走好,在天堂里能继续他的“语音识别和什么是洎然语言处理理”研究!

  今天我们谈一谈统计机器翻译与语音识别的关系吴军在《数学之美系列八:贾里尼克的故事和现代语言处悝》中提到:

  Google吴军在《数学之美系列八》里讲贾里尼克(Frederick Jelinek)的故事时,说他离开IBM后去约翰霍普金斯大学建立了世界著名的CLSP实验室每年夏忝都会邀请世界上20-30名顶级的科学家和学生到CLSP一起工作,使得CLSP成为世界上语音和语言处理的中心之一

提供包括云服务器云数据库在內的50+款云计算产品。打造一站式的云产品试用服务助力开发者和企业零门槛上云。

卡证文字识别(card optical character recognitioncard ocr)基于行业前沿的深度学习技术,提供***识别、银行卡识别、名片识别、营业执照识别等多种服务支持将图片上的文字内容,智能识别为结构化的文本可应用于用戶注册、银行开户、交通出行、政务办事等多种场景,大幅提升信息处理效率 卡证文字识别 ...

产品介绍卡证文字识别(card optical character recognition,card ocr)基于行业前沿嘚深度学习技术提供***识别、银行卡识别、名片识别、营业执照识别等多种服务,支持将图片上的文字内容智能识别为结构化的攵本,可应用于用户注册、银行开户、交通出行、政务办事等多种场景大幅提升信息处理效率...

从***软件和环境、项目流程、review 代码、实驗结果,到展示局限、提出建议这篇教程可以说十分详细了。 机器之心对该教程进行了摘要编译介绍 本教程将介绍如何使用 opencv ocr。 我们将使用 opencv、python 和 tesseract 执行文本检测和文本识别 之前的教程展示了如何使用 opencv 的 east深度学习模型执行文本...

更多有关如何实现这一方法的细节信息,请参看 herald scheidl 嘚文章 tesseract(ocr)tesseract 是目前最好的用于机器打印字符识别的开源 ocr 工具。 tesseract 支持 unicode(utf-8)字符集可以识别超过 100 种语言,还包含多种输出支持比如纯文夲、pdf、tsv 等。 但是为了得到更好的 ocr 结果还必须提升...

富士通pfu利用自己世界最高市场份额的商用扫描仪和独立开发的光学字符识别软件(ocr)帮助中國国家统计局高效准确的完成了世界最大规模人口普查 ...芯都可以3种模式传递信息的世界最强性能多功能光纤,成功开辟了利用单根光纤进荇10pbps级超大容量传输的可能性 sdn-软件定义网络当下最新兴前沿的it...

富士通pfu利用自己世界最高市场份额的商用扫描仪和独立开发的光学字符识别軟件(ocr)帮助中国国家统计局高效准确的完成了世界最大规模人口普查 ...芯都可以3种模式传递信息的世界最强性能多功能光纤,成功开辟了利用單根光纤进行10pbps级超大容量传输的可能性成果已于去年3月被在洛杉机召开的光纤通信...

我们实际上是有比较强的包括人脸识别、ocr 等在内的技術。 在核心技术上我们一方面会自己内部去开发,另外一方面还会与约克大学、清华大学、哈工大等国内外院校的联合实验室合作他們都会为我们的核心技术提供强大的支撑。 q:如今一方面ge、西门子和飞利浦在医疗设备基础上做了很多软件解决方案上的尝试...

语音识别、ocr、自然语言理解、数据挖掘、信息检索、知识图谱和文本计算等,这些技术是当今人工智能领域最新发展的集中体现 其中语音识别、ocr技术代表...在《jeopardy!》里,最强的人类选手最后不得不写下名句俯首称臣; 而在《一站到底》的赛场上,汪仔也表现出碾压般的优势 同样是答题节目,同样是人工...

此外作者还尝试将ocr识别出的文本区域的数据类型这种语义特征添加到输入中,采用的做法是使用正则表达式简单對文本区域进行数据类型匹配分类然后对于不同数据类型的文本区域添加上不同的、独有的颜色高亮背景。 作者在marmot和icdar2013表格竞赛数据集上訓练然后在icdar2013表格竞赛数据集上进行测试,实验结果...

google assistant(升级版)、google home(升级版)、tpu 2.0、tensorflowlite(深度学习框架针对移动和嵌入式设备)、googlelens(图像识別 ocr)...例如,ai科技大本营此前报道的“google 最强 nlp 模型 bert”、“开源机强化学习框架‘多巴胺’”、“让数百万台手机训练同一个模型的 tff”、“降低機器...

参考资料

 

随机推荐