怪我咯是什么意思是“怪学”?

什么是世界上最怪异的语言? | 科学人 | 果壳网 科技有意思
什么是世界上最怪异的语言?
什么是世界上最美丽的语言?哪国的语言最好听?哪门外语最好学?最难学的是哪门外语?学什么第二外语好?
本文作者:江烈农
编辑的话:本文的作者是一家语言数据公司的CEO,这家公司为世界各地的企业提供结构化的语言解决方案----简单说,就是处理邮件、短信和社交媒体上的自然语言资料。自然语言(Natural Language)是我们人类交流时所用的语言,与人造语言(如编程语言)相对;自然语言处理(Natural Language Processing,NPL)就是用计算机来处理人类的语言。评估语言的“怪异度”就是一种对自然语言的处理,这个话题本身固然有趣,而本文的价值还在于作者采取了一种非传统的处理方式:不以英语为衡量基准,而使用一个全球性的价值观。
(文/Robert Munro)我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。
自然语言处理(Natural Language Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。
为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。
纵观全球,纠出“语言异类”
语言结构世界地图(World Atlas of Language Structures,下称 WALS)根据一大堆各种语言特征,评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面----共计 192 种不同的语言特征。
因此,与其采用一个以英语为中心的世界观,WALS 毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语--动词--宾语”, WALS 对 1377 种语言的词序进行编码,其中 35.5% 具有“主动宾”词序。同时,只有 8.7% 的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有 41.0% 是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)
WALS 的数据相当稀疏,所以我们把研究限定于 165 种语言特征,这些特征至少要包含 100 种不同语言的数据。(现阶段,就这 165 种语言特征而言,数据不足其中 10 种的语言,我们也剔除掉了。因此共计还剩 1693 种语言。)
现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因 WALS 中列举的语言特征本质而决定----有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计 21 种语言特征。
至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语--宾语--动词”词序也算进来的话,那么英语得到的怪异度值就会是 0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是 0.355,但你懂这意思就行了)。因此,得到的“怪异度指数”(Weirdness Index),就是一项交叉考量 21 种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异”,所以终值是用 1 减去这个平均值)。本篇博文我汇报所涉及的语言,就这 21 项语言特征而言,至少三分之二(即 14 项)具有数据值(即 239 种语言)。
***揭晓:全世界最怪异的语言是----
与全世界大多数语言最不同的语言,是一种以动词起句的声调语言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克语”(Chalcatongo Mixtec),又名“大圣米格尔米斯特克语”(San Miguel el Grande Mixtec)。第二名在西伯利亚有 2.2 万人使用:涅涅茨语(Nenets)----英文里“派克大衣”或称毛皮风雪大衣(parka)一词就来源于这种语言。第三名是乔克托语(Choctaw),约有 1 万人使用,大多在美国俄克拉何马州。
但是,难就难在这儿了----有些实际上最怪异的语言,是你听说过的:德语、荷兰语、挪威语、捷克语、西班牙语,以及汉语普通话。而且,实际上英语在“语言怪异度指数”(Language Weirdness Index)表中也位列第 33 名。
世界上最怪异的 25 种语言:北美洲的,恰卡通戈米斯特克语、乔克托语、大梅萨迪埃格诺语(Mesa Grande Diegue?o)、库特奈语(Kutenai)、索克语(Zoque);南美洲的,帕乌玛利语(Paumarí)、特鲁迈语(Trumai);澳洲暨大洋洲的,皮詹加加拉语(Pitjantjatjara)、拉伍卡莱维语(Lavukaleve);非洲的,哈勒尔奥罗莫语(Harar Oromo)、伊拉库语(Iraqw)、刚果语、穆穆耶语(Mumuye)、祖候语(Ju|'hoan)、科伊科伊语(Khoekhoe);亚洲的,涅涅茨语、东亚美尼亚语、阿布哈兹语、拉达克语、普通话;以及欧洲的:德语、荷兰语、挪威语、捷克语和西班牙语。
顺带一提,皮詹加加拉语(Pitjantjatjara),这名字还能更牛吗?(另外,你能猜出这个拉丁化拼写中哪个音节不发音吗?)
以两项特征为例:问句与代词
“这很怪。这很怪吗?”(This is odd. Is this odd?)区分各种语言的特征之一,是“是非问句”的提问方式。绝大多数语言都有特别的疑问语助词,添加在句中某处(例如日语问句句末的“か”[ka])。在 WALS 中,有 954 种语言具有这项值的编码,其中 584 种有疑问语助词。(译注:又如本段段首的普通话提问方式,添加语助词“吗”实现简单疑问句提问。)但像英语那样的提问方式,即调换词序,其比例在所有语言中仅为 1.4%。也就是说,一共只有 13 种语言采用这样的方式,而它们大部分都是欧洲语言:德语、捷克语、荷兰语、瑞典语、挪威语、弗里西亚语、英语、丹麦语和西班牙语。
但还有一种语言,其是非问句的提问方式更加不走寻常路,那就是恰卡通戈米斯特克语:提问时,什么都不变。我们调查所涉及语言中,唯有这种语言提问时没有疑问语助词,没有词序调换,没有语调变换……这种语言就“是否”提问时,以及作简单陈述时,讲话真的是毫无任何区别。我花了好些时间,想象用这种语言做电视游戏节目会是什么样。
语言还需应付的另一个问题,是如何处理简单主语代词,比如“我”(I)、“他们/她们/它们”(they)、“它”(it)。这些词称为“代词主语”(而像“有关部门负责人含糊其辞”这样的说法则是使用了名词主语)。最通常的做法,是将代词信息附加到动词上----所调查的 711 中语言中有 437 中语言采用这样的做法,如西班牙语、意大利语和葡萄牙语。但是,荷兰语、德语和挪威语,与英语一样,宁可使用特别的主语代词,而这些代词通常----或必须----在句中出现。不过,在 WALS 有编码的 711 种语言里,也只有 82 种语言采用这样的处理方法。库特奈语(加拿大不列颠哥伦比亚省有 100 人使用)和穆穆耶语(尼日利亚有 40 万使用者)的处理方法更不寻常:它们有类似主语代词的东西,但其在句法中的位置,则与完整名词性短语的位置不同。而比这还更不寻常的,又是恰卡通戈米斯特克语:这种语言混合多种不同策略,所以既有附着在动词上的主语标记,又有代词,而且这些代词在句中出现的位置,还与完整名词短语不同。
世界上最“不怪异”的语言
如果我现在请你考虑一下以下这几种语言,你觉得它们有多怪呢?立陶宛语、印尼语、土耳其语、巴斯克语,以及粤语。吓一跳吧!它们的怪异指数排名相当低呢。对于语言学家和语言学习者而言,这几种语言可能并不显得典型;但就我们研究的 21 种语言特征而言,它们相当随大溜。请注意,在怪异度各级分布中,我们有一些孤立语言(比如巴斯克语)。巴斯克语很“典型”;但是另一种孤立语言,库特奈语,则相当怪异。更令人惊讶的是,汉语普通话名列 25 大最怪异语言,但粤语却栖身倒数十大。这与二者发音系统不同有关:与粤语不同的是,普通话有小舌延续音(uvular continuants),而且在软颚鼻音方面有一些局限(普通话同英语类似,可以发出英语“song”词尾的那个音,比如汉语“颂”[sòng];但无法将这个尾音置于单词的词首发音----世界性地来看,这个特定限制实属罕见。)
而在怪异指数列表最末尾的几种语言里,有两种你听过,有 3 种你可能没听过:匈牙利语,通常享有“语言学异类”的美誉,但在我们考量的这些维度里,却是彻头彻尾的典型语言。(我去年夏天在布达佩斯住过,我发誓匈牙利语绝对有其怪异之处,只是隐藏在其他地方了而已。)查莫罗语(关岛有 9.5 万使用者)、阿伊努语(仅在日本有少量使用者的濒危语言),以及布雷佩查语(Purépecha,5.5 万使用者,多在墨西哥),这三种语言都很正常。但是,所有语言中最最正常、超级典型、最不诡异的一种语言,怪异指数仅 0.087 的语言,是印地语----只有一项怪异特征。
这一点,一部分说明,有些你想当然以为正常的语言(如英语、西班牙语或德语),其实一贯与世界上其他语言格格不入。这令我想起心理学的一个基本问题:如果我们调查研究主要基于大学生----即如约瑟夫o亨利希(Joseph Henrich)及其同事所认为的,西方的、受过教育的、工业化的、富裕的、民主的大学生----那么这样的研究,其概括程度到底能有多高?换句话说,有时输入的信息本身就“不正常”,或曰怪异,那你就要问问自己,这是否会导致研究的变化。
你讲英语,你很怪
尽管这里采用的方法没有以英语界定,但仍然夹带了一些文化特异性的私货。即是说,开发这个系统以及注释这些语言特征的语言学家,大部分都是欧洲语言使用者。如果换为巴布亚新几内亚、埃塞俄比亚或亚马逊的某个人来做研究,最终确定的语言特征又是哪些呢?而且,当然,WALS 并不具备全球约 4000 种语言的所有数据;其所拥有数据资料的语言,也并不真正足够随机。
话虽如此,英语排名仍然很高,是挺不寻常的一种语言(排名 33 位,指数值 0.756)。如果你能带着一个英语思维的大脑,去读这篇文章英语原文,那你可真是怪怪哒。(译注:你操汉语,能读这篇译文,那你的脑子更怪。)
附录:十大与倒数十大
下列为怪异语言列表十大及倒数十大,共 20 种语言。
语言名称(中)
语言名称(英)
怪异度指数
米斯特克语(恰卡通戈)
Mixtec (Chalcatongo)
迪埃格诺语(大梅萨)
Diegue?o (Mesa Grande)
奥罗莫语(哈勒尔)
Oromo (Harar)
亚美尼亚语(东部)
Armenian (Eastern)
波罗罗语(译注:巴西)
克丘亚语(因巴布拉)
Quechua (Imbabura)
乌桑语(译注:巴布亚新几内亚)
布雷佩查语
Purépecha
内容注释:
:原文表述略有不当;皮詹加加拉语(Pitjantjatjara)在当地原住民语言中或可简称为“皮詹加拉语”(Pitjantjara ['b???an?a?a]) ,所以这个完整的拉丁化拼写并非“有一个音节不发音”,而只是有一个音节“可以”省略且不发音。
相关的果壳网小组
编译自:THE WEIRDEST LANGUAGES文章图片: 你可能感兴趣
我活了这么多年不知道我能发出小舌延续音这种东西 = =
他在评价的时候每种语言的权值肯定是一样的,但我觉得至少要基于这种语言的使用人数加权 不然全世界假如只有三种语言 两种特别像 但总共只有两三个人使用 但最怪异的语言却成了全世界除了这两三个人以外其他人说的语言,这显然不合理啊
词法是词法,发音归发音。NLP公司有分裂中国之企图。
显示所有评论
全部评论(270)
引用文章内容:但就我们研究的 21 种语言特征而言,它们相当随大溜。“随大流”吧。。。
引用 的话:“随大流”吧。。。 随大溜儿、随大溜、随大流,都可以。
人生第一次前排!
引用 的话:随大溜儿、随大溜、随大流,都可以。好吧= =
看着文章描述的内容,脑子里想象出一阵鸟叫一样的“唧唧唧……啾啾啾……”,这个公司里的人是不是经常像鸟叫唤一样交流?
空间信息与数字技术专业
引用文章内容:译注:你操汉语,能读这篇译文,那你的脑子更怪。= =
空间信息与数字技术专业
The fact that a language is spoken by so many people ITSELF can prove that it is not a bizarre one...
引用文章内容:例如,英语的词序是“主语--动词--宾语”为什么我在学校学到的词序是“主----谓----宾”?是一回事吗?
引用 的话:为什么我在学校学到的词序是“主----谓----宾”?是一回事吗?“谓语”和“动词”是两个概念。原文没有涉及非动词谓语的讨论,说的就是“动词”。
软件工程师,小众软件爱好者
引用 的话:为什么我在学校学到的词序是“主----谓----宾”?是一回事吗?谓语是句子成分,动词是词性,平常接触到的谓语一般是由动词构成.但也有形容词或者名词做谓语的.
呃 文章开始时说要研究的语言里没有粤语耶....
粤语是语言吗?不是方言?
所谓怪异肯定就是少而奇特,如果世界上使用人口最多分布最广的语言被称为‘怪异’那你可怜的逻辑关系像是在表达的所有四肢健全心智健康的人类都是怪胎一样~
我就知道德语要中***。。。
引用 的话:所谓怪异肯定就是少而奇特,如果世界上使用人口最多分布最广的语言被称为‘怪异’那你可怜的逻辑关系像是在表达的所有四肢健全心智健康的人类都是怪胎一样~其实以这种研究方式来搞的话,健全人还真只能是无数种畸形中的一种了?
词法是词法,发音归发音。NLP公司有分裂中国之企图。
他在评价的时候每种语言的权值肯定是一样的,但我觉得至少要基于这种语言的使用人数加权 不然全世界假如只有三种语言 两种特别像 但总共只有两三个人使用 但最怪异的语言却成了全世界除了这两三个人以外其他人说的语言,这显然不合理啊
这个指标应当是与众不同,而不是。。怪异吧
你让方言情何以堪。。
语言爱好者
普通话有小舌延续音(uvular continuants)这是哪个音?
生物系的表示如果研究物种之间差异性的时候要排除“phylogenetic dependence”的影响,就是说某种性状是由于样本里有大批近缘种才会出现频率高的情况。在这里应该就是印欧语系吧,比如说用动词的变化代替做主语的代词(如Yo hablo简化为hablo意义不变),这是典型的拉丁特征,所以如果受调查语言当中拉丁一系的特别多,这个现象肯定会普遍。不知道研究者是这么处理这个问题的
我活了这么多年不知道我能发出小舌延续音这种东西 = =
所以大多数中国人学外语很费力。
所以我以为怪异度量是按照语法来的,但实际上是按照发音来的?感觉不是很靠谱啊……==不懂发音比如小时候玩的塔罗牌,某牌是这么拼的:Le Pendv,这个应该怎么发这个音?所以实际上怪异的就是字母文字吧?……
日语语言学 PhD 在读,设计爱好者
引用 的话:这是哪个音?照理说是没有的,软腭的倒有几个。但WALS上的确标注Mandarin是Uvular continuants only的。奇怪。
日语语言学 PhD 在读,设计爱好者
引用 的话:谓语是句子成分,动词是词性,平常接触到的谓语一般是由动词构成.但也有形容词或者名词做谓语的.其实有很多学者反对像印欧语这样的词性分类。
引用 的话:其实有很多学者反对像印欧语这样的词性分类。总觉得这个统计用的数据处理手法很ayahuya
lz有原文链接吗
C和C++一类的呢?
显示所有评论
(C)2017果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱:&&&&举报***:数学大森林|大怪物到底是什么东西?
数学大森林|大怪物到底是什么东西?
昨天***:132昨天的故事中,小狼王和小狐狸终于被抓住了,他们受到了应有的惩罚,森林又恢复了平静。可是这两天,森林里又出了怪事儿,我们来一起瞧瞧到底怎么回事儿。第八章 大怪物到底是什么东西适合年龄|6--14岁作者|李毓佩今天要讲的是大怪物到底是什么东西。由于狱警大河马的一时疏忽,竟然让小狐狸和白脸小狼王逃跑了。大象法官发出紧急通缉令,权利追捕他俩,可半个月过去了,还是没什么进展。唯一让人生疑的是,最近大森林里出现了一只大怪物,他长得不像任何动物。而且,他竟然有一大一小两个头,简章就是个怪胎!“我家的鸡娃娃不见啦!”一大清早,鸡大婶就坐在鸡窝前大哭大嚎。瘦猴就住在鸡大婶隔壁,他最近荣升为森林侦探,所以责任心特别强。他连忙打开门,跳到鸡窝前,只见小鸡们的鸡窝空空如也,地上还有几根鸡毛。“肯定是大怪物干的! ”瘦猴肯定地说,“昨天小白兔偷听见大怪物的两个头商量着要干二点坏事。因为不知道大怪物要干什么,他就悄悄告诉了我,没敢声张。 ”瘦猴握紧拳头:“我去找大怪物,救回小鸡! ”鸡大婶感激地直点头:“谢谢,谢谢啦! ”瘦猴爬到树上,登高远望,发现大怪物正在一条偏僻的小道上走着。没走几步,他们突然停下来。大怪物的大头说:“咱们刚抓了小鸡,现在不能回我家去!一回去就暴露了。 ”大怪物的小头急了:“你是不是不想给我鸡? 不去不成! ” 大头也不示弱:“我就是不去,看你怎么样! ”小头大吼一声:“让你尝尝我的厉害! 嗷----”一下子就把披在外面的伪装扯了下来。瘦猴定睛一看,原来大怪物不是别人,是小狐狸和白脸小狼王伪装的,小狐狸伪装大怪物的小头,小狼王伪装大怪物的大头。扯下了伪装,小狐狸和小狼王就打成了一团。小松鼠站在树上叫道:“快来看哪!大怪物发疯了!”小松鼠这一喊,惊动了小狐狸和小狼王。小狐狸说:“别打啦!有人发现咱们啦! ”小狼王也害怕了:“快跑吧! 别让人发现咱俩的秘密! ” 小狼王刚要跑,小狐狸拉住了他:“别跑,你欠我的鸡还没给我呢! 你跑了,我到哪儿找你去? ”小狼王着急地问:“你说怎么办? ”小狐狸说:“我出一道题,如果你答对了,我那份鸡就不要了! ”小狼王倒也痛快:“如果我答不出来,我把我应得的那几只鸡给你! ”“好,一言为定! ”小狐狸说,“我原本想偷100只鸡,把他们分6个地方藏起来。要求每个地方鸡的数目要有数字6,你会分吗? ”小狼王的数学可不错,他眼珠一转:‘我会分,60+16+6+6+6+6=100只。怎么样?那几只鸡不用给你了吧! ”小松鼠对瘦猴说:“原来是小狐狸和小狼王在装神弄鬼!准是他们,偷了鸡大婶的娃娃! ”瘦猴小声对小松鼠说:“你这样,这样……”小松鼠点点头,然后瘦猴一溜烟不见了。小松鼠先跳到左边的一棵松树上,大声叫道:“不好啦! 小狐狸家着火啦! ”小狐狸一听就着急了:“我快回家看看,家里还有许多小鸡呢! ”小狼王刚想幸灾乐祸,突然听到小松鼠在右边的大树上喊:“不好啦! 小狼王家被水淹了! ”“啊!”小狼王大惊失色,“我家还有5只小肥鸡呢! ”说完撒腿就往家跑。刚到家门口,小狐狸就碰到了威风凛凛的大象法官,而小狼王呢,则被黄狗警官逮个正着。这次,河马预警认认真真地看管他们,他们再也没能逃脱。大森林的数学故事还有好多啊,如果你还想听,就先学好数学吧!01数学高手100以内含有6的数字有6、16、26、36、46、56、60、61、62、63、64、65、66、67、68、69、76、86、96,共19个数。其中10十个数的个位是6,十个数的十位是6,1个数的个位、十位均为6.要分成6个地方藏起来,即,使6个数加起来为100.若6个数的个位数字都是6,则加起来的和的个位数字一定为6,而100的个位数字为0,所以不行。必须有五个数个位为6,1个数十位为6、个位为0,才能满足条件。所以,60必选。此外,还需要找5个个位为6的数,使之和为100-60=40.通过检验,只有16+6+6+6+6=40成立。所以,把100只鸡分6个地方藏起来,要求每个地方鸡的数目都要有数字6,只能按60、16、6、6、6、6这样分。做拆分数的题目,需要仔细观察分析,先找出符合条件的数,再根据条件,尽可能缩小所选数的范围,然后通过试验、检验,得出要找的数。02小试牛刀从1--100中找出5个含有数字8的数,使它们的和等于100。主播|桃子姐姐,一起朗读主播,播音主持专业,文艺范的90后女孩,爱朗读,爱生活。
本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。
百家号 最近更新:
简介: 去哪学,去哪玩,爸爸妈妈快搜搜
作者最新文章什么是世界上最怪异的语言? | 科学人 | 果壳网 科技有意思
什么是世界上最怪异的语言?
什么是世界上最美丽的语言?哪国的语言最好听?哪门外语最好学?最难学的是哪门外语?学什么第二外语好?
本文作者:江烈农
编辑的话:本文的作者是一家语言数据公司的CEO,这家公司为世界各地的企业提供结构化的语言解决方案----简单说,就是处理邮件、短信和社交媒体上的自然语言资料。自然语言(Natural Language)是我们人类交流时所用的语言,与人造语言(如编程语言)相对;自然语言处理(Natural Language Processing,NPL)就是用计算机来处理人类的语言。评估语言的“怪异度”就是一种对自然语言的处理,这个话题本身固然有趣,而本文的价值还在于作者采取了一种非传统的处理方式:不以英语为衡量基准,而使用一个全球性的价值观。
(文/Robert Munro)我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。
自然语言处理(Natural Language Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。
为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。
纵观全球,纠出“语言异类”
语言结构世界地图(World Atlas of Language Structures,下称 WALS)根据一大堆各种语言特征,评估 2676 种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面----共计 192 种不同的语言特征。
因此,与其采用一个以英语为中心的世界观,WALS 毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语--动词--宾语”, WALS 对 1377 种语言的词序进行编码,其中 35.5% 具有“主动宾”词序。同时,只有 8.7% 的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有 41.0% 是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)
WALS 的数据相当稀疏,所以我们把研究限定于 165 种语言特征,这些特征至少要包含 100 种不同语言的数据。(现阶段,就这 165 种语言特征而言,数据不足其中 10 种的语言,我们也剔除掉了。因此共计还剩 1693 种语言。)
现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因 WALS 中列举的语言特征本质而决定----有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中关注互相之间没有很强相关度的语言特征(在两种互相关联的特征中,我们选择有更多语言编码的特征)。最终我们筛得总计 21 种语言特征。
至于某种语言的每项数据值,我们考量其他所有具备该项编码的语言,计算该项值的相对频度。因此,如果我们把“主语--宾语--动词”词序也算进来的话,那么英语得到的怪异度值就会是 0.355(实际上,我们根据每项语言特征的整体熵值对所有数据值统一化处理,所以这个值本身并不正好就是 0.355,但你懂这意思就行了)。因此,得到的“怪异度指数”(Weirdness Index),就是一项交叉考量 21 种独特结构特征的平均值。但是,因为不同的特征采集数值的数量不同,我们为了减少统计偏斜,实际上取了调和平均值(又因为我们希望“数字越大=越怪异”,所以终值是用 1 减去这个平均值)。本篇博文我汇报所涉及的语言,就这 21 项语言特征而言,至少三分之二(即 14 项)具有数据值(即 239 种语言)。
***揭晓:全世界最怪异的语言是----
与全世界大多数语言最不同的语言,是一种以动词起句的声调语言,在墨西哥的瓦哈卡(Oaxaca)有 6000 人使用,名叫“恰卡通戈米斯特克语”(Chalcatongo Mixtec),又名“大圣米格尔米斯特克语”(San Miguel el Grande Mixtec)。第二名在西伯利亚有 2.2 万人使用:涅涅茨语(Nenets)----英文里“派克大衣”或称毛皮风雪大衣(parka)一词就来源于这种语言。第三名是乔克托语(Choctaw),约有 1 万人使用,大多在美国俄克拉何马州。
但是,难就难在这儿了----有些实际上最怪异的语言,是你听说过的:德语、荷兰语、挪威语、捷克语、西班牙语,以及汉语普通话。而且,实际上英语在“语言怪异度指数”(Language Weirdness Index)表中也位列第 33 名。
世界上最怪异的 25 种语言:北美洲的,恰卡通戈米斯特克语、乔克托语、大梅萨迪埃格诺语(Mesa Grande Diegue?o)、库特奈语(Kutenai)、索克语(Zoque);南美洲的,帕乌玛利语(Paumarí)、特鲁迈语(Trumai);澳洲暨大洋洲的,皮詹加加拉语(Pitjantjatjara)、拉伍卡莱维语(Lavukaleve);非洲的,哈勒尔奥罗莫语(Harar Oromo)、伊拉库语(Iraqw)、刚果语、穆穆耶语(Mumuye)、祖候语(Ju|'hoan)、科伊科伊语(Khoekhoe);亚洲的,涅涅茨语、东亚美尼亚语、阿布哈兹语、拉达克语、普通话;以及欧洲的:德语、荷兰语、挪威语、捷克语和西班牙语。
顺带一提,皮詹加加拉语(Pitjantjatjara),这名字还能更牛吗?(另外,你能猜出这个拉丁化拼写中哪个音节不发音吗?)
以两项特征为例:问句与代词
“这很怪。这很怪吗?”(This is odd. Is this odd?)区分各种语言的特征之一,是“是非问句”的提问方式。绝大多数语言都有特别的疑问语助词,添加在句中某处(例如日语问句句末的“か”[ka])。在 WALS 中,有 954 种语言具有这项值的编码,其中 584 种有疑问语助词。(译注:又如本段段首的普通话提问方式,添加语助词“吗”实现简单疑问句提问。)但像英语那样的提问方式,即调换词序,其比例在所有语言中仅为 1.4%。也就是说,一共只有 13 种语言采用这样的方式,而它们大部分都是欧洲语言:德语、捷克语、荷兰语、瑞典语、挪威语、弗里西亚语、英语、丹麦语和西班牙语。
但还有一种语言,其是非问句的提问方式更加不走寻常路,那就是恰卡通戈米斯特克语:提问时,什么都不变。我们调查所涉及语言中,唯有这种语言提问时没有疑问语助词,没有词序调换,没有语调变换……这种语言就“是否”提问时,以及作简单陈述时,讲话真的是毫无任何区别。我花了好些时间,想象用这种语言做电视游戏节目会是什么样。
语言还需应付的另一个问题,是如何处理简单主语代词,比如“我”(I)、“他们/她们/它们”(they)、“它”(it)。这些词称为“代词主语”(而像“有关部门负责人含糊其辞”这样的说法则是使用了名词主语)。最通常的做法,是将代词信息附加到动词上----所调查的 711 中语言中有 437 中语言采用这样的做法,如西班牙语、意大利语和葡萄牙语。但是,荷兰语、德语和挪威语,与英语一样,宁可使用特别的主语代词,而这些代词通常----或必须----在句中出现。不过,在 WALS 有编码的 711 种语言里,也只有 82 种语言采用这样的处理方法。库特奈语(加拿大不列颠哥伦比亚省有 100 人使用)和穆穆耶语(尼日利亚有 40 万使用者)的处理方法更不寻常:它们有类似主语代词的东西,但其在句法中的位置,则与完整名词性短语的位置不同。而比这还更不寻常的,又是恰卡通戈米斯特克语:这种语言混合多种不同策略,所以既有附着在动词上的主语标记,又有代词,而且这些代词在句中出现的位置,还与完整名词短语不同。
世界上最“不怪异”的语言
如果我现在请你考虑一下以下这几种语言,你觉得它们有多怪呢?立陶宛语、印尼语、土耳其语、巴斯克语,以及粤语。吓一跳吧!它们的怪异指数排名相当低呢。对于语言学家和语言学习者而言,这几种语言可能并不显得典型;但就我们研究的 21 种语言特征而言,它们相当随大溜。请注意,在怪异度各级分布中,我们有一些孤立语言(比如巴斯克语)。巴斯克语很“典型”;但是另一种孤立语言,库特奈语,则相当怪异。更令人惊讶的是,汉语普通话名列 25 大最怪异语言,但粤语却栖身倒数十大。这与二者发音系统不同有关:与粤语不同的是,普通话有小舌延续音(uvular continuants),而且在软颚鼻音方面有一些局限(普通话同英语类似,可以发出英语“song”词尾的那个音,比如汉语“颂”[sòng];但无法将这个尾音置于单词的词首发音----世界性地来看,这个特定限制实属罕见。)
而在怪异指数列表最末尾的几种语言里,有两种你听过,有 3 种你可能没听过:匈牙利语,通常享有“语言学异类”的美誉,但在我们考量的这些维度里,却是彻头彻尾的典型语言。(我去年夏天在布达佩斯住过,我发誓匈牙利语绝对有其怪异之处,只是隐藏在其他地方了而已。)查莫罗语(关岛有 9.5 万使用者)、阿伊努语(仅在日本有少量使用者的濒危语言),以及布雷佩查语(Purépecha,5.5 万使用者,多在墨西哥),这三种语言都很正常。但是,所有语言中最最正常、超级典型、最不诡异的一种语言,怪异指数仅 0.087 的语言,是印地语----只有一项怪异特征。
这一点,一部分说明,有些你想当然以为正常的语言(如英语、西班牙语或德语),其实一贯与世界上其他语言格格不入。这令我想起心理学的一个基本问题:如果我们调查研究主要基于大学生----即如约瑟夫o亨利希(Joseph Henrich)及其同事所认为的,西方的、受过教育的、工业化的、富裕的、民主的大学生----那么这样的研究,其概括程度到底能有多高?换句话说,有时输入的信息本身就“不正常”,或曰怪异,那你就要问问自己,这是否会导致研究的变化。
你讲英语,你很怪
尽管这里采用的方法没有以英语界定,但仍然夹带了一些文化特异性的私货。即是说,开发这个系统以及注释这些语言特征的语言学家,大部分都是欧洲语言使用者。如果换为巴布亚新几内亚、埃塞俄比亚或亚马逊的某个人来做研究,最终确定的语言特征又是哪些呢?而且,当然,WALS 并不具备全球约 4000 种语言的所有数据;其所拥有数据资料的语言,也并不真正足够随机。
话虽如此,英语排名仍然很高,是挺不寻常的一种语言(排名 33 位,指数值 0.756)。如果你能带着一个英语思维的大脑,去读这篇文章英语原文,那你可真是怪怪哒。(译注:你操汉语,能读这篇译文,那你的脑子更怪。)
附录:十大与倒数十大
下列为怪异语言列表十大及倒数十大,共 20 种语言。
语言名称(中)
语言名称(英)
怪异度指数
米斯特克语(恰卡通戈)
Mixtec (Chalcatongo)
迪埃格诺语(大梅萨)
Diegue?o (Mesa Grande)
奥罗莫语(哈勒尔)
Oromo (Harar)
亚美尼亚语(东部)
Armenian (Eastern)
波罗罗语(译注:巴西)
克丘亚语(因巴布拉)
Quechua (Imbabura)
乌桑语(译注:巴布亚新几内亚)
布雷佩查语
Purépecha
内容注释:
:原文表述略有不当;皮詹加加拉语(Pitjantjatjara)在当地原住民语言中或可简称为“皮詹加拉语”(Pitjantjara ['b???an?a?a]) ,所以这个完整的拉丁化拼写并非“有一个音节不发音”,而只是有一个音节“可以”省略且不发音。
相关的果壳网小组
编译自:THE WEIRDEST LANGUAGES文章图片: 你可能感兴趣
我活了这么多年不知道我能发出小舌延续音这种东西 = =
他在评价的时候每种语言的权值肯定是一样的,但我觉得至少要基于这种语言的使用人数加权 不然全世界假如只有三种语言 两种特别像 但总共只有两三个人使用 但最怪异的语言却成了全世界除了这两三个人以外其他人说的语言,这显然不合理啊
词法是词法,发音归发音。NLP公司有分裂中国之企图。
显示所有评论
全部评论(270)
引用文章内容:但就我们研究的 21 种语言特征而言,它们相当随大溜。“随大流”吧。。。
引用 的话:“随大流”吧。。。 随大溜儿、随大溜、随大流,都可以。
人生第一次前排!
引用 的话:随大溜儿、随大溜、随大流,都可以。好吧= =
看着文章描述的内容,脑子里想象出一阵鸟叫一样的“唧唧唧……啾啾啾……”,这个公司里的人是不是经常像鸟叫唤一样交流?
空间信息与数字技术专业
引用文章内容:译注:你操汉语,能读这篇译文,那你的脑子更怪。= =
空间信息与数字技术专业
The fact that a language is spoken by so many people ITSELF can prove that it is not a bizarre one...
引用文章内容:例如,英语的词序是“主语--动词--宾语”为什么我在学校学到的词序是“主----谓----宾”?是一回事吗?
引用 的话:为什么我在学校学到的词序是“主----谓----宾”?是一回事吗?“谓语”和“动词”是两个概念。原文没有涉及非动词谓语的讨论,说的就是“动词”。
软件工程师,小众软件爱好者
引用 的话:为什么我在学校学到的词序是“主----谓----宾”?是一回事吗?谓语是句子成分,动词是词性,平常接触到的谓语一般是由动词构成.但也有形容词或者名词做谓语的.
呃 文章开始时说要研究的语言里没有粤语耶....
粤语是语言吗?不是方言?
所谓怪异肯定就是少而奇特,如果世界上使用人口最多分布最广的语言被称为‘怪异’那你可怜的逻辑关系像是在表达的所有四肢健全心智健康的人类都是怪胎一样~
我就知道德语要中***。。。
引用 的话:所谓怪异肯定就是少而奇特,如果世界上使用人口最多分布最广的语言被称为‘怪异’那你可怜的逻辑关系像是在表达的所有四肢健全心智健康的人类都是怪胎一样~其实以这种研究方式来搞的话,健全人还真只能是无数种畸形中的一种了?
词法是词法,发音归发音。NLP公司有分裂中国之企图。
他在评价的时候每种语言的权值肯定是一样的,但我觉得至少要基于这种语言的使用人数加权 不然全世界假如只有三种语言 两种特别像 但总共只有两三个人使用 但最怪异的语言却成了全世界除了这两三个人以外其他人说的语言,这显然不合理啊
这个指标应当是与众不同,而不是。。怪异吧
你让方言情何以堪。。
语言爱好者
普通话有小舌延续音(uvular continuants)这是哪个音?
生物系的表示如果研究物种之间差异性的时候要排除“phylogenetic dependence”的影响,就是说某种性状是由于样本里有大批近缘种才会出现频率高的情况。在这里应该就是印欧语系吧,比如说用动词的变化代替做主语的代词(如Yo hablo简化为hablo意义不变),这是典型的拉丁特征,所以如果受调查语言当中拉丁一系的特别多,这个现象肯定会普遍。不知道研究者是这么处理这个问题的
我活了这么多年不知道我能发出小舌延续音这种东西 = =
所以大多数中国人学外语很费力。
所以我以为怪异度量是按照语法来的,但实际上是按照发音来的?感觉不是很靠谱啊……==不懂发音比如小时候玩的塔罗牌,某牌是这么拼的:Le Pendv,这个应该怎么发这个音?所以实际上怪异的就是字母文字吧?……
日语语言学 PhD 在读,设计爱好者
引用 的话:这是哪个音?照理说是没有的,软腭的倒有几个。但WALS上的确标注Mandarin是Uvular continuants only的。奇怪。
日语语言学 PhD 在读,设计爱好者
引用 的话:谓语是句子成分,动词是词性,平常接触到的谓语一般是由动词构成.但也有形容词或者名词做谓语的.其实有很多学者反对像印欧语这样的词性分类。
引用 的话:其实有很多学者反对像印欧语这样的词性分类。总觉得这个统计用的数据处理手法很ayahuya
lz有原文链接吗
C和C++一类的呢?
显示所有评论
(C)2017果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱:&&&&举报***:

参考资料

 

随机推荐