人工智能时代的中文和英文谁能成为AI的母语?
人工智能是当前最热门的技术,各国都在投入资金和人力进行研究。谁错过了人工智能,谁就丢掉了未来。
语言文字在人工智能中占有非常重要的地位,它是人和人工智能交互的工具,人工智能只有准确理解语言文字才能做出准确应对,才能表现出高智商。今天就谈谈中文和英文是不是优秀的人工智能语言,以及未来前景。
英文由26个字母构成,逻辑结构更简单,发音以字母为基础,音标和音标区之间区分比较明显,只要说的不是很快,AI能比较容易、准确识别每一个字母,加上同音单词比较少,所以英文的语音识别效率领先中文许多。
中文发音则要复杂的多。汉语拼音有23个声母,6个单韵母,18个复韵母,还有16个整体认读音节,整套方案共63个发音元素。除此之外,汉语还有四种音调,加上种类繁多的方言,发音不准的话,非常影响AI识别。
AI在进行中文识别的时候,需要先进行发音识别,再根据单词进行汉字判断,识别效率低于英文,识别错误率也高于英文。
1、汉字信息密度高,更少的字数可以承载更多的信息,中文文章永远比英文短,综合来看,中文信息密度比英文高37.5%。
2、中文以汉字为单位,可以灵活排列,横竖都可以,而英文是线性文字,只能横排,竖排、错乱排列的识别效率会骤降!
3、汉字独立表意能力强。比如“他去吃早饭”,你看一个字就能多明白一个字的意思。而英文“He went to have breakfast”,你即使看到“have”这个词,你依然不明大概的意思,只有到“breakfast”你才知道原来have是吃,went to是去,整句是去吃早饭。英文表意比较依赖“短语”,甚至整句,不看完整句话,你往往不能知道句意。这就给AI识别造成了难度,因为AI跳跃识别能力较差。
中文发展人工智能最大障碍就是同音字词现象!比如,他姓zhang,到底是“张”还是“章”呢?如果是口语的话,还要补一句弓长张,或立早章。中文里有多少同音字、同音词,很难准确的统计。同音字词也是英语使用者攻击中文表意不清最大的借口。
英语虽然也有同音字,如right正确的、write写字;meet遇见、meat 肉;hole 洞穴、whole 全部的;pear梨子、pair双;flower花、flour面粉等,但英语同音字词数量远比中文同音词数量少。英语是通过造更多单词的方法,来减少同音词现象的。
AI现在不能准确处理多音字,出错在所难免。难道为了AI准确,人类只能通过语言文字改革消灭多音字词?这工程也太大了,人类也很难适应这么大的改革!
一词多义,是每种成熟语言都难免的,世间万事万物这么多,情感这复杂,如果每个词汇只表达一个准确的意思,那几百万字词都收不住。无论是中文还是英文,一个字词不会只表达一个意思,通常有很多意思,有时候区别还很大!
比如“close”,其意思非常多:关闭、合拢、合上、不开放、(使)关门、关闭(一段时间)、结束、终结、接近、几乎(处于某种状态)、可能(快要做某事)、亲密的、密切的、接近、靠近、不远地、死胡同、断头路、大教堂所属的周围场地及建筑物等。
现在人工智通过上下文识别词义的能力还比较弱,遇到多义词的时候经常出错,这也是人工智能发展的难关。
让人工智能翻译一个短句,一句话,其实没多大意义,实用价值也不高,只有具备整段文字识别,才有实用价值。让我们以中英文互译来考察AI对中文和英文的识别能力了!
“这两个国家的趋势截然不同。例如:以知识为基础的内容在中国非常受欢迎,而在美国却很少。此外,这对我来说很疯狂:在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户,而在美国,似乎是大多数年轻人在创作舞蹈。”她写道。
这个英文识别错误很有典型性,暴露了英文在语法上、词序上太过复杂的弊端。如果是翻译更复杂的英语长句,AI将束手无策!这也是每个表音文字的弱点!
中文翻译非常精准,和原文在表意上几乎没有任何差别,如实还原了原文的意思!可见,在整段话、整篇文章的识别上,中文比英文更有优势!
中文是由一个个汉字构成,长句很少,语法简单,词序简单,在语句结构上比线性的英语简单的多,更有利于AI识别。
在人工智能领域,英文胜在口语,中文胜在书面语,各有所长,谁能成为AI的母语还言之过早。但在比较复杂的内容表达上,AI对中文的识别领先英文,所以我更看好中文的未来。
- 标签:人工智能时代英文
- 编辑:刘卓
- 相关文章
-
人工智能时代的中文和英文谁能成为AI的母语?
人工智能是当前最热门的技术,各国都在投入资金和人力进行研究
-
“六部电影”带你看人工智能
摩尔说:“十年内,我们不会看到的终结者机器人出现
- 必看的25部人工智能、机器人主题电影
- 我国人工智能标准化发展现状及对策
- 全球视野下人工智能产业发展现状与四大趋势
- 全球人工智能发展现状、挑战及对中国的建议
- 2020年人工智能十大技术进展及十大技术趋势(附下载)