

拉各斯/内罗毕/约翰内斯堡:今年4月,尼日利亚政府宣布计划开发一种多语言人工智能工具,以促进整个西非国家的数字包容,28岁的计算机科学专业学生Lwasinam Lenham Dilli非常激动。
作为他大学最后一年项目的一部分,迪利一直在努力从互联网上抓取数据集,用他的母语豪萨语构建一个大型语言模型(LLM),用于驱动人工智能聊天机器人。
“我需要英文文本和对应的豪萨语翻译,但我在网上找不到任何东西,(没有)干净的数据,”迪利告诉汤森路透基金会。
他补充说:“(创建本地语言法学硕士)是一种确保本地方言和语言不会被遗忘或被排除在人工智能生态系统之外的方式。”
世界被人工智能狂热的旋风所席卷,OpenAI的ChatGPT、meta的Llama 2和Mistral AI等工具凭借其生成类似人类文本的能力吸引了全球数百万人。
但对于许多精通技术的非洲人来说,令人沮丧的现实让他们的兴奋有所缓和:当豪萨语、阿姆哈拉语或卢旺达语等语言被输入聊天系统时,许多这些先进的系统都出现了问题,经常产生荒谬的反应。
技术专家警告说,非洲语言法学硕士的缺乏将导致非洲大陆数百万人被排斥在外,从而加剧数字和经济鸿沟。
尼日利亚政府主导的发展多语言法学硕士的倡议旨在创造公平的竞争环境。
“法学硕士将接受五种低资源语言和英语口音的培训,以确保更强的语言代表性……用于开发人工智能解决方案,”尼日利亚数字经济部长Bosun Tijani在四月份表示。
政府将与尼日利亚的人工智能创业公司合作,当地数据将由精通五种尼日利亚语言中的任何一种的志愿者收集:约鲁巴语、豪萨语、伊博语、伊比比奥语和西非通用语-皮钦语。
为了建立这个模型,该项目还将利用来自尼日利亚技术人才计划的7000多名研究员的专业知识。尼日利亚技术人才计划是一个政府计划,旨在培训300万人掌握编码和编程等技能。
参与该计划的人工智能初创公司Awarri的联合创始人塞拉斯·阿德昆勒(Silas Adekunle)表示,构建一个理解尼日利亚独特语言和文化景观的细致人工智能工具面临许多挑战。
阿德昆勒说:“我们有很多不同的口音和语言,这个(法学硕士)将使许多人和开发人员能够开发出针对尼日利亚市场的人工智能产品。”
“项目的规模,特别是在资源有限的情况下,要求我们在如何训练模型、收集数据、计算和标记我们所拥有的东西方面发挥创造性。”
缩小人工智能语言差距
根据联合国教育、科学及文化组织(UNESCO)的数据,非洲有54个国家的2000多种语言。
然而,大多数非洲语言在互联网上的代表性仍然不足。英语在数字领域占据主导地位,约占所有网站的50%,其次是西班牙语、德语、日语和法语。
除了尼日利亚政府的倡议外,还有为数不多但数量不断增长的非洲初创公司迎接挑战,用斯瓦希里语、阿姆哈拉语、祖鲁语和塞索托语等语言开发人工智能工具。
例如,在肯尼亚,医疗科技公司Jacaranda health率先在斯瓦希里语开设了第一个法学硕士课程,以改善东非的孕产妇保健。
在meta的Llama 3系统的基础上,UlizaLlama (AskLlama)旨在完善Jacaranda Health的短信服务,为那些说斯瓦希里语的低收入孕妇提供从饮食问题、胎儿运动到孕期锻炼等各种问题。
该平台目前提供预先编写的自动回复,但一旦ulzallama在6月底整合,它将根据个人需求量身定制回复,提供更详细的怀孕指导和紧急支持。
“很多准妈妈不能只在谷歌上搜索一下。ulzallama的目标是确保我们在尽可能快的时间内得到准确的答案,”Jacaranda Health的技术总监杰伊·帕特尔告诉汤森路透基金会。
“我们的目标是85%的准确率和更快的响应时间。目前,它需要几分钟才能做出反应,但我们希望将来能把时间缩短到一分钟以内。”
在南非,Masakhane计划正在使用开源机器学习来翻译非洲语言。
南非人工智能研究实验室Lelapa AI率先推出了VulaVula,这是一款盈利性语言处理工具,可以翻译、转录和分析英语、南非荷兰语、祖鲁语和塞索托语等语言。
数据稀缺,道德问题
但人工智能专家表示,用非洲语言建立法学硕士课程面临着重大挑战,从数据的可用性到关于同意、补偿和版权的道德担忧。
许多非洲语言是资源匮乏的语言,这意味着缺乏有效训练这些模型的数据——这与英语或法语等资源丰富的语言不同。
Everse Technology Africa是一家将智能融入数据保护和隐私的人工智能初创公司,该公司联合创始人迈克尔?米奇(Michael Michie)表示,收集培训法学硕士所需的数据也会引发道德问题。
在许多非洲社区,口头传统占主导地位,某些社区可能对分享他们的语言来培训法学硕士不感兴趣,这应该得到尊重。
Michie说:“非洲国家目前没有法规或法律在收集数据以训练人工智能工具时解决与同意、隐私和社区补偿相关的问题——这需要得到解决。”
“有谁拥有这门语言,谁受益的问题。需要有指导方针来防止剥削,并确保这些法学硕士的发展有利于它们的服务对象,”他补充说。
一些人工智能专家表示,像知识共享这样的开源倡议,允许创作者在确保署名和非商业用途等特定条件下合法分享他们的作品,也不是一个完美的解决方案。
比勒陀利亚大学(University of Pretoria)计算机科学副教授、Lelapa AI的联合创始人乌科西·马里瓦特(Vukosi Marivate)说:“目前有一种说法是,一切都应该在知识共享协议(Creative Commons)之下。”
但是,如果所有东西都是开源的,那么适当地补偿和承认这些语言模型的原始贡献者可能会更加困难,他说。
“现在很多人都在攻读法学硕士,因为声望很高,这是赚钱的地方,但我们需要确保我们的语言确实得到了照顾。”-汤森路透基金会
×










