端到端的约旦方言语音到文本自监督学习框架gydF4y2Ba
- 约旦安曼苏玛雅公主理工大学侯赛因国王计算科学学院数据科学系gydF4y2Ba
如今,语音到文本的引擎在不同的应用中都是非常需要的,它是人机交互中必不可少的推动者。尽管如此,一些语言仍然缺乏标记的语音数据,特别是在阿拉伯方言或任何低资源语言中。自我监督的训练过程和使用噪声训练的自我训练的需要被证明是一个积极可行的解决方案。本文提出了一个端到端、基于转换器的模型,并为低资源语言提供了一个框架。此外,该框架还集成了定制的音频到文本处理算法,以实现高效的约旦阿拉伯方言语音到文本系统。提出的框架允许从许多来源摄取数据,通过加快手动注释过程,使来自外部来源的地面真相成为可能。该框架允许使用有噪声的学生训练和自我监督学习的训练过程在训练前和训练后阶段利用未标记的数据,并结合多种类型的数据增强。本文提出的自训练方法比经过微调的Wav2Vec模型在降低单词错误率方面提高了5%。这项工作的成果为研究界提供了一个约旦语数据集,以及一个端到端处理低资源语言的方法。这是通过利用前训练、后训练的力量,并在最少的人为干预下注入噪声标记和增强数据来实现的。 It enables the development of new applications in the field of Arabic language speech-to-text area like the question-answering systems and intelligent control systems, and it will add human-like perception and hearing sensors to intelligent robots.
1介绍gydF4y2Ba
语音是最有效、最重要的人机交互方法之一。通过文本到语音和语音到文本功能,人类可以轻松地与数字系统交互,使人类能够有效地完成任务(gydF4y2BaKarray et al. (2008)gydF4y2Ba.自动语音识别(ASR)是将语音信号序列(频谱图)解码为音素序列的过程,这些音素序列将根据时间函数构建单词序列。虽然ASR或“语音到文本”功能可以被认为是一些类型的应用程序(如信息和可操作系统)的瓶颈,但它仍然是控制应用程序和对话式问答系统的核心先决条件。除了转换和建模方面之外,问题的复杂性还来自于数据的性质。语音形式的数据需要特殊的处理和建模,因为这些数据来自于一个流,因此具有糟糕上下文表示的模型可能无法处理此类上下文数据。一些实现需要简单的模型,特别是在控制应用程序和物联网(IoT)解决方案中,因为它们基于有限的词汇表。另一方面,先进的应用程序和系统依赖于离线和在线方式的连续语音识别。事实上,自然语言处理和文本挖掘是解决诸如客户反馈分析、会话聊天机器人和主题/情感识别等复杂问题的重要子系统。我们的方法是提供一个全面的端到端方法来处理低资源的语言,如阿拉伯方言,通过使用自我监督训练和嘈杂的学生训练,在训练前和训练后利用未标记的数据。通过在我们获得的数据集上应用自我训练方法,并提供几个选项来将所提供的模型部署在实际应用中,如嵌入式系统、机器人或问答系统,我们可以比基础Wav2Vec高出5%的单词错误率(WER)。gydF4y2Ba
2文献综述gydF4y2Ba
2.1约旦阿拉伯语gydF4y2Ba
约旦阿拉伯语(JA)是约旦哈希姆王国的主要语言,它由各种方言组成。衍生的方言可以进一步分为三类:(i)城市方言,(ii)农村方言和(iii)贝都因方言。农村方言主要来自约旦的Hauran,这是叙利亚Hauran平原的延伸gydF4y2BaSakarna (1999)gydF4y2Ba.JA是最丰富和最复杂的语言之一,由于它的语音和形态性质,因为它比现代标准阿拉伯语(MSA)音素集有更多额外的音素。这些方言受到阿拉伯工人和流离失所者的连续移民以及他们进入约旦社会的影响。gydF4y2Ba表1gydF4y2Ba提供了一些例子,表明在不同的约旦方言中相同单词的语音表示之间的差异。gydF4y2Ba
2.2 ASR系统历史gydF4y2Ba
图1gydF4y2Ba介绍了传统语音自动识别系统的主要组成部分。这些系统或管道大多数由常见步骤组成,如预处理、建模、结果表示和评估步骤gydF4y2BaKarpagavalli和Chandra (2016)gydF4y2Ba.gydF4y2Ba
2.2.1预处理步骤gydF4y2Ba
听觉前端是预处理步骤中常用的技术之一,它通过获取语音信号并将信号转换为基于听觉的表示或换句话说,转换为语音向量来工作。一个例子是梅尔频率倒谱系数(MFCC)gydF4y2BaHan et al. (2006)gydF4y2Ba.gydF4y2Ba
2.2.2声学模型gydF4y2Ba
在特征提取步骤之后,将语音帧作为输入向量传递给建模层,建模层可视为分类层gydF4y2BaKarpagavalli和Chandra (2016)gydF4y2Ba.这将尝试将输入帧映射到音素序列,并基于语言模型搜索最佳的单词表示。该模型可以是基于神经的或简单的统计模型,例如高斯混合模型(GMM)、人工神经网络(ANN)和支持向量机(SVM)。gydF4y2Ba.gydF4y2Ba
2.2.3语言模型gydF4y2Ba
统计语言模型是一个基于n -gram的模型,它将在给定单词(n−1)的情况下产生单词的概率,并且这个n -gram模型还可以检测多词术语并考虑单词的上下文。该语言模型结合了声学模型,能够搜索单词的最佳顺序。语言模型可以是简单的概率N-gram模型,也可以是基于神经和注意力的模型gydF4y2Ba耶利内克等人(1991)gydF4y2Ba.gydF4y2Ba
2.2.4模型度量与评价gydF4y2Ba
ASR系统的评估过程类似于机器翻译等序列标记系统的评估。在大多数生产系统中选择的评估指标是单词错误率(WER)指标gydF4y2BaAmodei等人(2016)gydF4y2BaBaevski等人(2020)gydF4y2Ba因为除了衡量语言模型的效率之外,它还会考虑预测句和目标句之间的位置、缺席以及额外的单词。gydF4y2Ba
2.2.4.1字错误率度量gydF4y2Ba
WER度量定义为使用三个操作(替换、插入和删除)将字符串1转换为字符串2的最小代价。WER是评价语音识别引擎最著名的指标之一。它的计算方法是编辑距离除以引用字符串中的字数。gydF4y2Ba
其中S是替换的数量,D是删除的数量,I是插入的数量,N是引用中的字数。gydF4y2Ba
2.2.4.2字符错误率度量gydF4y2Ba
字符错误率(CER)与WER相似。它测量替换、删除和插入的数量,以将预测序列转换为目标序列gydF4y2Ba麦肯齐和苏科瑞夫(2002)gydF4y2Ba.它用于分析字符级别的错误,并优化预测文本和目标文本之间的对齐。gydF4y2Ba
3方法和范式gydF4y2Ba
ASR系统基于多个维度进行分类。我们感兴趣的一个维度是“学习风格”。在机器学习世界中,有两种主要的学习风格:端到端(E2E)和多阶段建模。gydF4y2Ba
图2gydF4y2Ba这表明传统的多语言模型可以为每一种语言都有一个专用的语言模型,而在稀缺的语言中会失败。通过引入端到端模型,我们可以利用来自不同语言和方言的数据gydF4y2BaKannan (2022)gydF4y2Ba.这将改善稀缺语言并降低定制级别,如中紫色块所示gydF4y2Ba图2gydF4y2Ba.约旦阿拉伯语被认为是一种稀缺的语言,其情况与约旦提出的解决方案类似gydF4y2BaKannan (2022)gydF4y2Ba,因此我们可以利用预训练的模型和数据集,特别是现代标准阿拉伯语数据集和模型。gydF4y2Ba
3.1端到端模型gydF4y2Ba
E2E模型是用深度学习模型处理复杂问题的最有效和最新的方法。端到端加密模型的威力来自于数据的复杂性和假设。它不需要对问题和数据集有深入的业务知识。因此,它可以有效地将输入和目标之间的映射封装在一个深度学习模型中。端到端加密模型在极少的监督和数据转换下非常有效地解决问题。在自然语言处理中尤其如此,其中包括部分语音标记器、文本分类和命名实体识别。这将有助于减少特征工程和理解的工作量。通过用基于神经的模型取代特征工程和语音帧对齐的整个管道,可以有效地优化端到端模型。不仅如此,它还能让我们处理嘈杂的环境、不同的方言和不同的语言gydF4y2Ba雅尔塔(2020)gydF4y2Ba.gydF4y2Ba
3.1.1端到端限制gydF4y2Ba
与所有深度学习模型类似,端到端模型缺乏可解释性、可预测性和可诊断性。此外,训练后的端到端加密模型不能修改,最先进的模型不能作为整个训练过程的子任务与之集成,因为它不再被认为是端到端加密。E2E方法的主要障碍是数据密集型,需要大量的数据来完成训练任务,这在大多数情况下是不可行的。gydF4y2Ba
3.2多级学习gydF4y2Ba
20世纪80年代,IBM将隐马尔可夫模型(HMM)应用于ASR之后,在之前的几十年里,多阶段学习是最常用的方法,尤其是在词汇量有限的ASR中。传统的学习方法是构建ASR最直接的方法,因为它将整个过程分解为子任务,包括理解语音、将其转换为语音形式和构建语言模型。在大多数情况下,多级模型是一个统计模型,可以很容易地跟踪,需要较少的计算能力。它也可以在大多数有限的词汇表和上下文无关的asr中获得合适的结果gydF4y2BaFendji等人(2022)gydF4y2Ba.gydF4y2Ba
3.2.1传统学习局限gydF4y2Ba
另一方面,传统的ASR系统需要更多的特征工程任务。他们还要求声音与文字记录准确一致gydF4y2Ba雅尔塔(2020)gydF4y2Ba.在某些情况下,数据需要在帧级别上对齐,但在连接主义时态分类(Connectionist Temporal Classification, CTC)中除外,因为它只需要语言模型。gydF4y2Ba
4可用的工具和数据集gydF4y2Ba
本节将回顾以前的工作,包括可用的数据集和开源工具和方法。gydF4y2Ba
4.1语音识别开源工具gydF4y2Ba
Kaldi和CMUSphinx是过去几十年使用最广泛的。它们在多级asr中都表现出了良好的性能。如在gydF4y2BaPovey et al. (2011)gydF4y2Ba, Kaldi在WER方面优于CMUSphinx。而且,它们都需要专门的语言模型训练。最近,Wav2Vec 2.0和DeepSpeech是该领域最受欢迎的模型。因此,与其他模型相比,它们可以获得最佳的性能。Wav2Vec和DeepSpeech被认为是端到端加密模型,它们都不需要额外的特征工程和语言模型构建。Wav2Vec在未标记的数据上进行训练,以生成可以为下游任务提供的最佳特征表示。因此,Wav2Vec需要更少的数据进行收敛,这对稀缺语言很有好处。在Yi等人(2020)中,Wav2Vec取得了最先进的结果,并在ASR任务中优于DeepSpeech。gydF4y2Ba表2gydF4y2Ba提供了在算法、编程语言api和GPU训练能力方面比较流行的语音识别工具包。gydF4y2Ba
4.2公共数据集gydF4y2Ba
本节将确定著名的阿拉伯语口语数据集。阿拉伯语语料库gydF4y2BaHalabi (2016)gydF4y2Ba是一个以大马士革口音录制的高质量阿拉伯语语料库。该语音数据集与文本完美对齐,并针对文本到语音任务进行了优化。它对音素有额外的时间界限。此外,所提供的文本是Buckwalter格式的正字法文本。阿拉伯语通用语音语料库moz(2022)是一个人工注释的语音数据集。它是由Mozilla的公共语音项目创建的MSA和多方言数据集。大规模阿拉伯语语料库(MASC)gydF4y2Baal - fetyani等人(2021)gydF4y2Ba是一个多区域、多类型和多方言的数据集。它是最大的阿拉伯文注释数据集。gydF4y2Ba表3gydF4y2Ba提供可用的阿拉伯语注释数据集以及持续时间和口语口音。gydF4y2Ba
5与嵌入式系统集成gydF4y2Ba
将自动语音识别引擎与边缘设备和机器人集成在一起可以被认为是主要的瓶颈,因为在集成基于SOTA dnn的低计算能力和功耗模型方面存在困难。为了解决这个问题,有多种集成风格,可以分为在线集成和离线集成。在线语音识别集成可以设计为支持多个设备的高性能集中式服务器之间的流式API。在在线集成中,不需要考虑延迟和功耗,因为在设备端不需要进行繁重的计算,并且可以轻松地扩展集中式服务器以加快为其他系统服务的速度。另一方面,在线方式要求设备之间有永久的互联网连接。此外,语音识别服务器可以被认为是单点故障。gydF4y2Ba
离线集成提供了语音识别服务在同一边缘设备(如机器人、智能手机或智能手表)上的稳定集成,而不需要互联网连接。gydF4y2Ba
语音识别的集成可以在树莓派和NVIDIA Jetson Nano上实现,适用于机器人、手机或任何智能设备gydF4y2Ba冈德语(2022)gydF4y2Ba.gydF4y2Ba
深度学习STT模型的离线使用可以在Jetson Nano的CPU或GPU上完成,只需将模型部署在TorchScript上即可。TorchScript可以优化基于神经的语音识别模型,如Wav2Vec和深度语音,并将其转换为中间格式,然后使用量化对模型进行优化和压缩。这减少了模型的大小,并优化了CPU或GPU上的数学运算gydF4y2BaGondi and Pratap (2021)gydF4y2Ba.gydF4y2Ba
6数据集gydF4y2Ba
我们缺乏阿拉伯文标记的口语资料,特别是约旦方言。因此,丰富现有的数据集是必须的。在本文中,我们旨在利用社交媒体平台上的公共视频和音频文件,特别是YouTube和Metaverse上的公共视频和音频文件来丰富变量数据集。gydF4y2Ba
6.1数据集来源gydF4y2Ba
为了确保所获得的口音和主题的多样性,收集的数据集从多个渠道摄取,其中包括来自网络影响者、街头采访、新闻和政治讨论的录音,以代表广泛的方言。gydF4y2Ba
6.2数据转换与增强gydF4y2Ba
在进行标记会话以将数据集转换为易于管理的格式之前,数据清理过程是一个重要步骤。对包含语音和文本标签的数据集应用了多种数据转换和清理技术。首先,使用语音活动检测(VAD)在静音的基础上将数据集分割成小文件。gydF4y2Ba怀斯曼(2022)gydF4y2Ba是使录音易于管理和注释的关键步骤。将整个数据降采样至16 kHz,排除所有持续时间大于20 s且小于1 s的记录。此外,还检查了所有记录的文本语音比,以排除和避免任何错位。在文本方面,除了规范化一些会导致相同音素的字符外,文本中还删除了特殊字符、阿拉伯变音符、标点符号和重复字符。gydF4y2Ba
作为噪声学生训练的一部分,在每一代都注入噪声数据批次,以确保模型的鲁棒性和泛化性,并降低环境对模型的依赖性gydF4y2BaZhang et al. (2020)gydF4y2Ba.gydF4y2Ba
三种类型的增强应用于每个数据生成。高斯噪声是通过添加高斯分布噪声来保证模型泛化的加性噪声方法gydF4y2Ba布劳恩等人(2017)gydF4y2Ba.此外,还应用了时间拉伸和pitch shift使模型对环境影响和偏差问题具有鲁棒性gydF4y2BaSchlüter and Grill (2015)gydF4y2Ba.gydF4y2Ba
6.3贴标流程gydF4y2Ba
6.3.1谷歌云语音识别gydF4y2Ba
标记过程是一项复杂的任务。谷歌语音API可以处理最初的标签过程,因为它是市场上最健壮和最有效的解决方案之一,它可以处理约旦方言。从谷歌语音API生成的转录本用于最初标记数据集,以方便注释器端的整个过程。gydF4y2Ba
6.3.2手动修正gydF4y2Ba
这项研究是对约旦方言进行的,在某种程度上,俚语也是如此。因此,我们需要有比只从谷歌取标签更准确的数据,而不是完全依赖谷歌引擎的精度。出于这个原因,我们启动了注释会话,通过分布注释工具来最大化数据的准确性。为了加快注释过程,我们部署了一个完整的语音到文本注释工具DoccanogydF4y2BaNakayama等人(2018)gydF4y2Ba.它是一个功能强大的协作工具,可以处理注释者和审批者之间的合作。gydF4y2Ba
6.4数据集特征gydF4y2Ba
所获得的数据集由多个说话人的9.7万条记录组成,语音数据集的总时长为113小时,其中52小时使用谷歌Cloud Speech和人工转录进行标记。gydF4y2Ba
6.4.1主题和术语频次gydF4y2Ba
整个语料库包含了大约35000个没有词干词干化或词根化的术语,也没有删除停顿词。这些录音围绕着不同的话题和不同的领域,如政治、旅游和宗教讨论。gydF4y2Ba图3gydF4y2Ba演示所获得语料库的词频。gydF4y2Ba
6.4.2录音和语音特征gydF4y2Ba
该数据集由9.7万条记录组成,其中3.7万条记录被标记,平均录音时长为4.74秒gydF4y2Ba图4gydF4y2Ba演示了记录长度的分布。gydF4y2Ba
7语音到文本建模gydF4y2Ba
本节概述了我们研究中打算使用的自我监督学习(SSL)、自我训练(嘈杂的学生训练)和Wav2Vec。gydF4y2Ba
7.1自我监督学习gydF4y2Ba
自监督学习(SSL)是一种基于实例出现情况利用和检测未标记数据的底层结构并将其转化为预测能力以预测未观察到的实例的有效技术gydF4y2Ba翟等(2019)gydF4y2Ba.SSL是最新的方法之一,可以获得最先进的结果,特别是在单次或少次学习中。这是因为它可以在巨大的未标记数据集上进行训练,以利用它们并解决下游任务。由于在大多数问题中缺乏标记的数据集,SSL可以利用未标记的数据来构建健壮的表示系统。这可以用作另一个下游任务的广义向量化模型,而不是在更少的标记实例上构建模型gydF4y2Ba乔杜里(2022)gydF4y2Ba.gydF4y2Ba图5gydF4y2Ba演示了在自然语言处理中应用自监督学习。gydF4y2Ba
7.2 Wav2Vec 2.0gydF4y2Ba
最近在语音表示和识别领域发表的最先进的模型是Metaverse Wav2Vec模型,这是一个自监督对比模型。此外,与其他方法相比,Wav2Vec模型可以获得最好的结果,特别是在小数据集上。Wav2Vec模型包括两个阶段gydF4y2BaBaevski等人(2020)gydF4y2Ba如gydF4y2Ba图6gydF4y2Ba.gydF4y2Ba
7.2.1自我监督阶段gydF4y2Ba
这个对比任务是利用未标记的数据集构建一个有意义的表示层作为嵌入层。这是一项至关重要的任务,即使在很小的数据集上也能胜过其他模型。gydF4y2Ba
7.2.2潜在表征层gydF4y2Ba
这一层由多个时间卷积单元组成,这些单元获取原始数据输入并将其转换为潜在表示、一层归一化和GELU激活函数gydF4y2Ba凯斯勒等人(2021)gydF4y2Ba.gydF4y2Ba
7.2.3量子化gydF4y2Ba
这一层负责将潜在的表示组合并离散为有限数量的值或音素。这可以通过使用Gumbel Softmax方程Eq来实现。gydF4y2Ba2gydF4y2Ba作为一种分类层,用于分类和组合将同一音素表示为来自码本的同一码字的多个潜在表示。gydF4y2Ba
其中sim是余弦相似度,gydF4y2Ba
L是从z开始计算的对数,gydF4y2Ba
N =−log(−log(u))gydF4y2Ba
u是从均匀分布u(0,1)中采样的。gydF4y2Ba
τ温度gydF4y2Ba.gydF4y2Ba
7.2.4上下文化的特征表示gydF4y2Ba
在将输入原始数据编码为潜在表示之后,时间卷积块的输出被馈送到一个深度变压器层,该层将考虑序列和上下文gydF4y2BaBaevski等人(2020)gydF4y2Ba.gydF4y2Ba
7.2.5微调阶段gydF4y2Ba
Wav2Vec语音表示模型的适应,以服务于ASR任务gydF4y2BaYi et al. (2020)gydF4y2Ba较RNN-LSTM和语音转换器在低语言资源下有显著改善。通过在Wav2Vec上下文网络上添加一个随机初始化的线性投影层并冻结特征提取器来实现微调过程。这一层可以作为分类层,每个类C代表词汇gydF4y2Ba凯斯勒等人(2021)gydF4y2Ba.gydF4y2Ba
7.3自我训练(吵闹的学生训练)gydF4y2Ba
自我训练是半监督训练范式中的一种方法,在语音识别系统中表现出显著的增强效果gydF4y2BaPark等人(2020)gydF4y2Ba通过设计训练过程来利用无标记数据来增加模型对噪声数据的鲁棒性gydF4y2Ba莫斯纳等人(2019)gydF4y2Ba.该技术增强了语音识别系统在实际情况下的性能,特别是在非结构化数据(如语音/图像)中gydF4y2Ba谢等(2020)gydF4y2Ba.自我训练过程包括如下所示的多个步骤gydF4y2Ba图7gydF4y2Ba.gydF4y2Ba
8日培训gydF4y2Ba
8.1实验设置gydF4y2Ba
实验采用2台NVIDIA Quadro RTX 8000-48Q, 24 vCPU, 128 GB RAM进行多gpu训练。在整个标记数据上微调第一个教师Wav2Vec模型需要83小时。gydF4y2Ba
8.2实验设计gydF4y2Ba
如gydF4y2Ba图8gydF4y2Ba,训练过程是迭代的,每次迭代包含多个步骤。首先,在开始训练过程之前,将数据分为训练集和验证集,验证集占整个数据集的20%。验证集远离训练过程,用于评估教师模型的泛化程度。在第一步中,使用整个训练数据建立初始教师模型。一旦第一次训练完成,所得到的模型用于推断第一批带有伪标签的未标记数据。伪标记数据与干净标记数据和增强数据批一起用于构建更大的学生模型,然后根据原始评估集对其进行评估。用于进行本实验的标记数据集来自多个约旦方言视频,转录本由谷歌语音引擎生成或从源上手动转录。此外,整个数据集被采样到16khz,录音的平均持续时间为6秒。我们的跨语言无监督训练基础模型在53种语言上进行了训练,从音素错误率的角度来看,它可以被认为是SOTAgydF4y2BaConneau et al. (2020)gydF4y2Ba.gydF4y2Ba
9结果与讨论gydF4y2Ba
实验是在经过清理的标记数据的子集上进行的,以测试针对小数据集的训练架构,并演示自我训练过程的效果。gydF4y2Ba
用于初始训练的标记训练数据集包含12.5小时的口语数据,未标记的数据被组织成5批,每批包含2.5小时。类似于gydF4y2BaZhang et al. (2020)gydF4y2Ba他们在四代人身上进行了类似的实验。gydF4y2Ba
我们在本研究中的适应度函数是最小化总体WER,并证明在训练前过程和训练后过程中,使用未标记数据对双方都很重要。gydF4y2Ba
将有噪声的学生训练应用于语音数据具有较好的泛化能力和较快的收敛速度gydF4y2Ba图9gydF4y2Ba.在gydF4y2Ba图9gydF4y2Ba应用自训练可以在不影响模型泛化的前提下加快收敛速度。gydF4y2Ba
图11gydF4y2Ba显示了每一代WER的改善,我们将在第0代训练时没有任何未标记数据的基线模型与混合标记、未标记和增强批上的训练模型进行比较。第五代达到51%的WER,与预先训练的基线模型相比,WER显示出8%的相对改善。gydF4y2Ba
此外,在训练过程中使用未标记的数据,WER评分的最终结果得到了显著的改善,并且在CER中降低了5%和2%的WER,表现优于基础模型gydF4y2Ba图10gydF4y2Ba.gydF4y2Ba
类似于gydF4y2Ba谢等(2020)gydF4y2Ba在优于ImageNet的性能方面,语音数据中有噪声的学生训练增强了性能,增加了鲁棒性,并优于仅使用未标记数据进行预训练的模型。gydF4y2Ba表4gydF4y2Ba显示添加更多伪标记数据时WER得分的增加。gydF4y2Ba
10的结论gydF4y2Ba
在这项工作中,我们研究了在低资源语言中建立一个完整的自动语音识别,特别是在约旦方言中。这是通过摄取来自各种来源的数据,并在使用噪声学生训练的训练前和训练后充分利用未标记数据的半监督方法来实现的。我们的方法在WER方面优于经过微调的Wav2Vec 2.0 5.0%。gydF4y2Ba
限制和未来的工作gydF4y2Ba
在嘈杂的学生训练框架上构建Wav2Vec模型非常耗时,并且需要GPU、RAM和GPU内存方面的强大计算能力。这是因为您需要迭代地构建具有更大数据集和更多参数的多个模型,而不是构建一个大型模型。由于资源有限,我们无法产生更多的训练代来检查基模型的最终改进。在未来的工作中,不同的数据增强可以与更多的噪声代进行比较,并且应该探索多种集成方法,以便在边缘设备中利用构建的模型,进一步丰富和利用完整的数据集来构建预先训练的阿拉伯方言Wav2Vec模型。gydF4y2Ba
数据可用性声明gydF4y2Ba
支持本文结论的原始数据将由作者提供,毫无保留地提供。gydF4y2Ba
作者的贡献gydF4y2Ba
AS牵头撰写稿件,设计模型和计算框架,并对数据进行分析。IA和RG提供了关键的反馈,并帮助形成研究、分析和手稿。gydF4y2Ba
致谢gydF4y2Ba
这是一个简短的文本,以感谢特定的同事,机构或机构的贡献,帮助作者的努力。gydF4y2Ba
利益冲突gydF4y2Ba
作者声明,这项研究是在没有任何商业或财务关系的情况下进行的,这些关系可能被解释为潜在的利益冲突。gydF4y2Ba
出版商的注意gydF4y2Ba
本文中所表达的所有主张仅代表作者,并不代表他们的附属组织,也不代表出版商、编辑和审稿人。任何可能在本文中评估的产品,或可能由其制造商提出的声明,都不得到出版商的保证或认可。gydF4y2Ba
参考文献gydF4y2Ba
Al-Fetyani, M., Al-Barham, M., Abandah, G., Alsharkawi, A., and Dawas, M.(2021)。MASC:大型阿拉伯语语料库。gydF4y2BaIEEE DataportgydF4y2Ba.doi: 10.21227 / e1qb-jv46gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C.,等(2016)。“深度语音2:英语和普通话的端到端语音识别”,见gydF4y2Ba机器学习国际会议gydF4y2Ba,gydF4y2Ba纽约市,纽约州gydF4y2Ba,gydF4y2Ba2016年6月19日至24日gydF4y2Ba.173 - 182。gydF4y2Ba
Baevski, A., Zhou, Y., Mohamed, A.和Auli, M.(2020)。wav2vec 2.0:语音表示的自我监督学习框架。gydF4y2Ba神经导过程。系统。gydF4y2Ba33岁,12449gydF4y2Ba
布劳恩,S.,尼尔,D.和刘,S. c .。(2017).“提高自动语音识别中噪声鲁棒性的课程学习方法”,见gydF4y2Ba2017第25届欧洲信号处理会议(EUSIPCO)gydF4y2Ba(gydF4y2BaIEEEgydF4y2Ba), 548年。gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Conneau, A., Baevski, A., Collobert, R., Mohamed, A., and Auli, M.(2020)。语音识别的无监督跨语言表示学习。gydF4y2BaInterspeechgydF4y2Ba.arXiv预印本:2006.13979。gydF4y2Ba
冯吉,李志强,李志强,李志强,李志强,(2002)。使用有限词汇量的自动语音识别研究综述。gydF4y2Ba达成。Artif。智能。gydF4y2Ba36岁,2095039。doi: 10.1080 / 08839514.2022.2095039gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Gondi, S.和Pratap, V.(2021)。边缘设备离线语音识别性能评估。gydF4y2Ba电子产品gydF4y2Ba10日,2697年。doi: 10.3390 / electronics10212697gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
韩玮,陈志富。,蔡志强,蔡志强。,而且Pun, K.-P. (2006). “An efficient mfcc extraction method in speech recognition,” in2006 IEEE电路与系统国际研讨会gydF4y2Ba(gydF4y2BaIEEEgydF4y2Ba).gydF4y2Ba
Jelinek, F., Merialdo, B., Roukos, S., and Strauss, M.(1991)。“语音识别的动态语言模型”,见gydF4y2Ba言语与自然语言:在太平洋格罗夫举行的研讨会论文集,加利福尼亚gydF4y2Ba,gydF4y2Ba太平洋格罗夫,加利福尼亚gydF4y2Ba,gydF4y2Ba1991年2月19日至22日gydF4y2Ba.gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Karpagavalli, S.和Chandra, E.(2016)。自动语音识别体系结构与方法综述。gydF4y2BaInt。信号处理。图像的过程。Recognit模式。gydF4y2Ba9日,393 - 404。doi: 10.14257 / ijsip.2016.9.4.34gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Karray, F., Alemzadeh, M., Abou Saleh, J., and Arab, M. N.(2008)。人机交互:技术发展概况。gydF4y2BaInt。智能传感器。gydF4y2Ba1, 137 - 159。doi: 10.21307 / ijssis - 2017 - 283gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
凯斯勒,S.,托马斯,B.和Karout, S.(2021)。gydF4y2Bacontinuous -wav2vec2:连续学习在自监督自动语音识别中的应用gydF4y2Ba.arXiv预印本。arXiv: 2107.13530。gydF4y2Ba
Lamere, P., Kwok, P., Gouvea, E., Raj, B., Singh, R., Walker, W.等人(2003)。“cmu sphinx-4语音识别系统”,在gydF4y2BaIeee intl。声学、语音与信号处理研讨会(icassp 2003),香港gydF4y2Ba, 1, 2。gydF4y2Ba
麦肯齐,i.s.,苏科瑞夫,r.w.(2002)。用于评估文本输入方法的字符级错误分析技术,见gydF4y2Ba第二届北欧人机交互会议记录gydF4y2Ba, 243年。gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
mosner, L., Wu, M., Raju, A., Parthasarathi, K., Kumatani, K., Sundaram, S.等(2019)。“通过并行数据和师生学习提高自动语音识别的噪声鲁棒性”,在gydF4y2Ba2019-2019 IEEE声学、语音和信号处理国际会议(ICASSP)gydF4y2Ba,gydF4y2Ba英国布莱顿gydF4y2Ba,gydF4y2Ba2019年5月12日至17日gydF4y2Ba, 6475 - 6479。doi: 10.1109 / ICASSPgydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Nakayama, H., Kubo, T., Kamura, J., Taniguchi, Y.和Liang, X.(2018)。doccano:人类文本注释工具。可以在:gydF4y2Bahttps://github.com/doccano/doccanogydF4y2Ba.gydF4y2Ba
公园,d S。,,Y。,,Y。,汉族,W,赵,c c。, Li, B., et al.(2020)。gydF4y2Ba改进的噪声学生自动语音识别训练gydF4y2Ba.arXiv预印本:2005.09629。gydF4y2Ba
波维,D.,高沙尔,A.,布利安,G.,布尔吉特,L.,格伦贝克,O.,戈埃尔,N.等人(2011)。" kaldi语音识别工具包",见gydF4y2BaIEEE 2011年自动语音识别和理解研讨会(IEEE信号处理学会),CONFgydF4y2Ba.gydF4y2Ba
Schlüter, J.,和Grill, T.(2015)。gydF4y2Ba利用神经网络探索数据增强以改进歌唱声音检测gydF4y2Ba.gydF4y2BaISMIRgydF4y2Ba, 121年。gydF4y2Ba
怀斯曼(2022)。py-webrtcvad。gydF4y2Bahttps://github.com/wiseman/xpy-webrtcvadgydF4y2Ba.gydF4y2Ba
谢强,梁明- t。,Hovy, E., and Le, Q. V. (2020). “Self-training with noisy student improves imagenet classification,” in计算机视觉和模式识别的IEEE/CVF会议论文集gydF4y2Ba,gydF4y2Ba西雅图,华盛顿州gydF4y2Ba,gydF4y2Ba2020年6月13日至19日gydF4y2Ba.10687 - 10698。gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
雅尔塔,N.(2020)。gydF4y2Ba使用深度学习技术的机器人听力框架gydF4y2Ba.博士学位论文。doi: 10.13140 / RG.2.2.24456gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
易超,王娟,程宁,周松,徐波,(2020)。gydF4y2Ba应用wav2vec2。0到各种低资源语言的语音识别gydF4y2Ba.arXiv预印本arXiv:2012.12121。gydF4y2Ba
Zhai, X., Oliver, A., Kolesnikov, A., and Beyer, L.(2019)。“S4l:自监督半监督学习”,见gydF4y2BaIEEE/CVF计算机视觉国际会议论文集gydF4y2Ba,gydF4y2Ba韩国首尔gydF4y2Ba,gydF4y2Ba2019年10月27日至11月2日gydF4y2Ba, 1476 - 1485。gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
关键词:gydF4y2Ba变压器,Wav2Vec,自我监督,语音到文本,自我训练,人机交互,机器人,嵌入式系统gydF4y2Ba
引用:gydF4y2BaSafieh AA, Alhaol IA和Ghnemat R(2022)端到端约旦方言语音到文本的自监督学习框架。gydF4y2Ba前面。机器人。人工智能gydF4y2Ba9:1090012。doi: 10.3389 / frobt.2022.1090012gydF4y2Ba
收到:gydF4y2Ba2022年11月4日;gydF4y2Ba接受:gydF4y2Ba2022年11月29日;gydF4y2Ba
发表:gydF4y2Ba2022年12月22日。gydF4y2Ba
编辑:gydF4y2Ba
莫耶兹KrichengydF4y2Ba沙特阿拉伯阿尔巴哈大学gydF4y2Ba审核:gydF4y2Ba
雷德AlsinigydF4y2Ba沙特阿拉伯阿卜杜勒阿齐兹国王大学gydF4y2BaBadraddin AlturkigydF4y2Ba沙特阿拉伯阿卜杜勒阿齐兹国王大学gydF4y2Ba
卡里姆GasmigydF4y2Ba沙特阿拉伯jouf大学gydF4y2Ba
版权gydF4y2Ba©2022 Safieh, Alhaol和Ghnemat。这是一篇开放获取的文章,根据gydF4y2Ba创作共用授权(CC BY)。gydF4y2Ba在其他论坛上的使用、分发或复制是允许的,前提是原作者和版权所有者注明出处,并按照公认的学术惯例引用本刊上的原始出版物。不得使用、分发或复制不符合这些条款的内容。gydF4y2Ba
*通信:gydF4y2Ba阿里·a·萨菲,gydF4y2Baalisafia955@gmail.comgydF4y2Ba