什么是语音语料库?(a speech corpus?)

语音语料库,也称为口语语料库,是以音频或文本格式保存的语音集合。这些收集在开发语音软件和进行语言研究方面很有用。语音语料库的两种类型是自发语音和阅读语音。...
A speech corpus, also known as a spoken corpus, is a collection of speeches preserved in audio or text format.

语音语料库,也称为口语语料库,是以音频或文本格式保存的语音集合。这些收集在开发语音软件和进行语言研究方面很有用。语音语料库的两种类型是自发语音和阅读语音。

定义“语音”和“语料库”的含义很重要。演讲包括思想和事实的集合,通常以口头形式。人们也可以把任何言语视为言语。反过来,语料库引用各种信息的正式集合。

A transcriber converts spoken speech into a written form.

用户通常通过录音或基于文本的转录来创建语音语料库。录音可以通过声音存储技术进行,通常作为MP3文件存储在电子数据库中,以创建语料库。另一方面,转录员将口语转换成书面形式,然后与其他转录本一起编译。

任何类型的语音都可以在语音语料库中找到,但这类数据库通常分为两类。第一种是自发的演讲,包含一个人可能发表的非形式化的演讲,如对话或口头故事中的演讲。然而,阅读演讲有一个更加正式和预先计划的结构。例如政治演讲、新闻广播和有声读物。有些种类可能取决于特定的环境,如访谈。

语音语料库工具的一个主要优势是它们在帮助创建基于语音的软件方面的实用性。例如,许多计算机和其他电子设备提供语音识别功能作为一种选择,例如读回键入的文本,将口语转换为文本,或通过独特的语音特征识别说话人。从语音语料库中提取语音可能有助于增强这项技术,方法是将基于数学的统计数据集(称为声学模型)应用于每个单独的声音。此外,数据库还可以帮助开发语言学习录音带。。

这些函数与语音语料库的另一个应用程序相结合。也就是说,学者们可以利用这些保存下来的音频或书面文件,研究构成语言的微妙语法变化。因此,语音语料库可以作为学习语音、语序和其他语言模型的有价值的工具。如果研究人员创建一个包含多种语言的集合或多语言语料库,他们可以进一步比较不同地区方言和语言的异同。涉及语音的语料库评价是一个专门的研究中心,称为语料库语言学,其计算机实现称为计算语言学。。

许多转录本数据库包含包含关于文本中各个组成部分信息的符号或标记。这个过程称为注释。在抽象过程中,语言学家将记录和翻译演讲中的各种术语。如果个人希望通过文本了解未知文明,这种输入可能是有用的。语料库研究的最后一步是分析,或者从一组语音成分中得出比较和理论理想。

  • 发表于 2022-01-16 10:29
  • 阅读 ( 67 )
  • 分类:人文

你可能感兴趣的文章

windows语音识别(windows speech recognition)和龙(dragon)的区别

...的游戏。Dragon可能是世界上最好的语音识别软件包。   什么是windows语音识别(windows speech recognition)? WindowsSpeechRecognition是微软的专有语音识别程序,预装了Windows操作系统。自从windowsvista问世以来,微软就已经内置了语音识别...

  • 发布于 2021-06-26 11:22
  • 阅读 ( 378 )

什么是言语中的压力?(stress in speech?)

在语音学中,重音是语音中某个声音或音节的强调程度,也称为词汇重音或单词重音。与其他一些语言不同,英语有可变(或灵活)重音。这意味着重音模式可以帮助区分两个看起来相同的单词或短语的含义。 例如,在短语...

  • 发布于 2021-09-25 14:15
  • 阅读 ( 254 )

电报语音

...用封闭类或“功能”词汇。Brown(1973)搜索了可用的儿童语料库,发现这个假设是不正确的:他在儿童的双词和早期多词语音中发现了许多封闭类或虚词,其中包括更多的,no,off和代词I,you,it等等。事实上,大多数Braine(1963...

  • 发布于 2021-09-30 06:38
  • 阅读 ( 193 )

语言学中语料库的定义及实例

在语言学中,语料库是用于研究、学术和教学的语言数据(通常包含在计算机数据库中)的集合。也称为文本语料库。复数:语料库。 第一个系统组织的计算机语料库是布朗大学标准的当代美国英语语料库(俗称布朗语料库...

  • 发布于 2021-10-07 16:44
  • 阅读 ( 179 )

什么是语音识别的应用?(the applications of speech recognition?)

语音识别有许多不同的潜在应用,尽管一些最有可能的发展领域包括在电话系统、计算机文本对话程序和人工智能(AI)应用开发中的应用。在电话系统和各种电话应用中,...

  • 发布于 2021-12-08 13:01
  • 阅读 ( 125 )

什么是不同类型的语音识别转录软件?(the different types of speech recognition transcription software?)

不同类型的语音识别转录软件包括用于替代打字的语音到文本程序、替换计算机鼠标或其他输入设备的语音识别系统,以及将一种语言的口语转换成第二种语言的书面文本...

  • 发布于 2021-12-09 09:26
  • 阅读 ( 169 )

什么是最常见的语音识别问题是什么?(the most common speech recognition problems?)

语音识别软件自发明以来已经有了很大的进步,但它仍然存在一些大问题,使它不能被专门用作转录方法。一些难以解决的语音识别问题包括单词发音的变化、个别口音、...

  • 发布于 2021-12-09 10:43
  • 阅读 ( 171 )

什么是语音识别软件?(speech recognition software?)

语音识别软件,设计用于麦克风,解释口语,创建文本风格的文件;它也可以用来执行计算机命令。简单地说,它用语音输入代替键盘输入。这个软件在无数的应用程序中...

  • 发布于 2021-12-14 17:47
  • 阅读 ( 152 )

什么是语音生成设备?(a speech generating device?)

语音生成设备是一种医疗设备,它为患有严重语音障碍或其他导致说话困难的医疗问...

  • 发布于 2021-12-27 22:08
  • 阅读 ( 103 )

什么是海绵体?(the corpus cavernosum?)

...上唇之间的敏感神经末梢束。这些栏目一起被称为海绵状语料库。为了区分男女版本,该术语通常被引用为男性的“阴茎海绵体”,女性的“阴蒂海绵体”。 ...

  • 发布于 2021-12-28 17:41
  • 阅读 ( 189 )