1) 准备一个将要用来生成语言模型的参考文字。语言模型工具包要求输入的内容是纯文字文件，其中每句话由<s>和</s>标记分隔开。有一些输入过滤器可用于特殊的语料库（corpora），例如电话交换机（Switchboard）、交换链路内协议（ISL）及美国国家标准技术研究所（NIST）会议、HUB5副本。所产生的结果，应当是一组以开始和结束标记（<s>和</s>）分隔的句子。例如：

<s> generally cloudy today with scattered outbreaks of rain and drizzle persistent and heavy at times </s>

<s> some dry intervals also with hazy sunshine especially in eastern parts in the morning </s>

<s> highest temperatures nine to thirteen Celsius in a light or moderate mainly east south east breeze </s>

<s> cloudy damp and misty today with spells of rain and drizzle in most places much of this rain will be

light and patchy but heavier rain may develop in the west later </s>

数据越多，生成的语言模型就越好。sphinx4 中的weather.txt 文件（用来生成天气语言模型）包含了大约100000 个句子。

2) 生成词汇表。这是文件中所有单词组成的列表：

text2wfreq < weather.txt | wfreq2vocab > weather.tmp.vocab

3) 妳可以编辑词汇表以去掉某些单词(数字、拼错的词、人名)。如果妳发现有些单词拼错了，那么最好是到输入的源文本里面去修正它们。

4) 如果妳想制作一个封闭的词汇语言模型(不识别任何的未知单词)，那么，妳需要编辑原始的输入文本，从中删除那些包含有未出现于词汇表文件中的单词的句子。

5) 使用以下命令来生成arpa 格式的语言模型：

% text2idngram -vocab weather.vocab -idngram weather.idngram < weather.closed.txt

% idngram2lm -vocab_type 0 -idngram weather.idngram -vocab \

weather.vocab -arpa weather.arpa

6) 生成CMU二进制形式的语言模型(DMP)

sphinx_lm_convert -i weather.arpa -o weather.lm.DMP

可在 CMU-剑桥语言建模工具包页面找到关于CMUCLTK 工具和命令的文档。

使用其它的语言建模工具包

妳还可以使用别的工具包来生成 ARPA 文本文件。但是，生成的文件必须经过排序，才能被Sphinx 的解码器使用。妳可以使用SphinxBase 中包含的sphinx_lm_sort 工具来对一个ARPA 格式的语言模型文件进行排序，例如：

sphinx_lm_sort < unsorted.arpa > sorted.arpa

然后，妳就可以将它转换成DMP 格式，照常使用。

可尝试以下工具包：

•. IRSLM
•. MITLM
•. SRILM

它们都狠容易使用。

使用网页服务来构建一个简单的语言模型

如果妳的语言是英语，并且文本内容非常少，那么，可以方便地使用网页服务来生成语言模型。以这种方式构建的语言模型对于简单的命令和控制任务是非常有效的。首先妳需要创建一个语料库。

“语料库”，就是一组句子，妳将用它们来训练妳的语言模型。举个例子，我们要为一个移动的互联网设备增加一个假想的主意控制功能。我们需要让它能识别“open browser”、“new e-mail”、“forward”、“backward”、“next window”、“last window”、“open music player”等等命令。所以，我们先创建一个corpus.txt文件：

open browser

new e-mail

forward

backward

next window

last window

open music player

然后访问此网页 http://www.speech.cs.cmu.edu/tools/lmtool-new.html。只需猛击“浏览……”（“Browse…”）按钮，选中妳之前创建的corpus.txt 文件，然后猛击“编译知识库”（“COMPILE KNOWLEDGE BASE”）。

还可以在这里找到旧版本的工具： http://www.speech.cs.cmu.edu/tools/lmtool.html

妳应当会看到一个显示了一些状态消息的网页，然后转到一个标题为“Sphinx knowledge base”的网页。在这个页面上有“Dictionary”和“Language Model”两个链接。下载这两个文件，记住它们的名字(它们应当含有4个数字，扩展名为 .dic 和 .lm)。现在，妳可以使用PocketSphinx 来测试新创建的语言模型了。

将语言模型转换成DMP格式

为了快速地载入大型的语言模型，妳需要将它们转换成二进制格式，那会加快解码器的初始化速度。对于小的语言模型是不必要这么做的。Pocketsphinx和sphinx3都可以在-lm选项中处理这两种格式。Sphinx4要求妳在TrigramModel 模块中使用DMP 模型，而在SimpleNGramModel 模块中使用ARPA 模型。

ARPA格式与DMP 格式是可以互相转换的。妳可以使用sphinxbase中的sphinx_lm_convert 命令来做这种转换：

sphinx_lm_convert -i model.lm -o model.dmp

sphinx_lm_convert -i model.dmp -ifmt dmp -o model.lm -ofmt arpa

使用妳的语言模型

此小节将说明，如何使用、测试及改进妳所创建的语言模型。

在PocketSphinx中使用妳的语言模型

如果妳已经安装了PocketSphinx，那么，就会有一个叫pocketsphinx_continuous 的程序，可在命令行中运行，用来识别语音。假设它被安装到/usr/local，并且妳的语言模型和词典文件叫做，8521.dic和8521.lm，则，运行以下命令：

pocketsphinx_continuous -lm 8521.lm -dict 8521.dic

妳会看到一大堆诊断消息，接下来是一个暂停，接下来是“READY…”。现在妳可以试着念一些命令。它应当可以准确地识别出这些命令。如果没有识别的话，检查一下妳的话筒或声卡。

在Sphinx4中使用妳的语言模型

妳只需要编辑配置文件，在其中写上正确的模型文件名。Sphinx-4主要是使用DMP 格式的。参考以下文档以了解细节：

http://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.html

未知美人

Your opinions

Your name:

Email:Website url:Opinion content:

- no title specified

HxLauncher: Launch Android applications by voice commands