||
前面介绍了百度的语音唤醒,主要是因为免费,这次来介绍下讯飞的“在线命令词识别”,就目前来说讯飞的语音识别还是要白百度的好那么一点点。
去讯飞云官网http://www.xfyun.cn,注册账号,然后点击SDK下载标签,选择在线命令词识别功能,android平台,新建一个应用并选择。最后点击下载SDK,例程是用Eclipse写的,这时候可以参考官网视频教程:http://www.xfyun.cn/share/?p=1272,官网的文档:http://www.xfyun.cn/doccenter/awd,可以很容易的做出一个在线识别的Demo,详细可以参考本文的源代码。
主要步骤:
step1 导入SDK
使用AS 2.X新建一个叫XF_Voice的空白应用。解压SDK,将SDK的lib文件夹中的Msc.jar放到XF_Voice\app\libs中,在XF_Voice\app\src\main中新建jniLibs文件夹将SDK的lib文件夹中的armeabi和armeabi-v7a两个文件夹复制进去。在AS中切换到Project视图,找到Msc.jar,右击选择:add as
library。将SDK文件夹sample\SpeechDemo\src\com\iflytek\speech\util中的JsonParser.java文件复制到MainActivity.java的文件夹下。并修改包名。
step2 添加用户权限
在工程AndroidManifest.xml文件中添加如下权限:
1. <!--连接网络权限,用于执行云端语音能力 -->
2. <uses-permission android:name="android.permission.INTERNET"/>
3. <!--获取手机录音机使用权限,听写、识别、语义理解需要用到此权限 -->
4. <uses-permission android:name="android.permission.RECORD_AUDIO"/>
5. <!--读取网络信息状态 -->
6. <uses-permission android:name="android.permission.ACCESS_NETWORK_STATE"/>
7. <!--获取当前wifi状态 -->
8. <uses-permission android:name="android.permission.ACCESS_WIFI_STATE"/>
9. <!--允许程序改变网络连接状态 -->
10. <uses-permission android:name="android.permission.CHANGE_NETWORK_STATE"/>
11. <!--读取手机信息权限 -->
12. <uses-permission android:name="android.permission.READ_PHONE_STATE"/>
13. <!--读取联系人权限,上传联系人需要用到此权限 -->
14. <uses-permission android:name="android.permission.READ_CONTACTS"/>
如需使用人脸识别,还要添加:
1. <!--摄相头权限,拍照需要用到 -->
2. <uses-permission android:name="android.permission.CAMERA" />
注:如需在打包或者生成APK的时候进行混淆,请在proguard.cfg中添加如下代码
1. -keep class com.iflytek.**{*;}
step3 初始化
初始化即创建语音配置对象,只有初始化后才可以使用MSC的各项服务。建议将初始化放在程序入口处(如Application、Activity的onCreate方法),初始化代码如下:
Java Code
1. // 将“12345678”替换成您申请的APPID,申请地址:http://open.voicecloud.cn
2. SpeechUtility.createUtility(context, SpeechConstant.APPID +"=12345678");
注意:此接口在非主进程调用会返回null对象,如需在非主进程使用语音功能,请使用参数:SpeechConstant.APPID +"=12345678," + SpeechConstant.FORCE_LOGIN +"=true"。
听写主要指将连续语音快速识别为文字的过程,科大讯飞语音听写能识别通用常见的语句、词汇,而且不限制说法。语音听写的调用方法如下:
1. //1.创建SpeechRecognizer对象,第二个参数:本地听写时传InitListener
2. SpeechRecognizer mIat= SpeechRecognizer.createRecognizer(context, null);
3. //2.设置听写参数,详见《科大讯飞MSC API手册(Android)》SpeechConstant类
4. mIat.setParameter(SpeechConstant.DOMAIN, "iat");
5. mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");
6. mIat.setParameter(SpeechConstant.ACCENT, "mandarin ");
7. //3.开始听写 mIat.startListening(mRecoListener);
8. //听写监听器
9. private RecognizerListener mRecoListener = new RecognizerListener(){
10. //听写结果回调接口(返回Json格式结果,用户可参见附录12.1);
11. //一般情况下会通过onResults接口多次返回结果,完整的识别内容是多次结果的累加;
12. //关于解析Json的代码可参见MscDemo中JsonParser类;
13. //isLast等于true时会话结束。
14. public void onResult(RecognizerResult results, boolean isLast) {
15. Log.d("Result:",results.getResultString ());}
16. //会话发生错误回调接口
17. public void onError(SpeechError error) {
18. error.getPlainDescription(true) //获取错误码描述}
19. //开始录音
20. public void onBeginOfSpeech() {}
21. //音量值0~30
22. public void onVolumeChanged(int volume){}
23. //结束录音
24. public void onEndOfSpeech() {}
25. //扩展用接口
26. public void onEvent(int eventType, int arg1, int arg2, Bundle obj) {}
27. };
下面来介绍下连续语音识别的方法,参考帖子:http://blog.csdn.net/imhxl/article/details/50854146,和http://www.itdadao.com/articles/c15a295439p0.html,主要思路是:让本地一直录音,录音过程实时将录音数据传给语音识别,完成转换功能。
Activity_main.xml布局文件:
<?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.android.com/tools" android:id="@+id/activity_main" android:layout_width="match_parent" android:layout_height="match_parent" android:orientation="vertical" android:paddingBottom="@dimen/activity_vertical_margin" android:paddingLeft="@dimen/activity_horizontal_margin" android:paddingRight="@dimen/activity_horizontal_margin" android:paddingTop="@dimen/activity_vertical_margin" tools:context="com.example.lb.xf_voice.MainActivity"> <Button android:layout_width="wrap_content" android:layout_height="wrap_content" android:gravity="center" android:id="@+id/iat_genral" android:text="start"/> <LinearLayout android:layout_width="match_parent" android:layout_height="wrap_content" android:padding="10dp" android:orientation="horizontal"> <TextView android:layout_width="wrap_content" android:layout_height="wrap_content" android:text="Unceasing IAT:"/> <Switch android:layout_width="wrap_content" android:layout_height="wrap_content" android:id="@+id/Switch_Unceasing_IAT" android:textOff="off" android:textOn="on" /> </LinearLayout> <EditText android:layout_width="match_parent" android:layout_height="match_parent" android:id="@+id/iat_text"/> </LinearLayout>
MainActivity.java代码:
package com.example.lb.xf_voice; import java.util.HashMap; import java.util.LinkedHashMap; import org.json.JSONException; import org.json.JSONObject; import android.media.AudioFormat; import android.media.AudioRecord; import android.media.MediaRecorder; import android.os.Bundle; import android.support.v7.app.AppCompatActivity; import android.util.Log; import android.view.View; import android.view.View.OnClickListener; import android.widget.CompoundButton; import android.widget.EditText; import android.widget.Switch; import android.widget.Toast; import com.iflytek.cloud.ErrorCode; import com.iflytek.cloud.InitListener; import com.iflytek.cloud.SpeechConstant; import com.iflytek.cloud.SpeechError; import com.iflytek.cloud.SpeechEvent; import com.iflytek.cloud.SpeechRecognizer; import com.iflytek.cloud.SpeechUtility; public class MainActivity extends AppCompatActivity implements OnClickListener ,CompoundButton.OnCheckedChangeListener{ private boolean mIsRecognizer=false; private Switch mSwitch_Unceasing_IAT; private AudioRecord audioRecord; private int recBufSize = 0; private SpeechRecognizer mIat; private EditText mResultText; private Toast mToast; private HashMap<String, String> mIatResults = new LinkedHashMap<String, String>(); private static String TAG = MainActivity.class.getSimpleName(); @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main); mToast = Toast.makeText(this, "", Toast.LENGTH_SHORT); mResultText = ((EditText) findViewById(R.id.iat_text)); findViewById(R.id.iat_genral).setOnClickListener(this); mSwitch_Unceasing_IAT=(Switch)findViewById(R.id.Switch_Unceasing_IAT); mSwitch_Unceasing_IAT.setOnCheckedChangeListener(this); // 应用程序入口处调用,避免手机内存过小,杀死后台进程后通过历史intent进入Activity造成SpeechUtility对象为null // 如在Application中调用初始化,需要在Mainifest中注册该Applicaiton // 注意:此接口在非主进程调用会返回null对象,如需在非主进程使用语音功能,请增加参数:SpeechConstant.FORCE_LOGIN+"=true" // 参数间使用半角“,”分隔。 // 设置你申请的应用appid,请勿在'='与appid之间添加空格及空转义符 // 注意: appid 必须和下载的SDK保持一致,否则会出现10407错误 SpeechUtility.createUtility(MainActivity.this, "appid=" + "XXXXXXXX");//请自行申请 //1.创建SpeechRecognizer对象,第二个参数:本地听写时传InitListener mIat= SpeechRecognizer.createRecognizer(MainActivity.this, mInitListener); } /** * 听写监听器。 */ private com.iflytek.cloud.RecognizerListener mRecognizerListener = new com.iflytek.cloud.RecognizerListener() { @Override public void onBeginOfSpeech() { // 此回调表示:sdk内部录音机已经准备好了,用户可以开始语音输入 showTip("开始说话"); } @Override public void onError(SpeechError error) { // Tips: // 错误码:10118(您没有说话),可能是录音机权限被禁,需要提示用户打开应用的录音权限。 // 如果使用本地功能(语记)需要提示用户开启语记的录音权限。 showTip(error.getPlainDescription(true)); } @Override public void onEndOfSpeech() { // 此回调表示:检测到了语音的尾端点,已经进入识别过程,不再接受语音输入 showTip("结束说话"); if (mIsRecognizer) { mIat.startListening(mRecognizerListener); } } @Override public void onResult(com.iflytek.cloud.RecognizerResult results, boolean isLast) { Log.d(TAG, results.getResultString()); printResult(results); if (isLast) { // TODO 最后的结果 } } @Override public void onVolumeChanged(int volume, byte[] data) { showTip("当前正在说话,音量大小:" + volume); Log.d(TAG, "返回音频数据:"+data.length); } @Override public void onEvent(int eventType, int arg1, int arg2, Bundle obj) { // 以下代码用于获取与云端的会话id,当业务出错时将会话id提供给技术支持人员,可用于查询会话日志,定位出错原因 // 若使用本地能力,会话id为null if (SpeechEvent.EVENT_SESSION_ID == eventType) { String sid = obj.getString(SpeechEvent.KEY_EVENT_SESSION_ID); Log.d(TAG, "session id =" + sid); } } }; @Override protected void onDestroy() { super.onDestroy(); // 退出时释放连接 mIat.cancel(); mIat.destroy(); } @Override public void onClick(View v) { switch (v.getId()) { case R.id.iat_genral: //3.开始听写 mResultText.setText(null);// 清空显示内容 mIatResults.clear(); // 设置参数 setParam(); mIat.startListening(mRecognizerListener); break; } } @Override public void onCheckedChanged(CompoundButton buttonView, boolean isChecked) { switch (buttonView.getId()) { case R.id.Switch_Unceasing_IAT: if (isChecked) { mIsRecognizer=true; creatAudioRecord(); setParam(); mIat.setParameter(SpeechConstant.AUDIO_SOURCE, "-1"); mIat.startListening(mRecognizerListener); new ThreadInstantPlay().start(); }else{ mIsRecognizer=false; } break; } } private void showTip(final String str) { mToast.setText(str); mToast.show(); } private void printResult(com.iflytek.cloud.RecognizerResult results) { String text = JsonParser.parseIatResult(results.getResultString()); String sn = null; // 读取json结果中的sn字段 try { JSONObject resultJson = new JSONObject(results.getResultString()); sn = resultJson.optString("sn"); } catch (JSONException e) { e.printStackTrace(); } mIatResults.put(sn, text); StringBuffer resultBuffer = new StringBuffer(); for (String key : mIatResults.keySet()) { resultBuffer.append(mIatResults.get(key)); } mResultText.setText(resultBuffer.toString()); mResultText.setSelection(mResultText.length()); } public void setParam() { mIat.setParameter(SpeechConstant.PARAMS, null); //2.设置听写参数,详见《科大讯飞MSC API手册(Android)》SpeechConstant类 mIat.setParameter(SpeechConstant.DOMAIN, "iat"); mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn"); mIat.setParameter(SpeechConstant.ACCENT, "mandarin "); } private void creatAudioRecord() { if(recBufSize==0||audioRecord==null) // 获得缓冲区字节大小 recBufSize = AudioRecord.getMinBufferSize(16000, AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT); // 创建AudioRecord对象 audioRecord = new AudioRecord(MediaRecorder.AudioSource.MIC, 16000, AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT, recBufSize); } /** * 初始化监听器。 */ private InitListener mInitListener = new InitListener() { @Override public void onInit(int code) { Log.d(TAG, "SpeechRecognizer init() code = " + code); if (code != ErrorCode.SUCCESS) { showTip("初始化失败,错误码:" + code); } } }; class ThreadInstantPlay extends Thread { @Override public void run() { byte[] bsBuffer = new byte[recBufSize]; if(!(audioRecord.getRecordingState() == AudioRecord.RECORDSTATE_RECORDING)) { audioRecord.startRecording(); } while(mIsRecognizer && !Thread.currentThread().isInterrupted()) { int line = audioRecord.read(bsBuffer, 0, recBufSize); byte[] tmpBuf = new byte[line]; System.arraycopy(bsBuffer, 0, tmpBuf, 0, line); mIat.writeAudio(tmpBuf, 0, tmpBuf.length); } mIat.stopListening(); audioRecord.stop(); } } }
效果图: