日志

简单的语音交互(4)-- 讯飞语音识别

已有 7526 次阅读2017-1-17 11:41 |个人分类:ST| 讯飞, 语音识别

前面介绍了百度的语音唤醒，主要是因为免费，这次来介绍下讯飞的“在线命令词识别”，就目前来说讯飞的语音识别还是要白百度的好那么一点点。

去讯飞云官网http://www.xfyun.cn，注册账号，然后点击SDK下载标签，选择在线命令词识别功能，android平台，新建一个应用并选择。最后点击下载SDK，例程是用Eclipse写的，这时候可以参考官网视频教程：http://www.xfyun.cn/share/?p=1272，官网的文档：http://www.xfyun.cn/doccenter/awd，可以很容易的做出一个在线识别的Demo，详细可以参考本文的源代码。

主要步骤：

step1 导入SDK

使用AS 2.X新建一个叫XF_Voice的空白应用。解压SDK，将SDK的lib文件夹中的Msc.jar放到XF_Voice\app\libs中，在XF_Voice\app\src\main中新建jniLibs文件夹将SDK的lib文件夹中的armeabi和armeabi-v7a两个文件夹复制进去。在AS中切换到Project视图，找到Msc.jar，右击选择：add as library。将SDK文件夹sample\SpeechDemo\src\com\iflytek\speech\util中的JsonParser.java文件复制到MainActivity.java的文件夹下。并修改包名。

step2 添加用户权限

在工程AndroidManifest.xml文件中添加如下权限：

1.

2. <uses-permission android:name="android.permission.INTERNET"/>

3.

4. <uses-permission android:name="android.permission.RECORD_AUDIO"/>

5.

6. <uses-permission android:name="android.permission.ACCESS_NETWORK_STATE"/>

7.

8. <uses-permission android:name="android.permission.ACCESS_WIFI_STATE"/>

9.

10. <uses-permission android:name="android.permission.CHANGE_NETWORK_STATE"/>

11.

12. <uses-permission android:name="android.permission.READ_PHONE_STATE"/>

13.

14. <uses-permission android:name="android.permission.READ_CONTACTS"/>

如需使用人脸识别，还要添加：

1.

2. <uses-permission android:name="android.permission.CAMERA" />

注：如需在打包或者生成APK的时候进行混淆，请在proguard.cfg中添加如下代码

1. -keep class com.iflytek.**{*;}

step3 初始化

初始化即创建语音配置对象，只有初始化后才可以使用MSC的各项服务。建议将初始化放在程序入口处（如Application、Activity的onCreate方法),初始化代码如下：

Java Code

1. // 将“12345678”替换成您申请的APPID，申请地址：http://open.voicecloud.cn

2. SpeechUtility.createUtility(context, SpeechConstant.APPID +"=12345678");

注意：此接口在非主进程调用会返回null对象，如需在非主进程使用语音功能，请使用参数：SpeechConstant.APPID +"=12345678," + SpeechConstant.FORCE_LOGIN +"=true"。

听写主要指将连续语音快速识别为文字的过程，科大讯飞语音听写能识别通用常见的语句、词汇，而且不限制说法。语音听写的调用方法如下：

1. //1.创建SpeechRecognizer对象，第二个参数：本地听写时传InitListener

2. SpeechRecognizer mIat= SpeechRecognizer.createRecognizer(context, null);

3. //2.设置听写参数，详见《科大讯飞MSC API手册(Android)》SpeechConstant类

4. mIat.setParameter(SpeechConstant.DOMAIN, "iat");

5. mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");

6. mIat.setParameter(SpeechConstant.ACCENT, "mandarin ");

7. //3.开始听写 mIat.startListening(mRecoListener);

8. //听写监听器

9. private RecognizerListener mRecoListener = new RecognizerListener(){

10. //听写结果回调接口(返回Json格式结果，用户可参见附录12.1)；

11. //一般情况下会通过onResults接口多次返回结果，完整的识别内容是多次结果的累加；

12. //关于解析Json的代码可参见MscDemo中JsonParser类；

13. //isLast等于true时会话结束。

14. public void onResult(RecognizerResult results, boolean isLast) {

15. Log.d("Result:",results.getResultString ());}

16. //会话发生错误回调接口

17. public void onError(SpeechError error) {

18. error.getPlainDescription(true) //获取错误码描述}

19. //开始录音

20. public void onBeginOfSpeech() {}

21. //音量值0~30

22. public void onVolumeChanged(int volume){}

23. //结束录音

24. public void onEndOfSpeech() {}

25. //扩展用接口

26. public void onEvent(int eventType, int arg1, int arg2, Bundle obj) {}

27. };

下面来介绍下连续语音识别的方法，参考帖子：http://blog.csdn.net/imhxl/article/details/50854146，和http://www.itdadao.com/articles/c15a295439p0.html，主要思路是：让本地一直录音，录音过程实时将录音数据传给语音识别，完成转换功能。

Activity_main.xml布局文件：

<?xml version="1.0" encoding="utf-8"?>
<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
    xmlns:tools="http://schemas.android.com/tools"
    android:id="@+id/activity_main"
    android:layout_width="match_parent"
    android:layout_height="match_parent"
    android:orientation="vertical"
    android:paddingBottom="@dimen/activity_vertical_margin"
    android:paddingLeft="@dimen/activity_horizontal_margin"
    android:paddingRight="@dimen/activity_horizontal_margin"
    android:paddingTop="@dimen/activity_vertical_margin"
    tools:context="com.example.lb.xf_voice.MainActivity">
    <Button
    android:layout_width="wrap_content"
    android:layout_height="wrap_content"
        android:gravity="center"
    android:id="@+id/iat_genral"
    android:text="start"/>
    <LinearLayout
        android:layout_width="match_parent"
        android:layout_height="wrap_content"
        android:padding="10dp"
        android:orientation="horizontal">
        <TextView
            android:layout_width="wrap_content"
            android:layout_height="wrap_content"
            android:text="Unceasing IAT:"/>
        <Switch
            android:layout_width="wrap_content"
            android:layout_height="wrap_content"
            android:id="@+id/Switch_Unceasing_IAT"
            android:textOff="off"
            android:textOn="on" />
    </LinearLayout>
    <EditText
        android:layout_width="match_parent"
        android:layout_height="match_parent"
        android:id="@+id/iat_text"/>
</LinearLayout>

MainActivity.java代码：

package com.example.lb.xf_voice;
import java.util.HashMap;
import java.util.LinkedHashMap;
import org.json.JSONException;
import org.json.JSONObject;
import android.media.AudioFormat;
import android.media.AudioRecord;
import android.media.MediaRecorder;
import android.os.Bundle;
import android.support.v7.app.AppCompatActivity;
import android.util.Log;
import android.view.View;
import android.view.View.OnClickListener;
import android.widget.CompoundButton;
import android.widget.EditText;
import android.widget.Switch;
import android.widget.Toast;
import com.iflytek.cloud.ErrorCode;
import com.iflytek.cloud.InitListener;
import com.iflytek.cloud.SpeechConstant;
import com.iflytek.cloud.SpeechError;
import com.iflytek.cloud.SpeechEvent;
import com.iflytek.cloud.SpeechRecognizer;
import com.iflytek.cloud.SpeechUtility;
public class MainActivity extends AppCompatActivity implements OnClickListener ,CompoundButton.OnCheckedChangeListener{
    private boolean mIsRecognizer=false;
    private Switch mSwitch_Unceasing_IAT;
    private AudioRecord audioRecord;
    private int recBufSize = 0;
    private SpeechRecognizer mIat;
    private EditText mResultText;
    private Toast mToast;
    private HashMap<String, String> mIatResults = new LinkedHashMap<String, String>();
    private static String TAG = MainActivity.class.getSimpleName();
    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
        mToast = Toast.makeText(this, "", Toast.LENGTH_SHORT);
        mResultText = ((EditText) findViewById(R.id.iat_text));
        findViewById(R.id.iat_genral).setOnClickListener(this);
        mSwitch_Unceasing_IAT=(Switch)findViewById(R.id.Switch_Unceasing_IAT);
        mSwitch_Unceasing_IAT.setOnCheckedChangeListener(this);
// 应用程序入口处调用，避免手机内存过小，杀死后台进程后通过历史intent进入Activity造成SpeechUtility对象为null
        // 如在Application中调用初始化，需要在Mainifest中注册该Applicaiton
        // 注意：此接口在非主进程调用会返回null对象，如需在非主进程使用语音功能，请增加参数：SpeechConstant.FORCE_LOGIN+"=true"
        // 参数间使用半角“,”分隔。
        // 设置你申请的应用appid,请勿在'='与appid之间添加空格及空转义符
        // 注意： appid 必须和下载的SDK保持一致，否则会出现10407错误
        SpeechUtility.createUtility(MainActivity.this, "appid=" + "XXXXXXXX");//请自行申请
        //1.创建SpeechRecognizer对象，第二个参数：本地听写时传InitListener
        mIat= SpeechRecognizer.createRecognizer(MainActivity.this, mInitListener);
    }
    /**
     * 听写监听器。
     */
    private com.iflytek.cloud.RecognizerListener mRecognizerListener = new com.iflytek.cloud.RecognizerListener() {
        @Override
        public void onBeginOfSpeech() {
            // 此回调表示：sdk内部录音机已经准备好了，用户可以开始语音输入
            showTip("开始说话");
        }
        @Override
        public void onError(SpeechError error) {
            // Tips：
            // 错误码：10118(您没有说话)，可能是录音机权限被禁，需要提示用户打开应用的录音权限。
            // 如果使用本地功能（语记）需要提示用户开启语记的录音权限。
           showTip(error.getPlainDescription(true));
        }
        @Override
        public void onEndOfSpeech() {
            // 此回调表示：检测到了语音的尾端点，已经进入识别过程，不再接受语音输入
            showTip("结束说话");
            if (mIsRecognizer) {
                mIat.startListening(mRecognizerListener);
            }
        }
        @Override
        public void onResult(com.iflytek.cloud.RecognizerResult results, boolean isLast) {
            Log.d(TAG, results.getResultString());
            printResult(results);
            if (isLast) {
                // TODO 最后的结果
            }
        }
        @Override
        public void onVolumeChanged(int volume, byte[] data) {
            showTip("当前正在说话，音量大小：" + volume);
            Log.d(TAG, "返回音频数据："+data.length);
        }
        @Override
        public void onEvent(int eventType, int arg1, int arg2, Bundle obj) {
            // 以下代码用于获取与云端的会话id，当业务出错时将会话id提供给技术支持人员，可用于查询会话日志，定位出错原因
            // 若使用本地能力，会话id为null
               if (SpeechEvent.EVENT_SESSION_ID == eventType) {
                  String sid = obj.getString(SpeechEvent.KEY_EVENT_SESSION_ID);
                  Log.d(TAG, "session id =" + sid);
               }
        }
    };
    @Override
    protected void onDestroy() {
        super.onDestroy();
        // 退出时释放连接
        mIat.cancel();
        mIat.destroy();
    }
    @Override
    public void onClick(View v) {
        switch (v.getId()) {
            case R.id.iat_genral:
                //3.开始听写
                mResultText.setText(null);// 清空显示内容
                mIatResults.clear();
                // 设置参数
                setParam();
                mIat.startListening(mRecognizerListener);
                break;
        }
    }
    @Override
    public void onCheckedChanged(CompoundButton buttonView, boolean isChecked) {
        switch (buttonView.getId()) {
            case R.id.Switch_Unceasing_IAT:
                if (isChecked) {
                    mIsRecognizer=true;
                    creatAudioRecord();
                    setParam();
                    mIat.setParameter(SpeechConstant.AUDIO_SOURCE, "-1");
                    mIat.startListening(mRecognizerListener);
                    new ThreadInstantPlay().start();
                }else{
                    mIsRecognizer=false;
                }
                break;
        }
    }
    private void showTip(final String str) {
        mToast.setText(str);
        mToast.show();
    }
    private void printResult(com.iflytek.cloud.RecognizerResult results) {
        String text = JsonParser.parseIatResult(results.getResultString());
        String sn = null;
        // 读取json结果中的sn字段
        try {
            JSONObject resultJson = new JSONObject(results.getResultString());
            sn = resultJson.optString("sn");
        } catch (JSONException e) {
            e.printStackTrace();
        }
        mIatResults.put(sn, text);
        StringBuffer resultBuffer = new StringBuffer();
        for (String key : mIatResults.keySet()) {
            resultBuffer.append(mIatResults.get(key));
        }
        mResultText.setText(resultBuffer.toString());
        mResultText.setSelection(mResultText.length());
    }
    public void setParam() {
        mIat.setParameter(SpeechConstant.PARAMS, null);
//2.设置听写参数，详见《科大讯飞MSC API手册(Android)》SpeechConstant类
        mIat.setParameter(SpeechConstant.DOMAIN, "iat");
        mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");
        mIat.setParameter(SpeechConstant.ACCENT, "mandarin ");
    }
    private void creatAudioRecord() {
        if(recBufSize==0||audioRecord==null)
        // 获得缓冲区字节大小
        recBufSize = AudioRecord.getMinBufferSize(16000,
                AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT);
        // 创建AudioRecord对象
        audioRecord = new AudioRecord(MediaRecorder.AudioSource.MIC,
                16000, AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT, recBufSize);
    }
    /**
     * 初始化监听器。
     */
    private InitListener mInitListener = new InitListener() {
        @Override
        public void onInit(int code) {
            Log.d(TAG, "SpeechRecognizer init() code = " + code);
            if (code != ErrorCode.SUCCESS) {
                showTip("初始化失败，错误码：" + code);
            }
        }
    };
    class ThreadInstantPlay extends Thread
    {
        @Override
        public void run()
        {
            byte[] bsBuffer = new byte[recBufSize];
            if(!(audioRecord.getRecordingState() == AudioRecord.RECORDSTATE_RECORDING)) {
                audioRecord.startRecording();
            }
            while(mIsRecognizer && !Thread.currentThread().isInterrupted())
            {
                int line = audioRecord.read(bsBuffer, 0, recBufSize);
                byte[] tmpBuf = new byte[line];
                System.arraycopy(bsBuffer, 0, tmpBuf, 0, line);
                mIat.writeAudio(tmpBuf, 0, tmpBuf.length);
            }
            mIat.stopListening();
            audioRecord.stop();
        }
    }
}

效果图：

源代码：https://github.com/flyloong/XF_Voice

收藏邀请举报

全部作者的其他最新日志

评论 (0 个评论)

lb8820265