注册 登录
电子工程世界-论坛 返回首页 EEWORLD首页 频道 EE大学堂 下载中心 Datasheet 专题
lb8820265的个人空间 https://home.eeworld.com.cn/space-uid-527961.html [收藏] [复制] [分享] [RSS]
日志

简单的语音交互(4)-- 讯飞语音识别

已有 7472 次阅读2017-1-17 11:41 |个人分类:ST| 讯飞, 语音识别

前面介绍了百度的语音唤醒,主要是因为免费,这次来介绍下讯飞的“在线命令词识别”,就目前来说讯飞的语音识别还是要白百度的好那么一点点。

去讯飞云官网http://www.xfyun.cn,注册账号,然后点击SDK下载标签,选择在线命令词识别功能,android平台,新建一个应用并选择。最后点击下载SDK,例程是用Eclipse写的,这时候可以参考官网视频教程:http://www.xfyun.cn/share/?p=1272,官网的文档:http://www.xfyun.cn/doccenter/awd,可以很容易的做出一个在线识别的Demo,详细可以参考本文的源代码。

主要步骤:

step1 导入SDK

使用AS 2.X新建一个叫XF_Voice的空白应用。解压SDK,将SDKlib文件夹中的Msc.jar放到XF_Voice\app\libs中,在XF_Voice\app\src\main中新建jniLibs文件夹将SDKlib文件夹中的armeabiarmeabi-v7a两个文件夹复制进去。在AS中切换到Project视图,找到Msc.jar,右击选择:add as library。将SDK文件夹sample\SpeechDemo\src\com\iflytek\speech\util中的JsonParser.java文件复制到MainActivity.java的文件夹下。并修改包名。

step2 添加用户权限

在工程AndroidManifest.xml文件中添加如下权限:

1.     <!--连接网络权限,用于执行云端语音能力 -->  

2.     <uses-permission android:name="android.permission.INTERNET"/>  

3.     <!--获取手机录音机使用权限,听写、识别、语义理解需要用到此权限 -->  

4.     <uses-permission android:name="android.permission.RECORD_AUDIO"/>  

5.     <!--读取网络信息状态 -->  

6.     <uses-permission android:name="android.permission.ACCESS_NETWORK_STATE"/>  

7.     <!--获取当前wifi状态 -->  

8.     <uses-permission android:name="android.permission.ACCESS_WIFI_STATE"/>  

9.     <!--允许程序改变网络连接状态 -->  

10.   <uses-permission android:name="android.permission.CHANGE_NETWORK_STATE"/>  

11.   <!--读取手机信息权限 -->  

12.   <uses-permission android:name="android.permission.READ_PHONE_STATE"/>  

13.   <!--读取联系人权限,上传联系人需要用到此权限 -->  

14.   <uses-permission android:name="android.permission.READ_CONTACTS"/>  

 如需使用人脸识别,还要添加:

1.     <!--摄相头权限,拍照需要用到 -->  

2.     <uses-permission android:name="android.permission.CAMERA" />   

注:如需在打包或者生成APK的时候进行混淆,请在proguard.cfg中添加如下代码

1.     -keep class com.iflytek.**{*;}  

step3 初始化

初始化即创建语音配置对象,只有初始化后才可以使用MSC的各项服务。建议将初始化放在程序入口处(如ApplicationActivityonCreate方法),初始化代码如下:

Java Code

1.     // 将“12345678”替换成您申请的APPID,申请地址:http://open.voicecloud.cn  

2.     SpeechUtility.createUtility(context, SpeechConstant.APPID +"=12345678");   

注意:此接口在非主进程调用会返回null对象,如需在非主进程使用语音功能,请使用参数:SpeechConstant.APPID +"=12345678," + SpeechConstant.FORCE_LOGIN +"=true"

听写主要指将连续语音快速识别为文字的过程,科大讯飞语音听写能识别通用常见的语句、词汇,而且不限制说法。语音听写的调用方法如下: 

1.     //1.创建SpeechRecognizer对象,第二个参数:本地听写时传InitListener    

2.     SpeechRecognizer mIat= SpeechRecognizer.createRecognizer(context, null);    

3.     //2.设置听写参数,详见《科大讯飞MSC API手册(Android)SpeechConstant    

4.     mIat.setParameter(SpeechConstant.DOMAIN, "iat");    

5.     mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");    

6.     mIat.setParameter(SpeechConstant.ACCENT, "mandarin ");    

7.     //3.开始听写   mIat.startListening(mRecoListener);    

8.     //听写监听器    

9.     private RecognizerListener mRecoListener = new RecognizerListener(){    

10.   //听写结果回调接口(返回Json格式结果,用户可参见附录12.1)    

11.   //一般情况下会通过onResults接口多次返回结果,完整的识别内容是多次结果的累加;    

12.   //关于解析Json的代码可参见MscDemoJsonParser类;    

13.   //isLast等于true时会话结束。    

14.   public void onResult(RecognizerResult results, boolean isLast) {    

15.               Log.d("Result:",results.getResultString ());}    

16.   //会话发生错误回调接口    

17.       public void onError(SpeechError error) {    

18.   error.getPlainDescription(true//获取错误码描述}    

19.       //开始录音    

20.       public void onBeginOfSpeech() {}    

21.       //音量值0~30    

22.       public void onVolumeChanged(int volume){}    

23.       //结束录音    

24.       public void onEndOfSpeech() {}    

25.       //扩展用接口    

26.       public void onEvent(int eventType, int arg1, int arg2, Bundle obj) {}    

27.   };    

下面来介绍下连续语音识别的方法,参考帖子:http://blog.csdn.net/imhxl/article/details/50854146,和http://www.itdadao.com/articles/c15a295439p0.html,主要思路是:让本地一直录音,录音过程实时将录音数据传给语音识别,完成转换功能。

Activity_main.xml布局文件:

<?xml version="1.0" encoding="utf-8"?>
<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
    xmlns:tools="http://schemas.android.com/tools"
    android:id="@+id/activity_main"
    android:layout_width="match_parent"
    android:layout_height="match_parent"
    android:orientation="vertical"
    android:paddingBottom="@dimen/activity_vertical_margin"
    android:paddingLeft="@dimen/activity_horizontal_margin"
    android:paddingRight="@dimen/activity_horizontal_margin"
    android:paddingTop="@dimen/activity_vertical_margin"
    tools:context="com.example.lb.xf_voice.MainActivity">
    <Button
    android:layout_width="wrap_content"
    android:layout_height="wrap_content"
        android:gravity="center"
    android:id="@+id/iat_genral"
    android:text="start"/>
    <LinearLayout
        android:layout_width="match_parent"
        android:layout_height="wrap_content"
        android:padding="10dp"
        android:orientation="horizontal">
        <TextView
            android:layout_width="wrap_content"
            android:layout_height="wrap_content"
            android:text="Unceasing IAT:"/>
        <Switch
            android:layout_width="wrap_content"
            android:layout_height="wrap_content"
            android:id="@+id/Switch_Unceasing_IAT"
            android:textOff="off"
            android:textOn="on" />
    </LinearLayout>
    <EditText
        android:layout_width="match_parent"
        android:layout_height="match_parent"
        android:id="@+id/iat_text"/>
</LinearLayout>

MainActivity.java代码:

package com.example.lb.xf_voice;
import java.util.HashMap;
import java.util.LinkedHashMap;
import org.json.JSONException;
import org.json.JSONObject;
import android.media.AudioFormat;
import android.media.AudioRecord;
import android.media.MediaRecorder;
import android.os.Bundle;
import android.support.v7.app.AppCompatActivity;
import android.util.Log;
import android.view.View;
import android.view.View.OnClickListener;
import android.widget.CompoundButton;
import android.widget.EditText;
import android.widget.Switch;
import android.widget.Toast;
import com.iflytek.cloud.ErrorCode;
import com.iflytek.cloud.InitListener;
import com.iflytek.cloud.SpeechConstant;
import com.iflytek.cloud.SpeechError;
import com.iflytek.cloud.SpeechEvent;
import com.iflytek.cloud.SpeechRecognizer;
import com.iflytek.cloud.SpeechUtility;
public class MainActivity extends AppCompatActivity implements OnClickListener ,CompoundButton.OnCheckedChangeListener{
    private boolean mIsRecognizer=false;
    private Switch mSwitch_Unceasing_IAT;
    private AudioRecord audioRecord;
    private int recBufSize = 0;
    private SpeechRecognizer mIat;
    private EditText mResultText;
    private Toast mToast;
    private HashMap<String, String> mIatResults = new LinkedHashMap<String, String>();
    private static String TAG = MainActivity.class.getSimpleName();
    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
        mToast = Toast.makeText(this, "", Toast.LENGTH_SHORT);
        mResultText = ((EditText) findViewById(R.id.iat_text));
        findViewById(R.id.iat_genral).setOnClickListener(this);
        mSwitch_Unceasing_IAT=(Switch)findViewById(R.id.Switch_Unceasing_IAT);
        mSwitch_Unceasing_IAT.setOnCheckedChangeListener(this);
// 应用程序入口处调用,避免手机内存过小,杀死后台进程后通过历史intent进入Activity造成SpeechUtility对象为null
        // 如在Application中调用初始化,需要在Mainifest中注册该Applicaiton
        // 注意:此接口在非主进程调用会返回null对象,如需在非主进程使用语音功能,请增加参数:SpeechConstant.FORCE_LOGIN+"=true"
        // 参数间使用半角“,”分隔。
        // 设置你申请的应用appid,请勿在'='appid之间添加空格及空转义符
        // 注意: appid 必须和下载的SDK保持一致,否则会出现10407错误
        SpeechUtility.createUtility(MainActivity.this, "appid=" + "XXXXXXXX");//请自行申请
        //1.创建SpeechRecognizer对象,第二个参数:本地听写时传InitListener
        mIat= SpeechRecognizer.createRecognizer(MainActivity.this, mInitListener);
    }
    /**
     * 听写监听器。
     */
    private com.iflytek.cloud.RecognizerListener mRecognizerListener = new com.iflytek.cloud.RecognizerListener() {
        @Override
        public void onBeginOfSpeech() {
            // 此回调表示:sdk内部录音机已经准备好了,用户可以开始语音输入
            showTip("开始说话");
        }
        @Override
        public void onError(SpeechError error) {
            // Tips
            // 错误码:10118(您没有说话),可能是录音机权限被禁,需要提示用户打开应用的录音权限。
            // 如果使用本地功能(语记)需要提示用户开启语记的录音权限。
           showTip(error.getPlainDescription(true));
        }
        @Override
        public void onEndOfSpeech() {
            // 此回调表示:检测到了语音的尾端点,已经进入识别过程,不再接受语音输入
            showTip("结束说话");
            if (mIsRecognizer) {
                mIat.startListening(mRecognizerListener);
            }
        }
        @Override
        public void onResult(com.iflytek.cloud.RecognizerResult results, boolean isLast) {
            Log.d(TAG, results.getResultString());
            printResult(results);
            if (isLast) {
                // TODO 最后的结果
            }
        }
        @Override
        public void onVolumeChanged(int volume, byte[] data) {
            showTip("当前正在说话,音量大小:" + volume);
            Log.d(TAG, "返回音频数据:"+data.length);
        }
        @Override
        public void onEvent(int eventType, int arg1, int arg2, Bundle obj) {
            // 以下代码用于获取与云端的会话id,当业务出错时将会话id提供给技术支持人员,可用于查询会话日志,定位出错原因
            // 若使用本地能力,会话idnull
               if (SpeechEvent.EVENT_SESSION_ID == eventType) {
                  String sid = obj.getString(SpeechEvent.KEY_EVENT_SESSION_ID);
                  Log.d(TAG, "session id =" + sid);
               }
        }
    };
    @Override
    protected void onDestroy() {
        super.onDestroy();
        // 退出时释放连接
        mIat.cancel();
        mIat.destroy();
    }
    @Override
    public void onClick(View v) {
        switch (v.getId()) {
            case R.id.iat_genral:
                //3.开始听写
                mResultText.setText(null);// 清空显示内容
                mIatResults.clear();
                // 设置参数
                setParam();
                mIat.startListening(mRecognizerListener);
                break;
        }
    }
    @Override
    public void onCheckedChanged(CompoundButton buttonView, boolean isChecked) {
        switch (buttonView.getId()) {
            case R.id.Switch_Unceasing_IAT:
                if (isChecked) {
                    mIsRecognizer=true;
                    creatAudioRecord();
                    setParam();
                    mIat.setParameter(SpeechConstant.AUDIO_SOURCE, "-1");
                    mIat.startListening(mRecognizerListener);
                    new ThreadInstantPlay().start();
                }else{
                    mIsRecognizer=false;
                }
                break;
        }
    }
    private void showTip(final String str) {
        mToast.setText(str);
        mToast.show();
    }
    private void printResult(com.iflytek.cloud.RecognizerResult results) {
        String text = JsonParser.parseIatResult(results.getResultString());
        String sn = null;
        // 读取json结果中的sn字段
        try {
            JSONObject resultJson = new JSONObject(results.getResultString());
            sn = resultJson.optString("sn");
        } catch (JSONException e) {
            e.printStackTrace();
        }
        mIatResults.put(sn, text);
        StringBuffer resultBuffer = new StringBuffer();
        for (String key : mIatResults.keySet()) {
            resultBuffer.append(mIatResults.get(key));
        }
        mResultText.setText(resultBuffer.toString());
        mResultText.setSelection(mResultText.length());
    }
    public void setParam() {
        mIat.setParameter(SpeechConstant.PARAMS, null);
//2.设置听写参数,详见《科大讯飞MSC API手册(Android)SpeechConstant
        mIat.setParameter(SpeechConstant.DOMAIN, "iat");
        mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");
        mIat.setParameter(SpeechConstant.ACCENT, "mandarin ");
    }
    private void creatAudioRecord() {
        if(recBufSize==0||audioRecord==null)
        // 获得缓冲区字节大小
        recBufSize = AudioRecord.getMinBufferSize(16000,
                AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT);
        // 创建AudioRecord对象
        audioRecord = new AudioRecord(MediaRecorder.AudioSource.MIC,
                16000, AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT, recBufSize);
    }
    /**
     * 初始化监听器。
     */
    private InitListener mInitListener = new InitListener() {
        @Override
        public void onInit(int code) {
            Log.d(TAG, "SpeechRecognizer init() code = " + code);
            if (code != ErrorCode.SUCCESS) {
                showTip("初始化失败,错误码:" + code);
            }
        }
    };
    class ThreadInstantPlay extends Thread
    {
        @Override
        public void run()
        {
            byte[] bsBuffer = new byte[recBufSize];
            if(!(audioRecord.getRecordingState() == AudioRecord.RECORDSTATE_RECORDING)) {
                audioRecord.startRecording();
            }
            while(mIsRecognizer && !Thread.currentThread().isInterrupted())
            {
                int line = audioRecord.read(bsBuffer, 0, recBufSize);
                byte[] tmpBuf = new byte[line];
                System.arraycopy(bsBuffer, 0, tmpBuf, 0, line);
                mIat.writeAudio(tmpBuf, 0, tmpBuf.length);
            }
            mIat.stopListening();
            audioRecord.stop();
        }
    }
}

效果图:


源代码:https://github.com/flyloong/XF_Voice

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

热门文章