Java离线中文语音文字识别功能怎么实现

2023-07-02 16:07:18 882人浏览泡泡鱼

摘要

这篇文章主要讲解了“Java离线中文语音文字识别功能怎么实现”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Java离线中文语音文字识别功能怎么实现”吧！1、pom文件如下：<?xml&

这篇文章主要讲解了“Java离线中文语音文字识别功能怎么实现”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Java离线中文语音文字识别功能怎么实现”吧！

1、pom文件如下：

<?xml version="1.0" encoding="UTF-8"?><project xmlns="Http://Maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">    <modelVersion>4.0.0</modelVersion>    <parent>        <groupId>org.springframework.boot</groupId>        <artifactId>spring-boot-starter-parent</artifactId>        <version>2.5.4</version>        <relativePath/> <!-- lookup parent from repository -->    </parent>    <groupId>com.example</groupId>    <artifactId>voice</artifactId>    <version>0.0.1-SNAPSHOT</version>    <name>voice-ai</name>    <description>Demo project for Spring Boot</description>    <properties>        <java.version>1.8</java.version>    </properties>    <repositories>        <repository>            <id>com.alphacephei</id>            <name>vosk</name>            <url>https://alphacephei.com/maven/</url>        </repository>    </repositories>    <dependencies>        <dependency>            <groupId>org.springframework.boot</groupId>            <artifactId>spring-boot-starter-WEB</artifactId>        </dependency>        <dependency>            <groupId>org.springframework.boot</groupId>            <artifactId>spring-boot-starter-test</artifactId>            <scope>test</scope>        </dependency>        <dependency>            <groupId>net.java.dev.jna</groupId>            <artifactId>jna</artifactId>            <version>5.7.0</version>        </dependency>        <dependency>            <groupId>com.alphacephei</groupId>            <artifactId>vosk</artifactId>            <version>0.3.30</version>        </dependency>        <dependency>            <groupId>org.projectlombok</groupId>            <artifactId>lombok</artifactId>            <optional>true</optional>        </dependency>        <dependency>            <groupId>com.alibaba</groupId>            <artifactId>fastJSON</artifactId>            <version>1.2.8</version>        </dependency>    </dependencies>    <build>        <plugins>            <plugin>                <groupId>org.springframework.boot</groupId>                <artifactId>spring-boot-maven-plugin</artifactId>            </plugin>        </plugins>    </build></project>

特别说明一下，vosk的包在常见的maven仓库里面是没有的，所以需要指定下载地址。

2、工程结构：

Java离线中文语音文字识别功能怎么实现

3、语音识别工具类

public class VoiceUtil {    @Value("${leenleda.vosk.model}")    private String VOSKMODELPATH;    public String getWord(String filePath) throws IOException, UnsupportedAudioFileException {        Assert.isTrue(StringUtils.hasLength(VOSKMODELPATH), "无效的VOS模块！");        byte[] bytes = Files.readAllBytes(Paths.get(filePath));        // 转换为16KHZ        reSamplingAndSave(bytes, filePath);        File f = new File(filePath);        RandoMaccessFile rdf = null;        rdf = new RandomAccessFile(f, "r");        log.info("声音尺寸:{}", toInt(read(rdf, 4, 4)));        log.info("音频格式:{}", toShort(read(rdf, 20, 2)));        short track=toShort(read(rdf, 22, 2));        log.info("1 单声道 2 双声道: {}", track);        log.info("采样率、音频采样级别 16000 = 16KHz: {}", toInt(read(rdf, 24, 4)));        log.info("每秒波形的数据量：{}", toShort(read(rdf, 22, 2)));        log.info("采样帧的大小：{}", toShort(read(rdf, 32, 2)));        log.info("采样位数：{}", toShort(read(rdf, 34, 2)));        rdf.close();        LibVosk.setLogLevel(LogLevel.WARNINGS);        try (Model model = new Model(VOSKMODELPATH);             InputStream ais = AudiOSystem.getAudioInputStream(new BufferedInputStream(new FileInputStream(filePath)));             // 采样率为音频采样率的声道倍数             Recognizer recognizer = new Recognizer(model, 16000*track)) {            int nbytes;            byte[] b = new byte[4096];            int i = 0;            while ((nbytes = ais.read(b)) >= 0) {                i += 1;                if (recognizer.acceptWaveFORM(b, nbytes)) {//                    System.out.println(recognizer.getResult());                } else {//                    System.out.println(recognizer.getPartialResult());                }            }            String result = recognizer.getFinalResult();            log.info("识别结果：{}", result);            if (StringUtils.hasLength(result)) {                jsONObject jsonObject = JSON.parseObject(result);                return jsonObject.getString("text").replace(" ", "");            }            return "";        }    }    public static int toInt(byte[] b) {        return (((b[3] & 0xff) << 24) + ((b[2] & 0xff) << 16) + ((b[1] & 0xff) << 8) + ((b[0] & 0xff) << 0));    }    public static short toShort(byte[] b) {        return (short) ((b[1] << 8) + (b[0] << 0));    }    public static byte[] read(RandomAccessFile rdf, int pos, int length) throws IOException {        rdf.seek(pos);        byte result[] = new byte[length];        for (int i = 0; i < length; i++) {            result[i] = rdf.readByte();        }        return result;    }    public static void reSamplingAndSave(byte[] data, String path) throws IOException, UnsupportedAudioFileException {        WaveFileReader reader = new WaveFileReader();        AudioInputStream audioIn = reader.getAudioInputStream(new ByteArrayInputStream(data));        AudioFormat srcFormat = audioIn.getFormat();        int targetSampleRate = 16000;        AudioFormat dstFormat = new AudioFormat(srcFormat.getEncoding(),                targetSampleRate,                srcFormat.getSampleSizeInBits(),                srcFormat.getChannels(),                srcFormat.getFrameSize(),                srcFormat.getFrameRate(),                srcFormat.isBigEndian());        AudioInputStream convertedIn = AudioSystem.getAudioInputStream(dstFormat, audioIn);        File file = new File(path);        WaveFileWriter writer = new WaveFileWriter();        writer.write(convertedIn, AudioFileFormat.Type.WAVE, file);    }}

有几点需要说明一下，官方demo里面对采集率是写死了的，为16000。这是以16KHz来算的，所以我把所有拿到的音频都转成了16KHz。还有采集率的设置，需要设置为声道数的倍数。

4、前端交互

@RestControllerpublic class VoiceAiController {    @Autowired    VoiceUtil voiceUtil;    @PostMapping("/getWord")    public String getWord(MultipartFile file) {        String path = "G:\\leenleda\\application\\voice-ai\\" + new Date().getTime() + ".wav";        File localFile = new File(path);        try {            file.transferTo(localFile); //把上传的文件保存至本地            System.out.println(file.getOriginalFilename() + " 上传成功");            // 上传成功，开始解析            String text = voiceUtil.getWord(path);            localFile.delete();            return text;        } catch (IOException | UnsupportedAudioFileException e) {            e.printStackTrace();            localFile.delete();            return "上传失败";        }    }}

5、前端页面

<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml"><head>    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />    <title>声音转换</title></head><body>    <div>        <audio controls autoplay></audio>        <input id="start" type="button" value="录音" />        <input id="stop" type="button" value="停止" />        <input id="play" type="button" value="播放" />        <input id="upload" type="button" value="提交" />        <div id="text">        </div>    </div>    <script src="http://libs.baidu.com/Jquery/2.1.4/jquery.min.js"></script>    <script type="text/javascript" src="HZRecorder.js"></script>    <script>        var recorder;        var audio = document.querySelector('audio');        $("#start").click(function () {            HZRecorder.get(function (rec) {                recorder = rec;                recorder.start();            });        })        $("#stop").click(function () {            recorder.stop();        })        $("#play").click(function () {            recorder.play(audio);        })        $("#upload").click(function () {            recorder.upload("/admin/getWord", function (state, e) {                switch (state) {                    case 'uploading':                        //var percentComplete = Math.round(e.loaded * 100 / e.total) + '%';                        break;                    case 'ok':                        //alert(e.target.responseText);                        // alert("上传成功");                        break;                    case 'error':                        alert("上传失败");                        break;                    case 'cancel':                        alert("上传被取消");                        break;                }            });        })    </script></body></html>

(function (window) {    //兼容    window.URL = window.URL || window.webkitURL;    navigator.getUserMedia = navigator.getUserMedia || navigator.webkitGetUserMedia || navigator.mozGetUserMedia || navigator.msGetUserMedia;    var HZRecorder = function (stream, config) {        config = config || {};        config.sampleBits = 16;      //采样数位 8, 16        config.sampleRate = 16000;   //采样率(1/6 44100)        var context = new Audiocontext();        var audioInput = context.createMediaStreamSource(stream);        var recorder = context.createScriptProcessor(4096, 1, 1);        var audioData = {            size: 0          //录音文件长度            , buffer: []     //录音缓存            , inputSampleRate: context.sampleRate    //输入采样率            , inputSampleBits: 16       //输入采样数位 8, 16            , outputSampleRate: config.sampleRate    //输出采样率            , oututSampleBits: config.sampleBits       //输出采样数位 8, 16            , input: function (data) {                this.buffer.push(new Float32Array(data));                this.size += data.length;            }            , compress: function () { //合并压缩                //合并                var data = new Float32Array(this.size);                var offset = 0;                for (var i = 0; i < this.buffer.length; i++) {                    data.set(this.buffer[i], offset);                    offset += this.buffer[i].length;                }                //压缩                var compression = parseInt(this.inputSampleRate / this.outputSampleRate);                var length = data.length / compression;                var result = new Float32Array(length);                var index = 0, j = 0;                while (index < length) {                    result[index] = data[j];                    j += compression;                    index++;                }                return result;            }            , encodeWAV: function () {                var sampleRate = Math.min(this.inputSampleRate, this.outputSampleRate);                var sampleBits = Math.min(this.inputSampleBits, this.oututSampleBits);                var bytes = this.compress();                var dataLength = bytes.length * (sampleBits / 8);                var buffer = new ArrayBuffer(44 + dataLength);                var data = new DataView(buffer);                var channelCount = 1;//单声道                var offset = 0;                var writeString = function (str) {                    for (var i = 0; i < str.length; i++) {                        data.setUint8(offset + i, str.charCodeAt(i));                    }                }                // 资源交换文件标识符                 writeString('RIFF'); offset += 4;                // 下个地址开始到文件尾总字节数,即文件大小-8                 data.setUint32(offset, 36 + dataLength, true); offset += 4;                // WAV文件标志                writeString('WAVE'); offset += 4;                // 波形格式标志                 writeString('fmt '); offset += 4;                // 过滤字节,一般为 0x10 = 16                 data.setUint32(offset, 16, true); offset += 4;                // 格式类别 (PCM形式采样数据)                 data.setUint16(offset, 1, true); offset += 2;                // 通道数                 data.setUint16(offset, channelCount, true); offset += 2;                // 采样率,每秒样本数,表示每个通道的播放速度                 data.setUint32(offset, sampleRate, true); offset += 4;                // 波形数据传输率 (每秒平均字节数) 单声道×每秒数据位数×每样本数据位/8                 data.setUint32(offset, channelCount * sampleRate * (sampleBits / 8), true); offset += 4;                // 快数据调整数 采样一次占用字节数 单声道×每样本的数据位数/8                 data.setUint16(offset, channelCount * (sampleBits / 8), true); offset += 2;                // 每样本数据位数                 data.setUint16(offset, sampleBits, true); offset += 2;                // 数据标识符                 writeString('data'); offset += 4;                // 采样数据总数,即数据总大小-44                 data.setUint32(offset, dataLength, true); offset += 4;                // 写入采样数据                 if (sampleBits === 8) {                    for (var i = 0; i < bytes.length; i++, offset++) {                        var s = Math.max(-1, Math.min(1, bytes[i]));                        var val = s < 0 ? s * 0x8000 : s * 0x7FFF;                        val = parseInt(255 / (65535 / (val + 32768)));                        data.setInt8(offset, val, true);                    }                } else {                    for (var i = 0; i < bytes.length; i++, offset += 2) {                        var s = Math.max(-1, Math.min(1, bytes[i]));                        data.setInt16(offset, s < 0 ? s * 0x8000 : s * 0x7FFF, true);                    }                }                return new Blob([data], { type: 'audio/wav' });            }        };        //开始录音        this.start = function () {            audioInput.connect(recorder);            recorder.connect(context.destination);        }        //停止        this.stop = function () {            recorder.disconnect();        }        //获取音频文件        this.getBlob = function () {            this.stop();            return audioData.encodeWAV();        }        //回放        this.play = function (audio) {            audio.src = window.URL.createObjectURL(this.getBlob());        }        //上传        this.upload = function (url, callback) {            var fd = new FormData();            fd.append("file", this.getBlob());            var xhr = new XMLHttpRequest();            if (callback) {                xhr.upload.addEventListener("progress", function (e) {                    callback('uploading', e);                }, false);                xhr.addEventListener("load", function (e) {                    callback('ok', e);                }, false);                xhr.addEventListener("error", function (e) {                    callback('error', e);                }, false);                xhr.addEventListener("abort", function (e) {                    callback('cancel', e);                }, false);            }            xhr.open("POST", url);            xhr.send(fd);            xhr.onreadystatechange = function () {                console.log("语音识别结果："+xhr.responseText)                $("#text").append('<h3>'+xhr.responseText+'</h3>');            }        }        //音频采集        recorder.onaudioprocess = function (e) {            audioData.input(e.inputBuffer.getChannelData(0));            //record(e.inputBuffer.getChannelData(0));        }    };    //抛出异常    HZRecorder.throwError = function (message) {        alert(message);        throw new function () { this.toString = function () { return message; } }    }    //是否支持录音    HZRecorder.canRecording = (navigator.getUserMedia != null);    //获取录音机    HZRecorder.get = function (callback, config) {        if (callback) {            if (navigator.getUserMedia) {                navigator.getUserMedia(                    { audio: true } //只启用音频                    , function (stream) {                        var rec = new HZRecorder(stream, config);                        callback(rec);                    }                    , function (error) {                        switch (error.code || error.name) {                            case 'PERMISSION_DENIED':                            case 'PermissionDeniedError':                                HZRecorder.throwError('用户拒绝提供信息。');                                break;                            case 'NOT_SUPPORTED_ERROR':                            case 'NotSupportedError':                                HZRecorder.throwError('浏览器不支持硬件设备。');                                break;                            case 'MANDATORY_UNSATISFIED_ERROR':                            case 'MandatoryUnsatisfiedError':                                HZRecorder.throwError('无法发现指定的硬件设备。');                                break;                            default:                                HZRecorder.throwError('无法打开麦克风。异常信息:' + (error.code || error.name));                                break;                        }                    });            } else {                HZRecorder.throwErr('当前浏览器不支持录音功能。'); return;            }        }    }    window.HZRecorder = HZRecorder;})(window);

6、运行效果

Java离线中文语音文字识别功能怎么实现

感谢各位的阅读，以上就是“Java离线中文语音文字识别功能怎么实现”的内容了，经过本文的学习后，相信大家对Java离线中文语音文字识别功能怎么实现这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是编程网，小编将为大家推送更多相关知识点的文章，欢迎关注！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Java离线中文语音文字识别功能怎么实现

本文链接: https://www.lsjlt.com/news/342922.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Java离线中文语音文字识别功能怎么实现

这篇文章主要讲解了“Java离线中文语音文字识别功能怎么实现”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Java离线中文语音文字识别功能怎么实现”吧！1、pom文件如下：<xml&n...

99+

2023-07-02
Java 离线中文语音文字识别功能的实现代码

目录1、pom文件如下：2、工程结构：3、语音识别工具类4、前端交互5、前端页面6、运行效果项目需要，要实现类似小爱同学的语音控制功能，并且要离线，不能花公司一分钱。第一步就是需要把...

99+

2024-04-02
android语音识别功能怎么实现

要实现Android平台的语音识别功能，可以使用Android提供的语音识别API，具体步骤如下：在AndroidManife...

99+

2023-10-22

android
Unity怎么实现OCR文字识别功能

今天就跟大家聊聊有关Unity怎么实现OCR文字识别功能，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。首先登陆百度开发者中心，搜索文字识别服务：创建一个应用，获取AppID、APIK...

99+

2023-06-22
基于Python实现语音识别和语音转文字

目录前言直接使用获取权限1.环境准备2.获取权限代码实现1.获取access_token2.获取转换后音频3.配置接口参数4.完整demo5.执行前言嗨嗨，大家好呀 ~ 今天给你们...

99+

2024-04-02
C#实现文字转语音功能

本文实例为大家分享了C#实现文字转语音的具体代码，供大家参考，具体内容如下客户提出要求，将文字内容转为语音，因为内网环境，没办法采用联网，在线这种方式，灵机一动，能否写一个简单的例...

99+

2024-04-02
Unity实现OCR文字识别功能

首先登陆百度开发者中心，搜索文字识别服务：创建一个应用，获取AppID、APIKey、SecretKey秘钥信息：下载C# SDK，将AipSdk.dll动态库导入Unit...

99+

2024-04-02
C#OCR实现文字识别功能

目录简介效果预览核心库概述问题源码界面布局后台逻辑简介 OCR英文全称是Optical Character Recognition，中文叫做光学字符识别。它是利用光学技术和计算机技术...

99+

2022-11-21

C# OCR文字识别 C# 文字识别 C# OCR
Java中怎么通过调用jna实现语音识别功能

Java中怎么通过调用jna实现语音识别功能，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。JNAjava调用.dll获取.so一般通过JNI，但是JNI的使用比较复杂，需要用C...

99+

2023-06-17
基于C#怎么实现语音识别功能

今天小编给大家分享一下基于C#怎么实现语音识别功能的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。在.NET4.0中，我可以借...

99+

2023-06-30
怎么用Python代码实现文字识别功能

今天小编给大家分享一下怎么用Python代码实现文字识别功能的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。1.环境和配置要求...

99+

2023-06-30
Android中怎么实现一个图片文字识别功能

Android中怎么实现一个图片文字识别功能，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。添加依赖implementation 'com.rmtheis:...

99+

2023-06-20
Unity如何实现语音识别功能

小编给大家分享一下Unity如何实现语音识别功能，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！现在语音识别已经被广泛的应用到各个领域中，在Unity开发中，语音识...

99+

2023-06-15
Python3.7 + Yolo3怎么实现识别语音播报功能

这篇文章将为大家详细讲解有关Python3.7 + Yolo3怎么实现识别语音播报功能，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。一、利用Python调用系统win10...

99+

2023-06-22
详解Unity 实现语音识别功能

现在语音识别已经被广泛的应用到各个领域中，在Unity开发中，语音识别也非常受欢迎。大部分人都会选择科大讯飞的语音识别功能，但是在一些小的项目中，使用科大讯飞的就有点大材小用了。今天...

99+

2024-04-02
Linux下怎么用python实现语音识别功能

这篇文章主要介绍“Linux下怎么用python实现语音识别功能”，在日常操作中，相信很多人在Linux下怎么用python实现语音识别功能问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Linux下怎么用py...

99+

2023-07-05
Python语音识别API实现文字转语音的几种方法

搜狗（目前好用，免费） def textToAudio_Sougou(message, filePath): # https://ai.so gou.c...

99+

2024-04-02
详解Androidstudio实现语音转文字功能

目录一、在科大讯飞的官网上注册并下载SDK二、配置安卓项目三、运行效果展示一、在科大讯飞的官网上注册并下载SDK 1.首先去讯飞开放平台申请一个账号（https://www.xfyu...

99+

2024-04-02
vue实现文字转语音功能详解

目前h5新增一个文字转语音的功能(但是正在完善中,勉强能用),h5新增的SpeechSynthesisUtterance实例首先new一个SpeechSynthesisUttera...

99+

2024-04-02
C#如何实现文字转语音功能

本文小编为大家详细介绍“C#如何实现文字转语音功能”，内容详细，步骤清晰，细节处理妥当，希望这篇“C#如何实现文字转语音功能”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。效果图关键是，c#有现成的一个引用右键点击...

99+

2023-06-29