广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python 识别录音并转为文字的实现
  • 698
分享到

Python 识别录音并转为文字的实现

2024-04-02 19:04:59 698人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录程式功能: 用 UI 界面,点击界面上的“开始识别”来录音(调用百度云语音接口),并自动将结果显示在界面的文本框中 Time: 2022/03/06 Au

程式功能: 用 UI 界面,点击界面上的“开始识别”来录音(调用百度云语音接口),并自动将结果显示在界面的文本框中

Time: 2022/03/06

Author: Xiaohong

功能:python 更改目录下 目录及文件的 顺序命名

项目的文件结构方式:
1. PyQt5 UI 文件:  My_Audio_Record_cloud.ui
2. PyQt5 UI 文件转换生成的 PY 文件:  My_Audio_Record_cloud_Ui.py
3. PyQt5 UI 文件对应的 Class 文件:  My_Audio_Record_cloud_class.py
4. 通用的消息显示 文件(在My_Audio_Record_cloud_class.py 中被调用):  FangMessage.py

 本例为实验室产品,不具备直接使用,支持的语音录入长度也较短

主程序界面如下:

主程序 My_Audio_Record_cloud_class.py:

# -*- coding: utf-8 -*-
'''
程式功能: 用 UI 界面,点击界面上的“开始识别”来录音,并自动将结果显示在界面的文本框中
Time: 2022/03/06
Author: Xiaohong
'''
import wave  # pip3 install  wave
import My_Audio_Record_cloud_Ui as my_audio_record_cloud
from pyaudio import PyAudio, paint16  # 直接用pip安装的pyaudio不支持3.7
 
# 若安装失败的话,下载对应的whl 文件  https://www.lfd.uci.edu/~Gohlke/Pythonlibs/#pyaudio
 
from PyQt5 import QtGui, QtCore, QtWidgets
 
from PyQt5.QtWidgets import (
    QApplication,
    QMainWindow,
    QDialog,
    QSplashScreen,
    QToolButton,
    QToolTip,
    QWidget,
    QMessageBox,
    QAction,
    QFileDialog,
)
 
# from PyQt5.QtWidgets import (
#     QApplication,
#     QWidget,
# )
 
import sys, os, JSON, pycurl, urllib
import urllib.request
from FangMessage import FangMessage
 
 
class Audio_record_cloud_class(QMainWindow, my_audio_record_cloud.Ui_MainWindow):
    def __init__(self, parent=None):
        super().__init__()
        self.child = my_audio_record_cloud.Ui_MainWindow()
        self.child.setupUi(self)
        self.file_name = ""
        self.child.pushButton.clicked.connect(self.my_start)
        # self.child.pb_play.clicked.connect(self.play_audio)
        # 录音文件参数
        self.framerate = 8000
        self.NUM_SAMPLES = 2000
        self.channels = 1
        self.sampwidth = 2
        # 录音时长参数
        self.TIME = 5
        # 播放文件参数
        self.chunk = 1024
 
    # 设置默认的录音文件名
    # 当前目录+test+当前的时间ID+'.wav'
    def init_file_name(self):
        file_path = os.getcwd()
        file_name = 'test' + self.get_timeseq() + '.wav'
        file_wav = os.path.join(file_path, file_name)
        self.file_name = file_wav
        # self.child.lineEdit.setText(self.file_name)
        # print(file_wav)
        return file_wav
 
    # 获取当前的时间ID
    def get_timeseq(self):
        import time
 
        now = time.strftime('%Y-%m-%d-%H-%M-%S', time.localtime(time.time()))
        return now
 
    # 开始录音
    def Start_record(self):
        self.init_file_name()
        pa = PyAudio()
        stream = pa.open(
            fORMat=paInt16,
            channels=1,
            rate=self.framerate,
            input=True,
            frames_per_buffer=self.NUM_SAMPLES,
        )
        my_buf = []
        count = 0
        while count <= self.TIME * 4:
            string_audio_data = stream.read(self.NUM_SAMPLES)
            my_buf.append(string_audio_data)
            count += 1
            print("..")
 
        # print('begin:')
        # print(my_buf)
        self.save_wave_file(self.file_name, my_buf)
        stream.close()
        FangMessage1 = FangMessage()
        FangMessage1.runY('完成', '已完成录音', 'OK')
 
    # 保存声音文件
    def save_wave_file(self, filename, data):
        wf = wave.open(filename, 'wb')
        wf.setnchannels(self.channels)
        wf.setsampwidth(self.sampwidth)
        wf.setframerate(self.framerate)
        for i in data:
            wf.writeframes(i)
        wf.close()
 
    # 获取 百度返回结果,并 Print
    def dump_res(self, buf):
        print(buf)
        my_temp = json.loads(buf)
        my_list = my_temp['result']
        self.child.textBrowser.setText(my_list[0])
        print(my_list[0])
 
    # 访问 百度云语音 网站,根据自己申请的应用Key 获取本次访问的 Token
    def get_token(self):
        apiKey = "XXXXXXXXXXXXXXXXXXXXXXX"
        secreTKEy = "YYYYYYYYYYYYYYYYYYYYYYYYY"
 
        auth_url = (
            "Https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id="
            + apiKey
            + "&client_secret="
            + secretKey
        )
 
        # print(auth_url)
 
        res = urllib.request.urlopen(auth_url)
        json_data = res.read()
        # print(json_data)
        # print('.....')
        # print(json.loads(json_data))
        return json.loads(json_data)['access_token']
 
    # 访问 百度云语音 网站,根据 Token,上传 wav 文件
    def use_cloud(self, token):
        fp = wave.open(self.file_name, 'rb')
        nf = fp.getnframes()
        print('sampwidth:', fp.getsampwidth())
        print('framerate:', fp.getframerate())
        print('channels:', fp.getnchannels())
        f_len = nf * 2
        audio_data = fp.readframes(nf)
 
        cuid = "4d36e972-e325-11ce-bfc1-08002be10318"
        print('token:')
        print(token)
        srv_url = (
            'http://vop.baidu.com/server_api' + '?cuid=' + cuid + '&token=' + token
        )
        http_header = ['Content-Type:audio/pcm;rate=8000', 'Content-Length:%d' % f_len]
        c = pycurl.Curl()
        c.setopt(pycurl.URL, str(srv_url))
        c.setopt(c.HTTPHEADER, http_header)
        c.setopt(c.POST, 1)
        c.setopt(c.CONNECTTIMEOUT, 80)
        c.setopt(c.TIMEOUT, 80)
        c.setopt(c.WRITEFUNCTION, self.dump_res)
        c.setopt(c.POSTFIELDS, audio_data)
        c.setopt(c.POSTFIELDSIZE, f_len)
        c.perform()
 
    def my_start(self):
        print('OK')
        self.Start_record()
        self.use_cloud(self.get_token())
 
 
if __name__ == "__main__":
    app = QApplication(sys.argv)
    myWin = Audio_record_cloud_class()
    myWin.show()
    sys.exit(app.exec_())

Ui 转化py文件如下:My_Audio_Record_cloud_Ui.py

# -*- coding: utf-8 -*-
 
# Form implementation generated from reading ui file 'd:\vscode_2020\My_Audio\My_Audio\My_Audio_Record_cloud.ui'
#
# Created by: PyQt5 UI code generator 5.15.0
#
# WARNING: Any manual changes made to this file will be lost when pyuic5 is
# run again.  Do not edit this file unless you know what you are doing.
 
 
from PyQt5 import QtCore, QtGui, QtWidgets
 
 
class Ui_MainWindow(object):
    def setupUi(self, MainWindow):
        MainWindow.setObjectName("MainWindow")
        MainWindow.resize(558, 525)
        self.centralwidget = QtWidgets.QWidget(MainWindow)
        self.centralwidget.setObjectName("centralwidget")
        self.textBrowser = QtWidgets.QTextBrowser(self.centralwidget)
        self.textBrowser.setGeometry(QtCore.QRect(30, 50, 501, 351))
        self.textBrowser.setObjectName("textBrowser")
        self.pushButton = QtWidgets.QPushButton(self.centralwidget)
        self.pushButton.setGeometry(QtCore.QRect(40, 420, 75, 23))
        self.pushButton.setObjectName("pushButton")
        self.label = QtWidgets.QLabel(self.centralwidget)
        self.label.setGeometry(QtCore.QRect(40, 460, 491, 16))
        self.label.setObjectName("label")
        self.label_2 = QtWidgets.QLabel(self.centralwidget)
        self.label_2.setGeometry(QtCore.QRect(30, 30, 161, 16))
        self.label_2.setObjectName("label_2")
        self.label_3 = QtWidgets.QLabel(self.centralwidget)
        self.label_3.setGeometry(QtCore.QRect(180, 10, 111, 31))
        font = QtGui.QFont()
        font.setFamily("Agency FB")
        font.setPointSize(18)
        font.setBold(True)
        font.setWeight(75)
        self.label_3.setFont(font)
        self.label_3.setObjectName("label_3")
        self.label_4 = QtWidgets.QLabel(self.centralwidget)
        self.label_4.setGeometry(QtCore.QRect(480, 20, 54, 12))
        self.label_4.setObjectName("label_4")
        self.pushButton_2 = QtWidgets.QPushButton(self.centralwidget)
        self.pushButton_2.setGeometry(QtCore.QRect(450, 420, 75, 23))
        self.pushButton_2.setObjectName("pushButton_2")
        MainWindow.setCentralWidget(self.centralwidget)
        self.menubar = QtWidgets.QMenuBar(MainWindow)
        self.menubar.setGeometry(QtCore.QRect(0, 0, 558, 23))
        self.menubar.setObjectName("menubar")
        MainWindow.setMenuBar(self.menubar)
        self.statusbar = QtWidgets.QStatusBar(MainWindow)
        self.statusbar.setObjectName("statusbar")
        MainWindow.setStatusBar(self.statusbar)
 
        self.retranslateUi(MainWindow)
        self.pushButton_2.clicked.connect(MainWindow.close)
        QtCore.QMetaObject.connectSlotsByName(MainWindow)
 
    def retranslateUi(self, MainWindow):
        _translate = QtCore.QCoreApplication.translate
        MainWindow.setWindowTitle(_translate("MainWindow", "MainWindow"))
        self.pushButton.setText(_translate("MainWindow", "开始识别"))
        self.label.setText(_translate("MainWindow", "说明:点击“开始识别”按钮来录音,并通过百度语音的功能,自动将结果显示在文本框中"))
        self.label_2.setText(_translate("MainWindow", "语音识别的结果:"))
        self.label_3.setText(_translate("MainWindow", "语音识别"))
        self.label_4.setText(_translate("MainWindow", "v20220306"))
        self.pushButton_2.setText(_translate("MainWindow", "结束"))

到此这篇关于Python 识别录音并转为文字的实现的文章就介绍到这了,更多相关Python 识别录音转为文字内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python 识别录音并转为文字的实现

本文链接: https://www.lsjlt.com/news/141653.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python 识别录音并转为文字的实现
    目录程式功能: 用 UI 界面,点击界面上的“开始识别”来录音(调用百度云语音接口),并自动将结果显示在界面的文本框中 Time: 2022/03/06 Au...
    99+
    2022-11-13
  • 基于Python实现语音识别和语音转文字
    目录前言直接使用获取权限1.环境准备2.获取权限代码实现1.获取access_token2.获取转换后音频3.配置接口参数4.完整demo5.执行前言 嗨嗨,大家好呀 ~ 今天给你们...
    99+
    2022-11-11
  • Python语音识别API实现文字转语音的几种方法
    搜狗(目前好用,免费) def textToAudio_Sougou(message, filePath): # https://ai.so gou.c...
    99+
    2022-11-13
  • Python实现批量识别图片文字并存为Excel
    目录一、背景二、需求三、实战1.安装模块2.识别一张图片3.批量识别图片4.保存数据一、背景 大家好,我是J哥。 也许你还记得,前不久复旦大学一博士生写了130行Python代码,批...
    99+
    2022-11-11
  • android实现汉字转拼音功能 带多音字识别
    android 汉字转拼音带多音字识别功能,供大家参考,具体内容如下 问题来源 在做地名按首字母排序的时候出现了这样一个bug。长沙会被翻译拼音成zhangsha,重庆会被...
    99+
    2022-06-06
    转拼音 Android
  • Python如何实现批量识别图片文字并存为Excel
    今天小编给大家分享一下Python如何实现批量识别图片文字并存为Excel的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一、...
    99+
    2023-07-02
  • Python实现识别文字中的省市区并绘图
    目录1.准备2.基本使用3.高级使用在做NLP(自然语言处理)相关任务时,经常会遇到需要识别并提取省、城市、行政区的需求。虽然我们自己通过关键词表一个个查找也能实现提取目的,但是需要...
    99+
    2022-11-11
  • Python实现识别图片为文字的示例代码
    目录1、环境准备2、业务实现3、效果展示本来想着做一个将图片识别为文字的小功能,本想到Google上面第一页全是各种收费平台的广告。 这些平台提供的基本都是让我们通过调用相关的三方接...
    99+
    2022-11-11
  • Python实现PDF文字识别提取并写入CSV文件
    目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件,并识别内容3.4对识别的数据进行处理,写入csv文件总结1. 前言 扫...
    99+
    2022-11-13
  • Python详解文字转语音的实现
    前言: 这是一篇简单的Python文字(汉字)转语音教程,当然对于其他语言工具在实现的方法上也是一样的 。 汉字转语音实现就分为两步,第一步将汉字转为拼音,第二步通过拼音调用相匹配的...
    99+
    2022-11-13
  • Python中怎么实现文字识别
    这期内容当中小编将会给大家带来有关Python中怎么实现文字识别,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。环境和配置要求整体是用Python实现,所需要使用的第三方库包括aip、PIL、keyboar...
    99+
    2023-06-16
  • Python实现自动识别并批量转换文本文件编码
    目录代码用法如题,很简单,就是先用chardet 库识别文件编码,解码之后再输出成目标编码。算是个偶尔能用上的小工具,要用的时候万一没有就很难受的那种,比如,网上下载了别人的项目文件...
    99+
    2023-03-20
    Python转换文本文件编码 Python转换文件编码 Python 转换文本
  • Python怎么实现识别文字中的省市区并绘图
    这篇文章主要介绍“Python怎么实现识别文字中的省市区并绘图”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python怎么实现识别文字中的省市区并绘图”文章能帮助大家解决问题。1.准备开始之前,你...
    99+
    2023-07-02
  • Python如何进行语音识别,语音转换功能实现
    Python如何进行语音识别,语音转换功能实现,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。相信大家都非常喜欢那些萝莉音,看那些女装大佬,开一个变声器声音实在是很有诱惑力,下面...
    99+
    2023-06-02
  • uniapp调用百度语音实现录音转文字功能
    经历三天时间各种遇到困难 之后终于实现了这个功能,参照网上了许多文章 才找到一个能正常实现的方法,网上能找到的例子都不起作用,相信很多人困惑在这,为了避免别人出现这种情况,我分享我的...
    99+
    2022-11-12
  • Python 图片文字识别的实现之PaddleOCR
    目录项目使用项目结构环境部署1、安装Anaconda,构造虚拟环境2、依赖包下载测试代码参数补充总结前言 什么是OCR? 光学字符识别(Optical Character R...
    99+
    2022-11-12
  • 通过Python的speech_recognition库将声音转为文字
    文章目录 前言一、PortAudio1.PortAudio是什么?2.安装PortAudio 二、使用方法1.引入库2.创建一个Recognizer对象3.使用麦克风录音,从麦克风录制音频...
    99+
    2023-09-05
    语音识别 人工智能
  • Python怎么实现截图识别文字
    这篇文章主要讲解了“Python怎么实现截图识别文字”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python怎么实现截图识别文字”吧!前言系统:win10Python版本:python3....
    99+
    2023-06-21
  • Python如何实现图片文字识别
    这篇文章主要为大家展示了“Python如何实现图片文字识别”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python如何实现图片文字识别”这篇文章吧。前言什么是OCR光学字符识别(Optical...
    99+
    2023-06-25
  • Python实战之实现截图识别文字
    目录前言一、获取百度智能云token二、百度借口调用三、搭建窗口化的程序以便于使用四、实现截图的自动保存五、将识别到的文字输出显示在窗口文本框中并将文字发送到剪切板六、提取识别后文字...
    99+
    2022-11-12
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作