# split_wav_time.pyfrom pydub import AudiOSegmentfrom pydub.utils import make_chunksaudio = AudioSegment.from_file("his_one/1.wav", "wav")#size = 10000  #切割的毫秒数 10s=10000size = 60000  #切割的毫秒数 60s=60000chunks = make_chunks(audio, size)  #将文件切割为60s一个for i, chunk in enumerate(chunks):    chunk_name = "new-{0}.wav".fORMat(i)    print(chunk_name)    chunk.export(chunk_name, format="wav")

运行命令：

python split_wav_time.py

结果：

方法2：将一整段音频按语句停顿批量切成一个一个音频

数据格式：一个长几分多的音频

利用split_on_silence（sound，min_silence_len, silence_thresh, keep_silence=400）函数

第一个参数为待分割音频，第二个为多少秒“没声”代表沉默，第三个为分贝小于多少dBFS时代表沉默，第四个为为截出的每个音频添加多少ms无声

from pydub import AudioSegmentfrom pydub.silence import split_on_silence sound = AudioSegment.from_mp3("his_one/1.wav")loudness = sound.dBFS#print(loudness) chunks = split_on_silence(sound,    # must be silent for at least half a second,沉默半秒    min_silence_len=430,     # consider it silent if quieter than -16 dBFS    silence_thresh=-45,    keep_silence=400 )print('Len:', len(chunks)) # 放弃长度小于2秒的录音片段for i in list(range(len(chunks)))[::-1]:    if len(chunks[i]) <= 2000 or len(chunks[i]) >= 10000:        chunks.pop(i)print('取有效分段(大于2s小于10s)：', len(chunks)) '''for x in range(0,int(len(sound)/1000)):    print(x,sound[x*1000:(x+1)*1000].max_dBFS)''' for i, chunk in enumerate(chunks):    chunk.export("cutwav_{0}.wav".format(i), format="wav")    #print(i)

结果：

方法3：将一个文件夹内的几整段音频批量切成一个一个音频

3.1.数据格式：一个文件夹下的长几分多的音频（wav文件）按固定秒数切割

from pydub import AudioSegmentfrom pydub.utils import make_chunksimport os, re# # 循环目录下所有文件for each in os.listdir("/workspace/tts/PolyLangVITS/history"): #循环目录        filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名    print(each)    if each:        # filename[0] += '.wav'        # print(filename[0])        mp3 = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav") # 打开mp3文件#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #        size = 15000  # 切割的毫秒数 10s=10000        chunks = make_chunks(mp3, size)  # 将文件切割为15s一块        for i, chunk in enumerate(chunks):            chunk_name = "{}-{}.wav".format(each.split(".")[0],i)            print(chunk_name)            chunk.export('/workspace/tts/PolyLangVITS/preprodata/his_out/{}'.format(chunk_name), format="wav")

结果

3.2.数据格式：一个文件夹下的长几分多的音频（mp3文件）按固定秒数切割

from pydub import AudioSegmentfrom pydub.utils import make_chunksimport os, re# ## # 循环目录下所有文件for each in os.listdir("D:/纯音乐"): #循环目录        filename = re.findall(r"(.*?)\.mp3", each) # 取出.mp3后缀的文件名    print(each)    if each:        # filename[0] += '.wav'        # print(filename[0])        mp3 = AudioSegment.from_file('D:/纯音乐/{}'.format(each), "mp3") # 打开mp3文件#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #        size = 15000  # 切割的毫秒数 10s=10000        chunks = make_chunks(mp3, size)  # 将文件切割为15s一块        for i, chunk in enumerate(chunks):            chunk_name = "{}-{}.mp3".format(each.split(".")[0],i)            print(chunk_name)            chunk.export('D:/纯音乐分解/{}'.format(chunk_name), format="mp3")```

3.3.数据格式：一个文件夹下的长几分多的音频（wav文件）按语句停顿切割

# @ Elena# @ Date : 23.9.4import os, refrom pydub import AudioSegmentfrom pydub.silence import split_on_silence# # 循环目录下所有文件for each in os.listdir("/workspace/tts/PolyLangVITS/history"):     filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名    print(each)    if each:        sound = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav")        loudness = sound.dBFS    #print(loudness)     chunks = split_on_silence(sound,        # must be silent for at least half a second,沉默半秒        min_silence_len=430,            # consider it silent if quieter than -16 dBFS        silence_thresh=-45,        keep_silence=400        )    print('Len:', len(chunks))        # 放弃长度小于1秒的录音片段    for i in list(range(len(chunks)))[::-1]:        if len(chunks[i]) <= 1000 or len(chunks[i]) >= 10000:            chunks.pop(i)    print('Len (1s~10s wav file):', len(chunks))        '''    for x in range(0,int(len(sound)/1000)):        print(x,sound[x*1000:(x+1)*1000].max_dBFS)    '''        for i, chunk in enumerate(chunks):        chunk_name = "{}-{}.wav".format(each.split(".")[0],i)         chunk.export("/workspace/tts/PolyLangVITS/preprodata/his_out/{}".format(chunk_name), format="wav")        #print(i)

结果

使用 file 查询 wav

(WAV文件格式是Microsoft的RIFF规范的一个子集，用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成，分别为: RIFF WAVE Chunk，Format Chunk，Fact Chunk(可选)，Data Chunk。具体格式如下：)

扩展

将pcm文件批量处理成wav文件

import waveimport os filepath = "data/"  # 添加路径filename = os.listdir(filepath)  # 得到文件夹下的所有文件名称#f = wave.open(filepath + filename[1], 'rb')#print(filename)for i in range(len(filename)):    with open("data/"+failename[i], 'rb') as pcmfile:        pcmdata = pcmfile.read()    with wave.open("data/"+filename[i][:-3] + '.wav', 'wb') as wavfile:        wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))        wavfile.writeframes(pcmdata)

Linux下查询文件夹中文件数量的方法

使用ls命令和wc命令

使用ls命令的-l选项和管道操作符|结合wc命令来统计文件数量：

查询当前文件夹下带有“wav”的文件数量

ls -l | grep "wav" | wc -l

WAV格式文件详解

WAV文件格式是Microsoft的RIFF规范的一个子集，用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成，分别为: RIFF WAVE Chunk，Format Chunk，Fact Chunk(可选)，Data Chunk。具体格式如下：

音频文件参数简介
对于形如44100HZ 16bit stereo 或者 22050HZ 8bit mono参数描述的音频文件，其蕴含的文件参数包括：

采样率：声音信号在“模→数”转换过程中单位时间内采样的次数。
采样值（采样精度）：每一次采样周期内声音模拟信号的积分值。
同时，每个采样数据记录的是振幅, 而采样精度取决于储存空间的大小。
对于单声道（mono）文件，采样数据为8位的短整数，同时其采样精度有：

1 字节（8bit）只能记录 256 个数, 也就是只能将振幅划分成 256 个等级；
2 字节（16bit）可以细到 65536 个数, 即为 CD 标准；
4 字节（32bit）能把振幅细分到 4294967296 个等级, 实在是没必要了。
对于双声道立体声（stereo）文件，每次采样数据为一个16位的整数（int），且采样是双份的，也为单声道文件的两倍。采样数据中高八位(左声道)和低八位(右声道)分别代表两个声道。

由于wav格式文件本质上为音频文件，即可根据文件的大小、采样频率和采样大小估算文件的播放长度。
更多可查看Microsoft WAVE soundfile format (sapp.org)

来源地址：https://blog.csdn.net/weixin_44649780/article/details/132672659

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Speech | 语音处理，分割一段音频（python）

本文链接: https://www.lsjlt.com/news/433201.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341