網站首頁 編程語言 正文
RIFF file format
RIFF全稱為資源互換文件格式(Resources Interchange File Format),是Windows下大部分多媒體文件遵循的一種文件結構。RIFF文件所包含的數據類型由該文件的擴展名來標識,能以RIFF格式存儲的數據有:
- 音頻視頻交錯格式數據 .AVI
- 波形格式數據 .WAV
- 位圖數據格式 .RDI
- MIDI格式數據 .RMI
- 調色板格式 .PAL
- 多媒體電影 .RMN
- 動畫光標 .ANI
- 其他的RIFF文件 .BND
CHUNK
chunk
是RIFF文件的基本單元,其基本結構如下:
struct chunk { uint32_t id; // 塊標志 uint32_t size; // 塊大小 uint8_t data[size]; // 塊數據 };
- id 4字節,用以標識塊中所包含的數據。如:RIFF,LIST,fmt,data,WAV,AVI等,由于這種文件結構 最初是由Microsoft和IBM為PC機所定義,RIFF文件是按照小端 little-endian字節順序寫入的。
- size 塊大小 存儲在data域中的數據長度,不包含id和size的大小
- data 包含數據,數據以字為單位存放,如果數據長度為奇數(字節為單位),則最后添加一個空字節。
chunk
是可以嵌套的,但是只有塊標志為RIFF或者LIST的chunk才能包含其他的chunk。
RIFF chunk
標志為RIFF的chunk是比較特殊的,每一個RIFF文件首先存放的必須是一個RIFF chunk,并且只能有這一個標志為RIFF的chunk。RIFF的數據域的起始位置是一個4字節碼(FOURCC),用于標識其數據域中chunk的數據類型;緊接著數據域的內容則是包含的subchunk,如下圖
這是一個RIFF chunk中包含有兩個subchunk,可以看出RIFF chunk的數據域首先是是4字節的 Form Type,接著是兩個subchunk,每一個subchun有包含有自己的標識、數據域的大小以及數據域。
除了RIFF cunk可以嵌套其他的chunk外,另一個可以有subchunk的就是LIST chunk。
上圖中,首先是RIFF文件必須的RIFF chunk,其數據域又包含有兩個subchunk,其中一個subchunk的類型為LIST,該LIST chunk又包含了兩個subchunk。
FourCC
FourCC 全稱為Four-Character Codes,是一個4字節32位的標識符,通常用來標識文件的數據格式。例如,在音視頻播放器中,可以通過 文件的FourCC來決定調用那種CODEC進行視音頻的解碼。例如:DIV3,DIV4,DIVX,H264等,對于音頻則有:WAV,MP3等。對于上面的RIFF文件,則有:RIFF,WAVE,fmt,data等。FourCC是4個ASCII字符,不足四個字符的則在最后補充空格(不是空字符)。比如,FourCC fmt,實際上是'f' 'm' 't' ' '。
FourCC的生成通常可以使用如下宏:
#define MAKE_FOURCC(a,b,c,d) \ ( ((uint32_t)d) | ( ((uint32_t)c) << 8 ) | ( ((uint32_t)b) << 16 ) | ( ((uint32_t)a) << 24 ) )
在程序 中還是不要使用太長的宏為好,在C++中可以使用模板和enum結合的方式。來保證在編譯時期就能夠將FourCC生成出來。
#define FOURCC uint32_t template <char ch0, char ch1, char ch2, char ch3> struct MakeFOURCC{ enum { value = (ch0 << 0) + (ch1 << 8) + (ch2 << 16) + (ch3 << 24) }; }; FOURCC fourcc_fmt = MakeFOURCC<'f', 'm', 't', ' '>::value;
將字符常量傳入模板,在結構體中聲明一個enum,編譯器會在編譯時期確定枚舉值,這樣就能給保證FOURCC在編譯就能生成出來。
WAV file
WAV 是Microsoft開發的一種音頻文件格式,它符合上面提到的RIFF文件格式標準,可以看作是RIFF文件的一個具體實例。既然WAV符合RIFF規范,其基本的組成單元也是chunk。一個WAV文件通常有三個chunk以及一個可選chunk,其在文件中的排列方式依次是:RIFF chunk,Format chunk,Fact chunk(附加塊,可選),Data chunk。
一個WAV文件,首先是一個RIFF chunk;RIFF chunk又包含有Format chunk,Data chunk以及可選的Fact chunk。各個chunk中字段的意義如下:
- RIFF chunk
- id
- FOURCC 值為'R' 'I' 'F' 'F'
- size
- 其data字段中數據的大小 字節數
- data
- 包含其他的chunk
- Format chunk
- id
- FOURCC 值為 'f' 'm' 't' ' '
- size
- 數據字段包含數據的大小。如無擴展塊,則值為16;有擴展塊,則值為= 16 + 2字節擴展塊長度 + 擴展塊長度或者值為18(只有擴展塊的長度為2字節,值為0)
- data
存放音頻格式、聲道數、采樣率等信息
format_tag
2字節,表示音頻數據的格式。如值為1,表示使用PCM格式。
channels
2字節,聲道數。值為1則為單聲道,為2則是雙聲道。
samples_per_sec
采樣率,主要有22.05KHz,44.1kHz和48KHz。
bytes_per sec
音頻的碼率,每秒播放的字節數。samples_per_sec * channels * bits_per_sample / 8,可以估算出使用緩沖區的大小
block_align
數據塊對齊單位,一次采樣的大小,值為聲道數 * 量化位數 / 8,在播放時需要一次處理多個該值大小的字節數據。
bits_per_sample
音頻sample的量化位數,有16位,24位和32位等。
cbSize
擴展區的長度
擴展塊內容
22字節,具體介紹,后面補充。
- Fact chunk(option)
- id
- FOURCC 值為 'f' 'a' 'c' 't'
- size
- 數據域的長度,4(最小值為4)
- 采樣總數 4字節
- Data chunk
- id
FOURCC 值為'd' 'a' 't' 'a'
- size
數據域的長度
- data
具體的音頻數據存放在這里
采用壓縮編碼的WAV文件,必須要有Fact chunk,該塊中只有一個數據,為每個聲道的采樣總數。
Format chunk 中的編碼方式
在Format chunk中,除了有音頻的數據的采樣率、聲道等音頻的屬性外,另一個比較主要的字段就是format_tag,該字段表示音頻數據是以何種方式編碼存放的。其具體的取值可以為以下:
- 0x0001
WAVE_FORMAT_PCM,采用PCM格式
- 0x0003
WAVE_FORMAT_IEEE_FLOAT,存放的值為IEEE float,范圍為[-1.0f,1.0f]
- 0x0006
WAVE_FORMAT_ALAW , 8bit ITU-T G.711 A-law
- 0x0007
WAVE_FORMAT_MULAW,8bit ITU-T G.711 μ-law
- 0XFFFE
WAVE_FORMAT_EXTENSIBLE,具體的編碼方式有擴展區的 sub_format字段決定
關于擴展格式塊
當WAV文件使用的不是PCM編碼方式是,就需要擴展格式塊,它是在基本的Format chunk又添加一段數據。該數據的前兩個字節,表示的擴展塊的長度。緊接其后的是擴展的數據區,含有擴展的格式信息,其具體的長度取決于壓縮編碼的類型。當某種編碼方式(如 ITU G.711 a-law)使擴展區的長度為0,擴展區的長度字段還必須保留,只是其值設置為0。
擴展區的各個字節的含義如下:
size 2字節
擴展區的數據長度 ,可以為0或22
- valid_bits_per_sample 2字節
有效的采樣位數,最大值為采樣字節數 * 8。可以使用更靈活的量化位數,通常音頻sample的量化位數為8的倍數,但是使用了WAVE_FORMAT_EXTENSIBLE時,量化的位數有擴展區中的valid bits per sample來描述,可以小于Format chunk中制定的bits per sample。
- channle mask 4字節
聲道掩碼
- sub format 16字節
GUID,include the data format code,數據格式碼。
在Format chunk中的format_tag設置為0xFFFE時,表示使用擴展區中的sub_format來決定音頻的數據的編碼方式。在以下幾種情況下必須要使用WAVE_FORMAT_EXTENSIBLE
- PCM數據的量化位數大于16
- 音頻的采樣聲道大于2
- 實際的量化位數不是8的倍數
- 存儲順序和播放順序不一致,需要指定從聲道順序到聲卡播放順序的映射情況。
Data chunk
Data塊中存放的是音頻的采樣數據。每個sample按照采樣的時間順序寫入,對于使用多個字節的sample,使用小端模式存放(低位字節存放在低地址,高位字節存放在高地址)。對于多聲道的sample采用交叉存放的方式。例如:立體雙聲道的sample存儲順序為:聲道1的第一個sample,聲道2的第一個sample;聲道1的第二個sample,聲道2的第二個sample;依次類推....。對于PCM數據,有以下兩種的存儲方式:
- 單聲道,量化位數為8,使用偏移二進制碼
- 除上面之外的,使用補碼方式存儲。
總結
本文主要介紹了RIFF文件的格式和WAV音頻文件格式,為后面實現對WAVE文件的讀寫打一個理論基礎。后面打算使用C++標準庫,實現對WAV文件的讀寫。
原文鏈接:https://www.cnblogs.com/wangguchangqing/p/5957531.html
相關推薦
- 2022-08-25 詳解C語言中結構體的使用_C 語言
- 2022-10-04 基于WPF實現帶蒙版的MessageBox消息提示框_C#教程
- 2022-08-19 一篇文章讓你看懂用git上傳文件至gitee,結尾有.gitignore配置
- 2022-04-15 C語言各種操作符透徹理解下篇_C 語言
- 2022-08-31 C++淺析引用的定義與使用_C 語言
- 2022-06-08 FreeRTOS實時操作系統的任務創建和刪除_操作系統
- 2023-07-14 react 利用插件react-draggable實現拖拽功能
- 2022-06-06 數據分析數據庫ClickHouse在大數據領域應用實踐_數據庫其它
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支