聲音是「氣壓隨時間起伏」的波(時域)。Fourier 把它拆成「由哪些頻率疊加而成」(頻域,影片裡的「神的領域」)。 就像十根手指同時壓琴鍵 → 一團混合波;Fourier 反推「現在按了哪些鍵、各多大力」。 下面把此刻這一瞬間的聲音當場拆開,標出每個音樂屬性是從哪些頻率讀出來的。
低頻 Bass <250Hz 中頻 Mid 250–4kHz 高頻 Treble >4kHz |基頻 f0 = 音高|其上的小三角 = 泛音(決定音色)
影片說波本質是旋轉(彈簧螺旋,正弦/餘弦差 ¼ 圈)。相位=這個旋轉的起始角度。 下面是基頻+泛音各自的旋轉向量(長度=振幅,角度=相位),播放時會轉。耳朵幾乎聽不出相位 → 所以 MP3 敢動它省空間。
節奏讀不出於某一瞬間的頻譜 —— 它藏在時間軸。下面是「頻譜變化量(spectral flux)」隨時間滾動, 鼓點/重音 = 寬頻能量瞬間爆衝 → 黃線閃光標記偵測到的拍點(onset)。
上面「此刻拆解」是一條垂直切片;把它一條條往右排,就看到頻率隨時間的全貌。亮=能量高。這正是 MP3 編碼器看到的畫面。
| 音高 Pitch | 基頻 f0(最低的主頻率)。440Hz=中央A。上面黃線那根。 |
| 音色 Timbre | 泛音結構。同一個音,鋼琴 vs 小提琴差在 f0 上方 2×,3×,4×… 倍頻的相對強度。 |
| 響度 Loudness | 振幅 / 總能量。波形高度、各頻率能量總和。 |
| 節奏 Rhythm | 時間軸上能量的起伏。需要 STFT(短時 Fourier,一連串短窗)才看得到。 |
| 相位 Phase | 每個頻率波的起始旋轉角。耳朵幾乎聽不出 → MP3 拿來省空間。 |
| 低/中/高頻 | Bass <250、人聲/樂器 250–4k、空氣感/泛音 >4k。等化器(EQ)=調這些 Fourier 頻段。 |
MP3 本身就是 Fourier 家族:用 MDCT(餘弦轉換)把每小段轉成頻率係數,再靠心理聲學遮蔽把「聽不到的頻率」丟掉只存剩下的 —— 跟畫線條 demo 同一招:拆成頻率 → 丟掉不重要的 → 少少參數重建。