Fourier 聽歌 — 此刻聲音的參數拆解

聲音是「氣壓隨時間起伏」的波(時域)。Fourier 把它拆成「由哪些頻率疊加而成」(頻域,影片裡的「神的領域」)。 就像十根手指同時壓琴鍵 → 一團混合波;Fourier 反推「現在按了哪些鍵、各多大力」。 下面把此刻這一瞬間的聲音當場拆開,標出每個音樂屬性是從哪些頻率讀出來的。

來源

暫停音檔(或按「凍結畫面」)會把所有圖停在當下那一幀,方便研究;凍結時仍可拉下方「頻率上限」重看同一幀。
把 .mp3 / .wav 拖到這裡
↑ 時域波形(喇叭實際在做的事)。下面全部是對這條波此刻的一個窗做 FFT 的結果。

🎹 此刻 = 哪些頻率疊加?(音高 / 音色 / 響度 / 低中高頻)

低頻 Bass <250Hz 中頻 Mid 250–4kHz 高頻 Treble >4kHz |基頻 f0 = 音高|其上的小三角 = 泛音(決定音色)

響度 Loudness(全頻率總能量=震幅)
– dB
音高 Pitch(基頻 f0=你按的那個鍵)
– Hz
低頻 Bass
中頻 Mid
高頻 Treble
頻率上限 5 kHz

🌀 相位 Phase:每個頻率「螺旋從哪個角度起轉」

影片說波本質是旋轉(彈簧螺旋,正弦/餘弦差 ¼ 圈)。相位=這個旋轉的起始角度。 下面是基頻+泛音各自的旋轉向量(長度=振幅,角度=相位),播放時會轉。耳朵幾乎聽不出相位 → 所以 MP3 敢動它省空間。

🥁 節奏 Rhythm:不在單一時刻,是能量隨時間的起伏

節奏讀不出於某一瞬間的頻譜 —— 它藏在時間軸。下面是「頻譜變化量(spectral flux)」隨時間滾動, 鼓點/重音 = 寬頻能量瞬間爆衝 → 黃線閃光標記偵測到的拍點(onset)。

🎞️ 頻譜圖 Spectrogram:把每一刻的頻譜往右疊 = 整首歌

上面「此刻拆解」是一條垂直切片;把它一條條往右排,就看到頻率隨時間的全貌。亮=能量高。這正是 MP3 編碼器看到的畫面。

總表:一首歌 ↔ Fourier 參數

音高 Pitch基頻 f0(最低的主頻率)。440Hz=中央A。上面黃線那根。
音色 Timbre泛音結構。同一個音,鋼琴 vs 小提琴差在 f0 上方 2×,3×,4×… 倍頻的相對強度。
響度 Loudness振幅 / 總能量。波形高度、各頻率能量總和。
節奏 Rhythm時間軸上能量的起伏。需要 STFT(短時 Fourier,一連串短窗)才看得到。
相位 Phase每個頻率波的起始旋轉角。耳朵幾乎聽不出 → MP3 拿來省空間。
低/中/高頻Bass <250、人聲/樂器 250–4k、空氣感/泛音 >4k。等化器(EQ)=調這些 Fourier 頻段。

MP3 本身就是 Fourier 家族:用 MDCT(餘弦轉換)把每小段轉成頻率係數,再靠心理聲學遮蔽把「聽不到的頻率」丟掉只存剩下的 —— 跟畫線條 demo 同一招:拆成頻率 → 丟掉不重要的 → 少少參數重建。