使用潛在狄利克雷分解的單聲道說話人分離 外文翻譯.rar
使用潛在狄利克雷分解的單聲道說話人分離 外文翻譯,使用潛在狄利克雷分解的單聲道說話人分離摘要:我們提出了一種使用聲譜圖的潛在變量分解算法,來從混合的單聲道錄音里分離出多個說話人。我們將語音信號短時傅立葉變換的每一個幅度譜分量建模成一個離散隨機過程的輸出。這個離散隨機過程產(chǎn)生一系列頻率分辨率分量。這個過程被建模成混合多項式分布,這些分量多項式的混合權(quán)重在不同的分析窗間變...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會員 wanli1988go 發(fā)布
使用潛在狄利克雷分解的單聲道說話人分離
摘要:我們提出了一種使用聲譜圖的潛在變量分解算法,來從混合的單聲道錄音里分離出多個說話人。我們將語音信號短時傅立葉變換的每一個幅度譜分量建模成一個離散隨機過程的輸出。這個離散隨機過程產(chǎn)生一系列頻率分辨率分量。這個過程被建模成混合多項式分布,這些分量多項式的混合權(quán)重在不同的分析窗間變化。這些分量多項式可以認為是屬于特定說話人的,而且可以通過對每一個說話人訓(xùn)練信號來得到。我們把每一個說話人的混合權(quán)重的先驗分布建模成一個狄利克雷分布。代表混合信號幅度譜分量的分布被分解成所有單個說話人多項式分布的混合。通過這種分解,頻率分布,或者說每一個說話人的語音頻譜將得到重建。
1、 簡介
對于單聲道說話人的分離問題,比如說從有幾個人說話的單聲道錄音里分離出當(dāng)前說話人的問題,歷史上一直是考慮從頻率選擇的角度來解決的。為了分離出每一個說話人的語音信號,需要從不完整的視頻序列里,重建出混合信號中的受說話人控制的時頻分量。對說話人的時頻分量的選擇在實際中可能是基于感知原理的(如文獻
Latent Dirichlet Decomposition for Single
Channel Speaker Separation
Bhiksha Raj, Madhusudana V.S. Shashanka, Paris Smaragdis
TR2006-064 May 2006
Abstract
We present an algorithm for the seaparation of multiple speakers from mixed single-channel
recordings by latent variable decomposition of the speech spectrogram. We model each magni-
tude spectral vector in the short-time Fourier transform of a speech signal as the outcome of a
discrete random process that generates frequency bin indices. The distribution of the process is
modeled as a mixture of multinomial distributions, such that the mixture weights of the compo-
nent multinomials vary from analysis window to analysis window. The component multinomials
are assumed to be speaker specific and are learned from training signals for each speaker. We
model the prior distribution of the mixture weights for each speaker as a Dirichlet distribution.
The distributions representing magnitude spectral vectors for the mixed signal are decomposed
into mixtures of the multinomials for all component speakers. The frequency distribution i.e. the
spectrum for each speaker is reconstructed from this decomposition.
摘要:我們提出了一種使用聲譜圖的潛在變量分解算法,來從混合的單聲道錄音里分離出多個說話人。我們將語音信號短時傅立葉變換的每一個幅度譜分量建模成一個離散隨機過程的輸出。這個離散隨機過程產(chǎn)生一系列頻率分辨率分量。這個過程被建模成混合多項式分布,這些分量多項式的混合權(quán)重在不同的分析窗間變化。這些分量多項式可以認為是屬于特定說話人的,而且可以通過對每一個說話人訓(xùn)練信號來得到。我們把每一個說話人的混合權(quán)重的先驗分布建模成一個狄利克雷分布。代表混合信號幅度譜分量的分布被分解成所有單個說話人多項式分布的混合。通過這種分解,頻率分布,或者說每一個說話人的語音頻譜將得到重建。
1、 簡介
對于單聲道說話人的分離問題,比如說從有幾個人說話的單聲道錄音里分離出當(dāng)前說話人的問題,歷史上一直是考慮從頻率選擇的角度來解決的。為了分離出每一個說話人的語音信號,需要從不完整的視頻序列里,重建出混合信號中的受說話人控制的時頻分量。對說話人的時頻分量的選擇在實際中可能是基于感知原理的(如文獻
Latent Dirichlet Decomposition for Single
Channel Speaker Separation
Bhiksha Raj, Madhusudana V.S. Shashanka, Paris Smaragdis
TR2006-064 May 2006
Abstract
We present an algorithm for the seaparation of multiple speakers from mixed single-channel
recordings by latent variable decomposition of the speech spectrogram. We model each magni-
tude spectral vector in the short-time Fourier transform of a speech signal as the outcome of a
discrete random process that generates frequency bin indices. The distribution of the process is
modeled as a mixture of multinomial distributions, such that the mixture weights of the compo-
nent multinomials vary from analysis window to analysis window. The component multinomials
are assumed to be speaker specific and are learned from training signals for each speaker. We
model the prior distribution of the mixture weights for each speaker as a Dirichlet distribution.
The distributions representing magnitude spectral vectors for the mixed signal are decomposed
into mixtures of the multinomials for all component speakers. The frequency distribution i.e. the
spectrum for each speaker is reconstructed from this decomposition.