| 數(shù)字聲紋,讓我們通過聲音辨別出一個(gè)人 |
| 2023/5/17 18:03:32 |
|
|
|
|
| |
|
|
2020年12月3日早上6點(diǎn)36分,美國(guó)海岸警衛(wèi)隊(duì)通過一個(gè)專用于緊急情況的無線電頻道收到一個(gè)呼叫:“求救,求救,求救。我們失去了方向舵...我們正在快速浸入水中!蹦莻(gè)聲音打了個(gè)嗝,幾乎就像那個(gè)人在掙扎。他又發(fā)了一次無線電,這次是說水泵開始失靈了。他說他會(huì)試著把他的船,一艘載有三人的42英尺長(zhǎng)的船,開回緬因州云杉頭島上的阿特伍德龍蝦公司。海岸警衛(wèi)隊(duì)詢問他的GPS坐標(biāo),但沒有得到任何回復(fù)。 那天早上,緬因州一名海軍巡邏員內(nèi)森·斯蒂爾韋爾出發(fā)去尋找失蹤的船只。斯蒂爾韋爾騎馬來到位于一個(gè)半島盡頭的阿特伍德龍蝦公司,登上一艘龍蝦船,駛進(jìn)冷得令人震驚的水中,它能在短短30分鐘內(nèi)引起致命的低溫癥。 當(dāng)他回到岸上時(shí),斯蒂爾韋爾繼續(xù)在該地區(qū)尋找聽到無線電求救信號(hào)的人。根據(jù)一份通過國(guó)家記錄請(qǐng)求獲得的報(bào)告,有人告訴他五月天呼叫的聲音聽起來“一團(tuán)糟”。其他人說這聽起來像碼頭工人內(nèi)特·利比。于是,斯蒂爾韋爾走進(jìn)阿特伍德酒吧,用手機(jī)錄下了他與利比和另一名男子杜安·馬基的對(duì)話。斯蒂爾韋爾問他們是否聽到了呼叫。 斯蒂爾韋爾似乎不確定。在他的報(bào)告中,他說他收到了其他提示,暗示那個(gè)甚高頻電話是由一個(gè)名叫亨特的人打的。但是第二天,一個(gè)捕蝦人打電話給斯蒂爾韋爾,他的船就像報(bào)道的遇險(xiǎn)船一樣。他確信求救電話是他以前的斯特恩曼,在龍蝦船后面工作的船員:內(nèi)特·利比。 警報(bào)不僅僅是一個(gè)惡作劇電話。通過海事電臺(tái)廣播虛假求救信號(hào)違反了國(guó)際法規(guī),在美國(guó)是聯(lián)邦D級(jí)重罪。海岸警衛(wèi)隊(duì)記錄了這些通話,時(shí)長(zhǎng)約4分鐘,調(diào)查人員分離出四個(gè)WAV文件,捕捉到了嫌疑人20秒的聲音。 這四個(gè)音頻片段被發(fā)現(xiàn)是Nate Libby的,他是一名碼頭工人,后來承認(rèn)打了一個(gè)欺詐性的求救電話。(U.S. Coast Guard/美國(guó)海岸警衛(wèi)隊(duì)) 為了核實(shí)來電者的身份并解決明顯的犯罪問題,海岸警衛(wèi)隊(duì)的調(diào)查服務(wù)將文件通過電子郵件發(fā)送給了麗塔·辛格,她是卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的計(jì)算機(jī)科學(xué)家,也是教科書《從聲音中描繪人類(Profiling Humans From Their Voice (Springer)》(Springer,2019年)的作者。 在一封通過聯(lián)邦信息自由法案請(qǐng)求獲得的電子郵件中,首席調(diào)查員寫道辛格,“我們目前正在緬因州處理一個(gè)可能的搜救騙局,我們想知道你是否可以將MP3文件中的聲音與WAV文件中打無線電電話的聲音進(jìn)行比較?”她同意分析錄音。 從歷史上看,這種分析——或者更確切地說,這種技術(shù)的早期版本——在法庭上名聲不佳,F(xiàn)在,由于計(jì)算技術(shù)的進(jìn)步,這項(xiàng)技術(shù)又回來了。事實(shí)上,法醫(yī)科學(xué)家希望有一天能從錄音中收集到和DNA一樣多的信息。 我們知道你是誰(shuí) 將語(yǔ)音轉(zhuǎn)換成文本的自動(dòng)語(yǔ)音識(shí)別方法適用執(zhí)行說話人識(shí)別的更復(fù)雜任務(wù),一些從業(yè)者稱之為聲紋。 我們的聲音有很多獨(dú)特之處!白鳛橐环N標(biāo)識(shí)符,”辛格最近寫道,“聲音有可能像DNA和指紋一樣獨(dú)一無二。作為描述符,聲音比DNA或指紋更能揭示問題。”因此,有許多理由對(duì)其在刑事法律系統(tǒng)中的使用感到關(guān)切。 2020年美國(guó)政府問責(zé)局的一份報(bào)告說,美國(guó)特勤局聲稱能夠在只有聲音的陣容中識(shí)別出一個(gè)未知的人,將未知聲音的錄音與已知說話人的錄音進(jìn)行比較,作為參考。根據(jù)2022年的一篇論文,中國(guó)法院有超過740項(xiàng)判決涉及聲紋。至少有八個(gè)國(guó)家的邊境管制機(jī)構(gòu)已經(jīng)使用語(yǔ)言分析來確定原籍,或LADO,來分析口音,以確定一個(gè)人的原籍國(guó),并評(píng)估其庇護(hù)申請(qǐng)的合法性。 法醫(yī)科學(xué)家可能很快就能從一個(gè)人的聲音錄音中收集到比大多數(shù)物證更多的信息。 基于聲音的識(shí)別系統(tǒng)不同于老式的竊聽和監(jiān)視,它超越了對(duì)話的實(shí)質(zhì),從聲音本身推斷出說話者的信息。甚至像在伊利諾伊州的麥當(dāng)勞汽車餐廳下單這樣簡(jiǎn)單的事情也引發(fā)了未經(jīng)同意收集生物特征數(shù)據(jù)的法律問題。10月,德克薩斯州司法部長(zhǎng)指控谷歌違反了該州的生物識(shí)別隱私法,稱Nest家庭自動(dòng)化設(shè)備“在未經(jīng)同意的情況下記錄了朋友、孩子、祖父母和來訪的客人,然后無限期地存儲(chǔ)他們的聲紋!绷硪豁(xiàng)訴訟聲稱,摩根大通使用了一個(gè)名為Gatekeeper的Nuance系統(tǒng),據(jù)稱該系統(tǒng)“收集并考慮電話背后的人的獨(dú)特聲紋”,以驗(yàn)證其銀行客戶并檢測(cè)潛在的欺詐行為。 其他州和國(guó)家當(dāng)局允許公民使用他們的聲音來驗(yàn)證他們的身份,從而獲得他們的稅務(wù)數(shù)據(jù)記錄和養(yǎng)老金信息。荷蘭代爾夫特理工大學(xué)研究偏見的研究員Wiebke Toussaint Hutiri說:“存在巨大的影子風(fēng)險(xiǎn),即任何說話人確認(rèn)技術(shù)都可能被轉(zhuǎn)化為說話人識(shí)別技術(shù)。” 深入觀察人類的聲音 Singh認(rèn)為,單獨(dú)的語(yǔ)音分析可以用來生成一個(gè)未知說話者的令人震驚的詳細(xì)描述!叭绻銓⑽覀兘裉鞊碛械膹(qiáng)大的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)與現(xiàn)有的所有信息融合在一起,并且做得正確,你就可以設(shè)計(jì)出非常強(qiáng)大的系統(tǒng),可以真正深入地觀察人類的聲音,并獲取各種信息,”她說。 2014年,辛格首次回答了海岸警衛(wèi)隊(duì)打來的惡作劇電話。她分析了他們提供的錄音,并向該服務(wù)發(fā)送了幾個(gè)結(jié)論!拔夷軌蚋嬖V他們這個(gè)人的年齡,身高,來自哪里,可能在打電話的時(shí)候在哪里,大概在什么樣的地區(qū),以及關(guān)于這個(gè)人的一系列事情。”她直到后來才知道這些信息顯然有助于破案。辛格說,從那時(shí)起,她和該機(jī)構(gòu)就有了一個(gè)“心照不宣的約定” 2020年12月16日,在收到相關(guān)音頻文件大約兩周后,辛格通過電子郵件向調(diào)查人員發(fā)送了一份報(bào)告,解釋了她如何使用計(jì)算算法來比較錄音!懊總(gè)記錄都被完整地研究,所有的結(jié)論都是基于從完整的信號(hào)中獲得的定量測(cè)量,”她說。Singh寫道,她在人工將Stillwell在他的現(xiàn)場(chǎng)采訪中記錄的兩個(gè)聲音標(biāo)記為US410和US411: Person1和Person2后,進(jìn)行了自動(dòng)分析。然后,她使用算法將未知的聲音——緊急頻道上播放的四個(gè)短脈沖——與兩個(gè)已知的說話者進(jìn)行比較。 法醫(yī)說話人比較主要是調(diào)查....這不是那種會(huì)讓人終身監(jiān)禁的事情。 辛格得出了緬因州許多其他人的結(jié)論:五月天四段錄音中的未知聲音來自第一人稱的同一個(gè)人,他在US410中自稱為內(nèi)特·利比。辛格提交報(bào)告的當(dāng)天下午5點(diǎn)剛過,斯蒂爾韋爾就收到了消息。正如他在通過記錄請(qǐng)求獲得的事件報(bào)告中所寫的那樣“求救電話的錄音和對(duì)利比的采訪是吻合的!蓖ㄟ^將一個(gè)未知說話者的聲音與兩個(gè)可能的嫌疑人進(jìn)行比較,調(diào)查人員顯然已經(jīng)證實(shí)了五月天呼叫者的身份是第一個(gè)人——內(nèi)特·利比。 根據(jù)Mara Mills和Xiaochang Li的說法,“聲音指紋”一詞至少可以追溯到1911年。米爾斯說,這項(xiàng)技術(shù)總是與刑事鑒定密不可分。聲音指紋是為了對(duì)人進(jìn)行起訴而識(shí)別他們的身份。 假裝預(yù)測(cè)你已經(jīng)知道的事情 聲紋亮相后引發(fā)了一系列研究,很快就使其名譽(yù)掃地。正如2016年《法律和生物科學(xué)雜志》上的一篇論文所言:“1979年,美國(guó)國(guó)家科學(xué)院對(duì)聲紋發(fā)表了贊美之詞,此后,聯(lián)邦調(diào)查局不再提供這樣的專家...這門學(xué)科開始走下坡路!痹1994年的一項(xiàng)裁決中,伊利諾伊州北區(qū)的美國(guó)地區(qū)法官米爾頓·沙杜爾(Milton Shadur)批評(píng)了這種技術(shù),將一對(duì)一的比較比作一種紙牌魔術(shù),即“魔術(shù)師強(qiáng)迫從觀眾中選出的人拿出魔術(shù)師想要他選擇的牌,然后魔術(shù)師聲稱可以‘占卜’這個(gè)人選擇的牌! 在美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所下屬委員會(huì)工作的語(yǔ)音識(shí)別專家詹姆斯·l·韋曼說,令人驚訝的是,這個(gè)老術(shù)語(yǔ)又重新流行起來了。他說,盡管機(jī)器學(xué)習(xí)最近取得了進(jìn)展,但政府檢察官在讓證詞被接受以及說服法官允許專家在陪審團(tuán)面前就該技術(shù)作證方面仍面臨重大挑戰(zhàn)!奥(lián)邦調(diào)查局經(jīng)常作證反對(duì)案件中聲音證據(jù)的可采性,這是一個(gè)非常有趣的問題!表f曼建議辯護(hù)律師可以大鬧一場(chǎng),詢問為什么調(diào)查人員依賴學(xué)術(shù)實(shí)驗(yàn)室,而不是聯(lián)邦調(diào)查局的審查人員。 海岸警衛(wèi)隊(duì)似乎意識(shí)到了這些潛在的障礙。2021年1月,首席調(diào)查員寫道辛格:“我們正在處理我們的刑事投訴,律師們想知道我們是否可以獲得你的簡(jiǎn)歷,以及你是否曾在法庭上作為專家證人作證!毙粮窕卮鹫f,她參與的所有案件都在庭外解決了。 六個(gè)月后,2021年6月3日,利比認(rèn)罪,避免了任何法庭上對(duì)辛格的語(yǔ)音分析的對(duì)抗。(法官說,這場(chǎng)惡作劇似乎是為了報(bào)復(fù)一位因利比吸毒而將其解雇的雇主。Libby被判服刑,三年監(jiān)督釋放,并支付17.500美元的賠償。但由于辯訴交易系統(tǒng)的不透明性,很難說語(yǔ)音分析在利比的決定中發(fā)揮了多大的作用:他的公共辯護(hù)人拒絕置評(píng),利比本人也無法聯(lián)系上。 盡管如此,結(jié)果反映了實(shí)踐:法庭說話人使用主要是調(diào)查性的!叭藗兇_實(shí)試圖在法庭上使用它作為證據(jù),但這不是那種會(huì)讓人終身監(jiān)禁的事情,”米爾斯說。"即使有了機(jī)器學(xué)習(xí),這種確定性也不可能用聲紋來實(shí)現(xiàn)." 此外,任何技術(shù)限制都因缺乏標(biāo)準(zhǔn)而加劇。Wayman認(rèn)為,不可控的變量太多了,分析師在比較不同環(huán)境下制作并壓縮成不同格式的音頻時(shí),必須應(yīng)對(duì)所謂的通道效應(yīng)。在緬因州五月天騙局的情況下,調(diào)查人員沒有利比的錄音,因?yàn)樗麜?huì)在緊急廣播頻道播出,并以WAV格式錄制。 先開槍,再畫目標(biāo) 在1966年洛杉磯的一次審判中,貝爾實(shí)驗(yàn)室的工程師勞倫斯·克斯塔作證說,這些帶注釋的光譜圖可以識(shí)別犯罪嫌疑人的聲紋。嫌疑人被定罪,但定罪后來被推翻,評(píng)論家廣泛譴責(zé)聲紋。Ralph Vander slice/教育服務(wù)研究所 代爾夫特大學(xué)的胡蒂里認(rèn)為,任何偏見都可能不是這項(xiàng)技術(shù)所固有的;相反,這項(xiàng)技術(shù)可能會(huì)強(qiáng)化刑事司法系統(tǒng)的系統(tǒng)性偏見。 在分析之前,無論是誰(shuí)在模板記錄中手動(dòng)標(biāo)記說話者的身份,都可能引入這樣一種偏差。這只是反映了這樣一個(gè)事實(shí),即審查員正在應(yīng)用收到的關(guān)于嫌疑人的信息。這種揭露可能會(huì)導(dǎo)致法醫(yī)專家所謂的神槍手謬誤:有人在谷倉(cāng)的一側(cè)發(fā)射了一顆子彈,然后在彈孔周圍畫了一個(gè)圈,以表明他們擊中了目標(biāo)。 辛格沒有從一個(gè)身份不明的聲音建立個(gè)人資料。她用計(jì)算算法在主要嫌疑人周圍畫了另一個(gè)圈,證實(shí)了執(zhí)法部門和幾個(gè)主要人員已經(jīng)懷疑的事情:惡作劇電話的聲音屬于利比。 的確,利比的認(rèn)罪表明他確實(shí)有罪。他的供詞反過來表明,辛格正確地驗(yàn)證了求救電話中說話者的聲音。但是這個(gè)案例沒有被發(fā)表,沒有被同行評(píng)議,也沒有被復(fù)制。沒有與識(shí)別相關(guān)的錯(cuò)誤率的估計(jì)——結(jié)論不準(zhǔn)確的概率。這是一個(gè)相當(dāng)大的弱點(diǎn)。 隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)揮越來越大的作用,這些差距可能暗示著更大的問題。聯(lián)邦證據(jù)標(biāo)準(zhǔn)要求專家解釋他們的方法,這是舊的建模技術(shù)可以做到的,但深度學(xué)習(xí)模型不能!拔覀冎廊绾斡(xùn)練他們,對(duì)嗎?但我們不知道他們到底在做什么,”韋曼說!斑@些是一些主要的法醫(yī)問題! 其他更基本的問題仍然沒有答案。一個(gè)人的聲音有多獨(dú)特?“聲音會(huì)隨著時(shí)間而改變,”米爾斯說!澳憧赡軙(huì)失去幾個(gè)指紋,但你仍然有其他的;你的聲音受到任何損傷,你就會(huì)突然擁有一個(gè)完全不同的聲音!绷硗,人們可以訓(xùn)練他們的聲音。在deepfakes和語(yǔ)音克隆文本到語(yǔ)音技術(shù)的時(shí)代,如Overdub和VALL-E,計(jì)算機(jī)可以識(shí)別誰(shuí)在冒充誰(shuí)嗎? 最重要的是,被告有權(quán)與原告對(duì)質(zhì),但所謂的機(jī)器證詞可能僅僅基于20秒鐘的錄音帶。這足以證明有罪了嗎?法院尚未做出裁決。 辛格有時(shí)會(huì)吹噓說,她的團(tuán)隊(duì)是第一個(gè)展示現(xiàn)場(chǎng)聲音分析系統(tǒng)的團(tuán)隊(duì),也是第一個(gè)從一幅肖像(17世紀(jì)荷蘭畫家倫勃朗的肖像)中重現(xiàn)聲音的團(tuán)隊(duì)。當(dāng)然,這種說法是不能被證偽的。此外,盡管普遍持懷疑態(tài)度,辛格仍然認(rèn)為從幾個(gè)句子,甚至一個(gè)短語(yǔ)來描述一個(gè)人是可能的。 “有時(shí)候,”她說,“一個(gè)詞就夠了。”但是,法院可能不會(huì)同意。(剪報(bào)來源:https://spectrum.ieee.org/digital-forensics)
|
|
| → 『關(guān)閉窗口』 |
|
| |
|
|
|
|
|
|