CN113196795B 與設備外部的所選目標對象相關聯的聲音的呈現(高通股份有限公司)_第1頁
CN113196795B 與設備外部的所選目標對象相關聯的聲音的呈現(高通股份有限公司)_第2頁
CN113196795B 與設備外部的所選目標對象相關聯的聲音的呈現(高通股份有限公司)_第3頁
CN113196795B 與設備外部的所選目標對象相關聯的聲音的呈現(高通股份有限公司)_第4頁
CN113196795B 與設備外部的所選目標對象相關聯的聲音的呈現(高通股份有限公司)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

(12)發(fā)明專利62/783,8872018.12.21USPCT/US2019/0680742019WO2020/132580EN2020.地址美國加利福尼亞州HO4R5/02(HO4W4/02(2018.01)HO4W4/40(2018.01)HO4W76/10(2018.01)來自右前方的音頻,聽起來好像來自右前方151所選車輛揚聲器聽起來好像來自左后方音頻引擎跟蹤器和與第一設備外部的至少一個目標對象相關聯可以被配置為響應于設備外部的至少一個目標或多個處理器可以被配置為基于第一設備外部21.一種能夠與第二設備通信的第一設備,所述第一設備包括:檢測所述第一設備外部的至少一個目標對象的選擇;啟動在所述第一設備和與所述第一設備外部的所述至少一個目標對象相關聯的第二設備之間通信的信道;響應于所述第一設備外部的所述至少一個目標對象的選擇,從所述第二設備接收音頻解碼從所述第二設備接收的所述音頻分組,以產生音頻信號;基于所述第一設備外部的所述至少一個目標對象的所述選擇,對所述音頻信號應用空間化效果;輸出具有所述空間化效果的所述音頻信號;在所述第二設備遠離所述第一設備超過可配置距離之后,禁用對所述音頻信號的輸出的空間化效果;繼續(xù)接收所述音頻分組并解碼從所述第二設備接收的所述音頻分組,以產生所述音頻輸出不具有所述空間化效果的音頻信號;以及耦合到所述一個或多個處理器的存儲器,被配置為在應用所述空間化效果之前和之后存儲所述音頻分組,其中,對所述音頻信號應用空間化效果包括基于所述第二設備相對于所述第一設備的距離和角度來重建所述音頻信號的聲場,以提供給所述第一設備的揚聲器,并且其中,所述第二設備相對于所述第一設備的距離和角度是通過以下方式獲得的:以視頻幀率從所述視頻幀的邊界框估計所述第二設備相對于所述第一設備的距離和對所述距離和角度進行內插以匹配所述音頻信號的音頻幀率。2.如權利要求1所述的第一設備,其中所述至少一個目標對象相對于所述第一設備的表示基于圖像的特征、所述圖像、或所述圖像和所述圖像的特征兩者,其中所述圖像由耦合到所述第一設備的一個或多個相機捕獲。3.如權利要求1所述的第一設備,還包括耦合到所述一個或多個處理器的一個或多個發(fā)送器天線,其被配置為由所述一個或多個處理器向所述第二設備發(fā)送在所述第一設備和與所述第一設備外部的所述至少一個目標對象相關聯的所述第二設備之間的通信的信道的通信數據。4.如權利要求1所述的第一設備,還包括耦合到所述一個或多個處理器的一個或多個接收天線,其被配置為基于在所述第一設備外部的所述至少一個目標對象與所述第一設備之間通信的信道的結果,接收所述音頻分組。5.如權利要求1所述的第一設備,其中,所述至少一個目標對象的所述選擇基于命令信號的檢測,所述命令信號基于關鍵詞檢測。6.如權利要求1所述的第一設備,還包括顯示設備,其被配置為表示所述第一設備外部3的所述至少一個目標對象,并且其中,所述第一設備外部的所述至少一個目標對象的選擇基于所述顯示設備上的電容傳感器或超聲波傳感器改變狀態(tài)。7.如權利要求1所述的第一設備,其中,所述至少一個目標對象的選擇基于命令信號的檢測,所述命令信號檢測基于眼睛凝視檢測。8.如權利要求1所述的第一設備,其中,所述第二設備的相對位置在顯示設備上被表示為所述第二設備的圖像。9.如權利要求1所述的第一設備,其中,音頻信號的所述輸出是三維空間化音頻信號。10.如權利要求9所述的第一設備,還包括顯示設備,其被配置為表示所述第二設備的相對位置,并且其中,所述三維空間化音頻信號的所述輸出基于在所述顯示設備上所述第二設備的所述相對位置表示在何處。11.如權利要求9所述的第一設備,還包括耦合到所述一個或多個處理器的全球定位衛(wèi)星GPS接收器,其被配置為幫助所述第一設備執(zhí)行輔助GPS以確定所述第二設備的相對位置,并且其中,所述第一設備外部的所述至少一個目標對象的所述選擇的所述三維空間化音頻信號的所述輸出基于所述輔助GPS。12.如權利要求9所述的第一設備,還包括耦合到所述一個或多個處理器的一個或多個傳感器,其被配置為幫助估計所述第二設備的相對位置。13.如權利要求9所述的第一設備,其中,所述一個或多個處理器被配置為,與相對于所述第二設備的第二位置相比,當所述第二設備位于相對于所述第一設備的第一位置時,以不同的空間分辨率輸出所述三維空間化音頻信號。14.如權利要求9所述的第一設備,其中,所述一個或多個處理器被配置為,基于所述第一設備外部的所述至少一個目標對象的跟蹤,接收所述第一設備外部的所述至少一個目標對象的相對位置的更新的估計,并且其中,所述一個或多個處理器被配置為,基于所述第一設備外部的所述至少一個目標對象的更新的估計相對位置來輸出所述三維空間化音頻信號。15.如權利要求14所述的第一設備,還包括耦合到所述一個或多個處理器的兩個或多個揚聲器,其被配置為基于所述至少一個目標對象的更新的估計相對位置來呈現所述三維空間化音頻信號。16.如權利要求1所述的第一設備,其中,所述第一設備是第一車輛。17.如權利要求1所述的第一設備,其中所述目標對象中的一個是第二車輛,并且其中,在所述至少一個目標對象中的多個目標對象包括在所述第一設備外部的多個車輛。18.如權利要求16所述的第一設備,其中,在所述第一車輛中的所述一個或多個處理器被配置為,從多個車輛中的每一個接收在各自的通信信道中的所述音頻分組,并且所述多個車輛中的每一個是第二車輛。19.如權利要求18所述的第一設備,其中,所述音頻分組表示由所述第二車輛的每個車輛中的至少一個人說的語音。20.如權利要求19所述的第一設備,其中,所述一個或多個處理器被配置為認證所述第二車輛中的每個人或每個車輛,以促進在所述第二車輛中的至少一個人和所述第一車輛中的人之間的可信多方對話。21.如權利要求20所述的第一設備,其中,所述可配置距離是距離測量或時間測量。422.一種包含第一設備與第二設備通信的方法,所述方法包含:檢測第一設備外部的至少一個目標對象的選擇;啟動在所述第一設備和與所述第一設備外部的所述至少一個目標對象相關聯的第二設備之間通信的信道;響應于所述第一設備外部的至少一個目標對象的選擇,從所述第二設備接收音頻分解碼從所述第二設備接收的所述音頻分組,以產生音頻信號;基于所述第一設備外部的所述至少一個目標對象的所述選擇,對所述音頻信號應用空間化效果;輸出具有所述空間化效果的所述音頻信號;在所述第二設備遠離所述第一設備超過可配置距離之后,禁用對所述音頻信號的輸出的空間化效果;繼續(xù)接收所述音頻分組并解碼從所述第二設備接收的所述音頻分組,以產生所述音頻輸出不具有所述空間化效果的音頻信號,其中,對所述音頻信號應用空間化效果包括基于所述第二設備相對于所述第一設備的距離和角度來重建所述音頻信號的聲場,以提供給所述第一設備的揚聲器,并且其中,所述第二設備相對于所述第一設備的距離和角度是通過以下方式獲得的:利用耦合到所述第一設備的一個或多個相機捕獲包括所述至少一個目標對象的視頻以視頻幀率從所述視頻幀的邊界框估計所述第二設備相對于所述第一設備的距離和對所述距離和角度進行內插以匹配所述音頻信號的音頻幀率。23.如權利要求22所述的方法,其中,所述可配置距離是距離測量或時間測量。24.如權利要求22所述的方法,其中,所述至少一個目標對象相對于所述第一設備的表示基于圖像的特征、所述圖像、或所述圖像和所述圖像的特征兩者。25.如權利要求22所述的方法,其中,所述至少一個目標對象的所述選擇基于命令信號的檢測,所述命令信號基于關鍵詞檢測。26.一種用于第一設備與第二設備通信的裝置,包含:用于檢測第一設備外部的至少一個目標對象的選擇的部件;用于啟動在所述第一設備和與所述第一設備外部的所述至少一個目標對象相關聯的第二設備之間通信的信道的部件;用于響應于所述第一設備外部的至少一個目標對象的選擇從所述第二設備接收音頻分組的部件;用于解碼從所述第二設備接收的所述音頻分組以產生音頻信號的部件;用于基于所述第一設備外部的所述至少一個目標對象的所述選擇,對所述音頻信號應用空間化效果的部件;用于輸出具有所述空間化效果的所述音頻信號的部件;用于在所述第二設備遠離所述第一設備超過可配置距離之后,禁用對所述音頻信號的5輸出的空間化效果的部件;用于繼續(xù)接收所述音頻分組并解碼從所述第二設備接收的所述音頻分組,以產生所述用于輸出不具有所述空間化效果的音頻信號的部件,其中,對所述音頻信號應用空間化效果的部件包括用于基于所述第二設備相對于所述第一設備的距離和角度來重建所述音頻信號的聲場,以提供給所述第一設備的揚聲器的部所述裝置還包括:用于利用耦合到所述第一設備的一個或多個相機捕獲包括所述至少一個目標對象的視頻幀的部件;用于以視頻幀率從所述視頻幀的邊界框估計所述第二設備相對于所述第一設備的距用于對所述距離和角度進行內插以匹配所述音頻信號的音頻幀率的部件。27.一種存儲計算機可執(zhí)行代碼的非暫時性計算機可讀介質,所述代碼由一個或多個處理器執(zhí)行以:檢測第一設備外部的至少一個目標對象的選擇;啟動在所述第一設備和與所述第一設備外部的所述至少一個目標對象相關聯的第二設備之間通信的信道;響應于所述第一設備外部的至少一個目標對象的所述選擇,從所述第二設備接收音頻解碼從所述第二設備接收的所述音頻分組,以產生音頻信號;基于所述第一設備外部的所述至少一個目標對象的所述選擇,對所述音頻信號應用空間化效果;輸出具有所述空間化效果的所述音頻信號;在所述第二設備遠離所述第一設備超過可配置距離之后,禁用對所述音頻信號的輸出的空間化效果;繼續(xù)接收所述音頻分組并解碼從所述第二設備接收的所述音頻分組,以產生所述音頻輸出不具有所述空間化效果的音頻信號,其中,對所述音頻信號應用空間化效果包括基于所述第二設備相對于所述第一設備的距離和角度來重建所述音頻信號的聲場,以提供給所述第一設備的揚聲器,并且其中,所述第二設備相對于所述第一設備的距離和角度是通過以下方式獲得的:以視頻幀率從所述視頻幀的邊界框估計所述第二設備相對于所述第一設備的距離和對所述距離和角度進行內插以匹配所述音頻信號的音頻幀率。6[0001]根據35U.S.C.§119的優(yōu)先權要求[0002]本專利申請要求于2019年12月19日提交的名稱為“RENDERINGOFSOUNDS16/720,639、以及于2018年12月21日提交的名稱為“RENDERINGOFSOUNDWITHSELECTEDTARGETOBJECTSEXTERNALTOADEVICE”的臨時申請?zhí)枮?2/783,887的優(yōu)先權,這些申請被轉讓給本申請的受讓人,并且在此通過引用明確地并入本文。技術領域[0003]本申請涉及呈現與第一設備外部的所選目標對象相關聯的聲音。背景技術[0004]下文總體上涉及無線通信,并且更具體地涉及車聯網控制信道設計。[0005]無線通信系統被廣泛部署以提供各種類型的通信內容,諸如語音、視頻、分組數與多個用戶的通信。這種多址系統的示例包括碼分多址(CDMA)系統、時分多址(TDMA)系統、線電(NR)系統。[0006]無線多址通信系統可以包括多個基站或網絡接入節(jié)點,每個基站或網絡接入節(jié)點同時支持用于多個通信設備的通信,這些通信設備可另外被稱為用戶設備(UE)。另外,無線通信系統可以包括支持用于基于通信的車輛的網絡。例如,車輛到車輛(V2V)和車輛到基礎設施(V2I)通信是能夠使車輛與其周圍環(huán)境之間交換數據的無線技術。V2V和V2I共同稱為[0007]5G汽車協會(5GAA)已經推廣了C-V2X。C-V2X最初在LTE版本14中定義,并且被設計為以多種模式操作:(a)設備到設備(V2V);(b)設備到小區(qū)塔(V2I);以及(c)設備到網絡功能被擴展以支持5G空中接口標準。C-V2X中的PC5接口允許車輛與其他設備之間的直接通[0008]基于車輛的通信網絡可以提供始終在線的遠程信息處理,在遠程信息中,例如車經由網絡)進行通信?;谲囕v的通信網絡可以通過提供智能連接來支持安全、始終連接的駕駛體驗,在智能連接中交換交通信號/時序、實時交通和路線、對行人/騎自行車者的安全[0009]然而,支持基于車輛的通信的這種網絡也可以與各種需求相關聯,例如通信需求、安全和隱私需求等。其它示例需求可以包括但不限于,減少延遲的需求、更高可靠性的需求等。例如,基于車輛的通信可以包括傳送可以支持自動駕駛汽車的傳感器數據。傳感器數據7還可以用在車輛之間來提高自動駕駛汽車的安全性。[0010]V2X和C-V2X允許出現多種應用,包括本公開中描述的應用。發(fā)明內容[0011]總體上,本公開描述了關于呈現與第一設備外部的所選目標對象相關聯的聲音的技術。在一個示例中,本公開描述了一種用于啟動與第二設備通信的第一設備,該第一設備包括一個或多個處理器,該一個或多個處理器被配置為檢測第一設備外部的至少一個目標對象的選擇,啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道。該一個或多個處理器可以被配置為響應于第一設備外部的至少一個目標對象的選擇而從第二設備接收音頻分組;解碼從第二設備接收的音頻分組以產生音頻信號;并且基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號。第一設備可以還包括耦合到一個或多個處理器的存儲器,其被配置為存儲音頻分組。[0012]在一個示例中,本公開描述了一種啟動與第二設備通信的方法,該方法包括檢測第一設備外部的至少一個目標對象的選擇;啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道;響應于選擇設備外部的至少一個目標對象,從第二設備接收音頻分組。該方法還包括解碼從第二設備接收的音頻分組以產生音頻信號;并且基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號。[0013]在一個示例中,本公開描述了一種裝置,該裝置包括用于檢測第一設備外部的至少一個目標對象的選擇的部件;以及用于啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道的部件。該裝置還包括用于響應于選擇設備外部的至少一個目標對象,從第二設備接收音頻分組的部件。該裝置可以還包括用于解碼從第二設備接收的音頻分組以產生音頻信號的部件;以及用于基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號的部件。[0014]在一個示例中,本公開描述了一種裝置,該裝置包括用于檢測第一設備外部的至少一個目標對象的選擇的部件;以及用于啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道的部件。該裝置還包括用于響應于設備外部的至少一個目標對象的選擇,從第二設備接收音頻分組的部件。該裝置可以還包括用于解碼從第二設備接收的音頻分組以產生音頻信號的部件;以及用于基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號的部件。[0015]在一個示例中,本公開描述了一種存儲計算機可執(zhí)行代碼的非暫時性計算機可讀介質,該代碼可由一個或多個處理器執(zhí)行以檢測第一設備外部的至少一個目標對象的選擇,并且啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道。該代碼在被執(zhí)行時可致使一個或多個處理器響應于設備外部的至少一個目標對象的選擇,從第二設備接收音頻分組;解碼從第二設備接收的音頻分組以產生音頻信號。該代碼在被執(zhí)行時可致使一個或多個處理器基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號。[0016]本公開的一個或多個示例的細節(jié)在附圖和以下的描述中闡明。所述技術的各種方面的其它特征、目標及優(yōu)點將從描述及附圖及權利要求書明顯得到。8附圖說明[0017]圖1a示出了第一設備基于另一設備的選擇的檢測與另一設備(例如,第二設備)進行通信的概念圖。[0018]圖1b示出了可以基于另一設備的選擇的檢測并且由跟蹤器輔助來與另一設備(例如,第二設備)進行通信的第一設備的概念圖,其中音頻通信可以被空間化。[0019]圖1c示出了根據本公開中描述的技術的發(fā)送和接收無線連接的不同車輛的概念[0020]圖1d示出了使用車輛內的高速緩存服務器或車輛內的存儲器發(fā)送和接收無線連接的不同車輛的概念圖。[0021]圖2示出了根據本公開中描述的技術的第一設備啟動與第二設備的通信的過程的流程圖。[0022]圖3示出了根據本公開中描述的技術操作的、在第一車輛上或第一車輛中具有不同組件的第一車輛的概念圖。[0023]圖4a示出了根據本公開中描述的技術操作的、在第一設備上或中具有不同組件的第一設備的框圖。[0024]圖4b示出了根據本公開中描述的技術操作的、在第一設備上或中具有不同組件的第一設備的框圖。[0025]圖5示出了根據本公開中描述的技術將世界坐標變換到像素坐標的概念圖。[0026]圖6a示出了遠程車輛/乘客(例如第二車輛)的距離和角度的估計的一個實施例的概念圖。[0027]圖6b示出了遠程設備的x-y平面中的距離和角度的估計的概念圖。[0028]圖6c示出了遠程設備的y-z平面中的距離和角度的估計的概念圖。[0029]圖7a示出了根據本公開中描述的技術的音頻空間化器的實施例。[0030]圖7b示出了根據本公開描述的技術的包括使用了解碼器的音頻空間化器的實施[0031]圖8示出了在第一車輛和所選(遠程)車輛中人員的位置可以在相同的坐標系中的實施例。具體實施方式[0032]某些無線通信系統可以使用來傳送與高可靠性和低延遲相關聯的數據。這種數據的一個非限制性示例包括C-V2X和V2X通信。例如,自動駕駛汽車可以依賴于無線通信。自動駕駛汽車可以包括一些傳感器,例如,光檢測和測距(LI相機等,這些是視線傳感器。然而,C-V2X和V2X通信可以包括視線和非視線無線通信。當前C-V2X和V2X通信是使用非視線無線通信來處理接近公共交叉路口但不在彼此視線內的車輛之間的通信的示例。C-V2X和V2X通信可以用來在車輛之間共享傳感器信息。這種和其他通信場景帶來某些考慮。例如,對于特定位置或地理區(qū)域,可能有幾個車輛感測到相同信息(例如障礙物或行人)。這帶來了哪個車輛應該廣播這樣的信息(例如,傳感器數據)、如何共享這樣的信息(例如,哪個信道配置提供減少的延遲和改善的可靠性)等問題。[0033]C-V2X通信系統可以具有邏輯信道和傳輸信道。邏輯信道和傳輸信道可以使作第9一設備(例如,頭戴式耳機或車輛)與基站或網絡中的另一個中間節(jié)點之間的上行鏈路和下行鏈路數據傳輸的一部分。本領域普通技術人員可以認識到,邏輯信道可以包括不同類型如,車輛、移動設備或頭戴式耳機)和網絡(例如,網絡基站中第一設備(例如,車輛、移動設備或頭戴式耳機)不具有與網絡的無線電資源控制連接時,可以使用xCCCH控制信道。xDCCH控制信道包括在第一設備和網絡之間的控制信息,并且由具有與網絡的無線電資源控制連接的第一設備使用。xDCCH也是雙向的,即,控制信息可以由第一設備和網絡發(fā)送和接收。[0034]通常,在上問提及的不同類型的控制信道中傳達的一些信息比特可以提供數據信道(或資源)的位置的指示。由于數據可能跨越多個副載波(取決于所傳送的數據量)并且控制信道的大小當前是固定的,因此這可以在控制信道與相應的數據信道之間引入時間/頻率的瞬變或間隙。這產生了控制信道的未使用頻率/時間資源??赡芸梢岳梦词褂妙l率/時間資源于在車輛之間或設備之間傳送媒體的其他目的。還可能可以在V2X或C-V2X系統中創(chuàng)建新信道,具體地,用于在車輛之間或在設備之[0035]如上所述,車輛使用來自其他領域的許多進展來改善其安全性、信息娛樂系統和整體用戶體驗。[0036]例如,可以在車輛中使用結合傳感器(例如RADAR、LIDAR或計算機視覺)的對象檢測算法以在駕駛時執(zhí)行對象檢測。這些對象可以包括道路中的車道、停車標志、其他車輛或存在碰撞時協作V2X系統警告車輛或車輛駕駛員。由于V2X和C-V2X系統的許多改進尚未被設想。[0037]一個改進領域是在不同車輛中的人之間的通信。盡管一個車輛中的某個人可以與不同車輛中的另一個人通信,但是該通信是通過進行電話呼叫來完成的。電話呼叫的啟動者知道要撥打什么電話號碼以與其他人通信,然后撥打它。[0038]本公開設想以這樣的方式改進,即設備基于使用直接信道通信或對等連接、V2X、或C-V2X通信系統啟動發(fā)送給所選目標對象的目標對象選擇,允許與其他人或其他設備進行通信或聽覺體驗。[0039]例如,用于與第二設備通信的第一設備可以包括一個或多個處理器,該一個或多個處理器被配置為檢測第一設備外部的至少一個目標對象的選擇,并且啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道。是首先執(zhí)行第一設備外部的至少一個目標對象的選擇,還是啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道,可能不是重要的。它可以取決于這樣的背景或情況,信道是否已經建立,以及通信信道的啟動是否發(fā)生,或者通信信道的啟動是否基于第一設備外部的至少一個目標對象的選擇的檢測。[0040]例如,在檢測設備外部的至少一個目標對象的選擇之前,可能已經建立了在第一設備和第二設備之間通信的信道。響應于該選擇的檢測來啟動在第一設備和第二設備之間通信的信道。[0041]另外,在第一設備中的一個或多個處理器可被配置為從第二設備接收音頻分組,作為第一設備外部的至少一個目標對象與第二設備之間通信的信道的結果。隨后,在接收到音頻分組之后,一個或多個處理器可以被配置為解碼從第二設備接收的音頻分組以產生音頻信號;并且基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號。第一設備和第二設備可能可以是第一車輛和第二車輛。本公開具有說明車輛的不同示例,但許多所描述的技術也適用于其它設備。即,這兩個設備可以是頭戴式耳機,包括:混合現實頭戴式[0042]音頻信號可以由耦合到第一設備的一個或多個揚聲器再現。如果第一設備是車輛,則揚聲器可以在車輛的車廂中。如果第一設備是頭戴式耳機,則揚聲器可再現音頻信號的雙耳化版本。[0043]基于目標對象的選擇,可以使用C-V2X或V2X系統、或其他通信系統在一個或多個目標對象與第一設備之間執(zhí)行通信。第二設備(即,頭戴式耳機或車輛)可以具有一個或多個人說話或播放與第二設備相關聯的音樂。編碼解碼器從第二車輛內部發(fā)出或從第二頭戴式耳機發(fā)出的語音或音樂可以使用音頻/語音編碼解碼器來壓縮,并產生音頻分組。音頻/語音編碼解碼器可以是兩個單獨的編碼解碼器,例如音頻編碼解碼器,或者可以是語音編碼解碼器。替代地,一個編碼解碼器可以具有壓縮音頻和語音的能力。[0044]本文中參考附圖描述了附加的技術和背景。[0045]圖1a示出了可以與另一設備(例如,第二設備)通信的第一設備的概念圖。該概念圖還包括在第一設備內另一設備的選擇的檢測。例如,第一設備可以是第一車輛303a,其能夠通過V2X或C-V2X通信系統與第二車輛通信。第一車輛303a可以包括如上面的圓圈103所示的不同組件或人111。如果第一車輛303a自動駕駛,則人111可能正在駕駛,或者人111可能不是正在駕駛。人111可以通過第一車輛303a的鏡子127或窗戶132看到在道路上行駛的其他車輛,并且希望聽到正在另一車輛內的無線電播放的音樂類型。在第一車輛303a的一些配置中,第一車輛303a的相機124可以幫助人111看到其他車輛,其在通過鏡子127或窗戶132看到其他車輛可能是有挑戰(zhàn)的。[0046]人111可以選擇在車輛外部的至少一個目標對象,或者如果人111佩戴頭戴式耳機,則該至少一個目標對象在頭戴式耳機外部。目標對象可以是車輛本身,即,第二車輛可以是目標對象。替代地,目標對象可以是另一個人。該選擇可以是被編碼在由第一車輛中的處理器執(zhí)行的指令中的圖像檢測算法的結果。圖像檢測算法可以被安裝在第一車輛上的外部相機輔助。圖像檢測算法可以檢測不同類型的車輛或者可以僅檢測面部。等,并且語音識別算法可以編碼在第一車輛中的處理器上執(zhí)行的指令中,以檢測和/或識別短語或關鍵詞(例如,汽車的品牌和型號)。因此,第一設備可以包括選擇至少一個目標對象是基于命令信號的檢測,該命令信號檢測基于關鍵字檢測。[0048]執(zhí)行用于圖像檢測算法的指令的處理器可以不必是執(zhí)行用于語音識別算法的指令的相同處理器。如果處理器不相同,則它們可以獨立工作或以協調的方式工作,例如,幫助另一處理器的圖像或語音識別。一個或多個處理器(其可以包括在圖像檢測或語音識別中使用的相同處理器),或者不同處理器可以被配置來檢測第一設備的至少一個目標對象的選擇。也就是說,可以使用一個或多個處理器來檢測哪個目標對象(例如,面部或其他車11輛或頭戴式耳機)被選擇。該選擇可以啟動第二設備(另一車輛或頭戴式耳機)之間的通信。在一些情況下,可能已經建立了第一設備與第二設備之間通信的信道。在一些情況下,圖像[0049]如上所述,當兩個人希望彼此通信并講話時,一個人通過撥打電話號碼呼叫另一個人??蛇x地,兩個設備可以彼此無線地連接,并且如果兩個設備都連接到通信網絡,則每個設備可以注冊另一設備的互聯網協議(IP)地址。在圖1a中,第一設備與第二設備之間的通信也可以通過V2X、C-V2X通信網絡或具有直接(例如不使用基站)連接兩個設備(的能力的網絡中的每個設備的各自的IP地址來建立。然而,與即時消息、聊天或電子郵件不同,第一設備與第二設備之間的通信是基于與第二設備相關聯的目標對象的選擇或直接基于第二設備本身的選擇而啟動的。[0050]例如,車輛303a中的人111可以看到第二車輛303b或不同的第二車輛303c,并且可能希望基于車輛的圖像檢測、圖像識別或語音識別來啟動與那些車輛之一中的人的通信。[0051]在目標對象的選擇之后,第一設備中的一個或多個處理器可以被配置為啟動包括基于IP地址的通信。在人111是第一車輛的駕駛員的情況下,使用手通過對話窗口啟動消息收發(fā)、電子郵件或聊天是不安全的。然而,在不使用手的情況下用于說話的音頻用戶接口正變得越來越流行,并且在圖1a所示的系統中,可能可以基于V2X或C-V2X通信系統啟動兩個設備之間的通信并與另一個人說話。車輛可以使用V2V通信或使用C-V2X的側鏈路信道進行通信。C-V2X系統的優(yōu)點是車輛可以在車輛之間發(fā)送通信信號,而不依賴于車輛是否連接到蜂窩網絡。[0052]當車輛無線地連接到蜂窩網絡時,車輛也可能可以使用V2V通信或側鏈路信道進行通信。[0053]可能可以在側鏈路信道中包括其它數據。例如,可以經由側鏈路信道接收音頻分組、和/或音頻內容的一個或多個標簽。在人111未正在駕駛的情況下,要么因為車輛正在駕駛自己,要么因為人111是乘客,也可能可以在側鏈路信道中的設備之間發(fā)送即時消息。即時消息可以是第一設備和第二設備之間的媒體交換的一部分,其可以包括音頻分組。[0054]在上面的圓圈103中還示出了顯示設備119.顯示設備119可以表示車輛的圖像或圖標。當啟動通信時或在第一車輛303a與第二車輛(例如,303b或303c)之間的通信期間,圖案133可以點亮或可以閃爍。[0055]此外,在目標對象的選擇之后,作為第一設備外部的至少一個目標對象與第二設備之間通信的信道的結果,可以從第二設備接收音頻分組。例如,下面的圓圈163包括處理器167,其可以被配置為解碼從第二設備接收的音頻分組以產生音頻信號,且基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號。也就是說,人可能可以通過揚聲器169的回放聽到在第二車輛(或耳機設備)中正在播放什么語音或音樂。[0056]如本公開中稍后所解釋,選擇的其他模式也是可能可以的,包括人111的手勢檢測和人111的眼睛凝視檢測。[0057]圖1b示出了可以與另一設備(例如,第二設備)通信的第一設備的概念圖。概念圖還包括由跟蹤器幫助,在第一設備內另一設備的選擇的檢測,并且音頻通信可以被空間化。104沒有示出設備119,因為它在下面的圓圈129中示出。上面的圓圈104示出了窗132外部的車輛、鏡子127和內部相機124,其如關于圖1a所述的那樣起作用。[0059]下面的圓圈129示出了顯示設備119.除了僅表示車輛133的圖標或圖像之外,顯示設備還可以表示可能是第一車輛303a中的人111的潛在選擇的真實的車輛的圖像。例如,由一個或多個外部相機(例如,圖3中的310b、圖4中的402)捕獲的車輛的圖像在顯示設備119上表示。車輛的圖像可以具有包封車輛的每個圖像的邊界框137a-137d。邊界框可幫助目標對象的選擇,例如,在顯示設備上表示的車輛中的其中一個。另外,代替在車輛的圖標和圖像之間的圖案133,從選擇第二車輛的人111的角度來看,可以存在分開的圖案149。因此,邊界框137d可以示出所選擇的第二車輛303b,并且分開的圖案149的方向可以被點亮或者也可以閃爍以指示已經啟動通信或正在與第二車輛303b進行通信。[0060]另外,處理器可以包括跟蹤器151和可以對顯示設備119上的圖像執(zhí)行特征提取的特征提取器(未示出)。所提取的特征各自,或者在一些配置中與RADAR/LIDAR傳感器結合,可幫助所選車輛(例如,303b)的相對位置的估計。在其他配置中,跟蹤器151可以僅對來自所選車輛的GPS位置的輸入進行幫助或操作,該輸入也可以通過V2X或C-V2X系統中的通信信道發(fā)送到第一車輛303a。[0061]例如,第二車輛303b或另一個第二車輛303c可能用相機是不可見的。在這種場景下,車輛(車輛303b和303c)各自可以具有檢測每個車輛的位置的GPS接收器。每個車輛的位在輔助GPS中使用的)基站結合確定的,則車輛位置的接收可以由GPS坐標表示。第一設備可以基于經由它自己的GPS接收器知道第一設備(它自己的)GPS坐標來計算它自己相對于其他車輛(車輛303b和303c)的位置。另外或可選地,第一設備可以基于耦合到第一設備的收GPS坐標來估計它自己的位置。另外,每個車輛或設備可以通過使用輔助GPS知道它自己的位置,即,使基站或其他中間結構接收GPS坐標并將它們中繼轉發(fā)到每個車輛或設備。[0062]此外,顯示設備119可以以第一設備的相對位置表示第二設備的圖像。也就是說,與顯示設備119協調的面向外部的相機310b或402可以以第一設備的相對位置表示第二設備。因此,顯示設備119可以被配置為表示第二設備的相對位置可以表示為顯示設備119上的第二設備的圖像。[0063]另外,可集成到一個或多個處理器的音頻引擎155可以基于設備的相對位置來處理已解碼音頻分組。音頻引擎155可以是可以集成為處理器的一部分的音頻空間化器的一部分,其可以基于如顯示設備119上表示的第二設備的相對位置將音頻信號輸出為三維空間化音頻信號。[0064]如上討論,相對位置還可以是基于GPS接收器的,GPS接收器可以耦合到跟蹤器155并且可以與一個或多個處理器集成,并且第一設備可以執(zhí)行輔助GPS以確定第二設備的相對位置。音頻引擎155可以是可以集成為處理器的一部分的音頻空間化器的一部分,其可以基于由第二設備161的輔助GPS確定的相對位置將音頻信號輸出為三維空間化音頻信號。[0065]此外,在一些配置中,面向外部的相機310b和402可以捕獲在第一車輛303a前面或后面的設備或車輛。在這種場景下,可期望聽到從第一車輛303a后面(或者如果是頭戴式耳機,則在佩戴頭戴式耳機的人后面)的車輛或設備發(fā)出的聲音,其具有與從第一車輛303a前面的那些車輛或設備聽到的聲音不同的空間分辨率。因而,與相對于第二設備的第二位置(例如,在第一設備后面)相比,當第二設備處于相對于第一設備的第一位置(例如,在第一設備前面)時,三維空間化音頻信號的輸出具有不同的空間分辨率。[0066]另外,當正在跟蹤第一設備外部的至少一個目標對象(例如,第二設備或第二車輛)的相對位置時,一個或多個處理器可以被配置來接收在第一設備外部的至少一個目標對象的相對位置的更新的估計。基于更新的估計,三維空間化音頻信號可被輸出。因此,第一設備可以通過揚聲器157呈現三維空間化音頻信號。在第一車輛303a中或佩戴頭戴式耳機的人可以聽到由第二設備(例如,在第一設備的右前方的車輛303c)接收的聲音,就好像音頻來自右前方一樣。如果第一設備是車輛303a,則右前方是相對于車輛303a的潛在的駕駛員從窗132向外看,就好像他或她正在駕駛車輛303a。如果第一設備是頭戴式耳機,則右前方是相對于佩戴頭戴式耳機的人直視前方。[0067]在一些場景下,音頻引擎155可能可以接收多個音頻流,即,來自多個設備或車輛的音頻/語音分組。也就是說,可以存在被選擇的多個目標對象。第一設備外部的多個目標對象可以是車輛、頭戴式耳機、或頭戴式耳機和車輛的組合。在存在多個目標對象的此類場景中,揚聲器157可以被配置來基于多個車輛(例如,303b和303c)或設備(例如,頭戴式耳機)中每一個的相對位置呈現三維空間化音頻信號。還可能的是,音頻流可以混合到一個聽覺通道中并且被一起聽到,就好像在第二車輛(例如,303b和303c)中的至少一個人之間存在多方會話一樣。[0068]在一些配置中,可以在各自的通信信道中從多個車輛的每一個接收音頻/語音分組。也就是說,第一車輛303a可以在一個通信信道中從第二車輛303b接收音頻/語音分組,并且還在不同的通信信道303c中從不同的第二車輛303c接收音頻/語音分組。音頻分組(為簡單起見)可以表示由第二車輛的每個車輛中的至少一個人說出的語音。[0069]在這種場景下,第一車輛303a或頭戴式耳機中的乘客可以通過遍及本公開的其它部分所述的技術來選擇兩個目標對象。例如,第一車輛303a中的人111可以輕點顯示設備119上由邊界框137a-137d包封的區(qū)域,以選擇與其具有多方通信的至少兩個車輛(例如,303b和303c)??蛇x地,人111可以使用語音識別來選擇與其具有多方通信的至少兩個車輛[0070]在一些配置中,一個或多個處理器可以被配置為認證第二車輛的人或車輛的每一個,以促進第二車輛(例如,303b和303c)中的至少一個人與第一車輛303a中的人111之間的可信多方會話。如果人們舒適地將彼此的語音的樣本存儲在他們的車輛中,則認證可以基于語音識別。其他認證方法可以是可能的,包括在多方會話中的人或車輛的面部或圖像識[0071]圖1c示出了根據本公開中描述的技術發(fā)送和接收無線連接的不同車輛的概念圖。[0072]車輛可以如圖1c所示被直接無線地連接,或者可以無線地連接到作為C-V2V或V2X通信系統176的一部分、能夠發(fā)送和接收數據和/或消息的不同接入點或節(jié)點。[0073]圖1d示出了使用車輛內的高速緩存服務器或車輛內的存儲器發(fā)送和接收無線連接的不同車輛的概念圖。[0074]在經由側鏈路信道無線連接的第一設備和第二設備之間交換的即時消息可以包括從一個車輛傳送到另一車輛的數據分組和/或音頻分組。例如,第二設備(例如,車輛303d)可以在側鏈路信道上廣播或發(fā)送即時消息,其中即時消息包括元數據1。在一些配置中,元數據1是在側鏈路上發(fā)送的,并且可以不必須是即時消息的一部分。[0075]在不同的實施例中,在C-V2X或V2X通信系統176中的車輛可接收包括一個或多個標簽的即時消息或元數據,該一個或多個標簽與經由內容遞送網絡(CDN)從靜態(tài)廣播站遞高效且快速地傳送數據。在分布式網絡中,存在轉發(fā)可被使用的分組的網絡鏈路和路由器的許多可能的組合。網絡鏈路和路由器的選擇提供了快速和可靠的內容遞送網絡。[0076]高要求的內容可以被存儲或緩存在靠近網絡邊緣的存儲器位置中,數據的消費者位于那里。當存在正在被廣播的媒體內容(例如具有許多觀看者和收聽者的娛樂)時,這更有可能。緩存的更靠近媒體消費者的物理位置可能意味著更快的網絡連接和更好的內容遞送。在一種配置場景中,其中數據的發(fā)送方和接收方都在車輛中行駛并且車輛相對于彼此改變位置,CDN的角色可以提供有效方式來在側鏈路信道上遞送媒體內容。在最靠近消費者的網絡的邊緣處緩存的內容可以存儲在正在行駛的設備(例如,車輛303d)中。媒體內容(例如,音頻內容或元數據的一個或多個標簽)正被發(fā)送給其他行駛的車輛。如果在相同方向上沿著道路行駛,則廣播方設備(例如,車輛303e)和收聽方設備(例如,車輛303a)僅在彼此的幾英里內。所以有力的本地連接很可能的。相反,如果兩個車輛在同一道路上沿著相反方向行駛,則收聽方車輛303a可能掉落在廣播方設備(例如,車輛303e)和收聽方設備(例如,車輛303a)的范圍之外。[0077]在車輛到車輛通信系統中,可能可以接收超出車輛范圍的無線電臺。例如,在城市之間行駛300英里的車輛無疑會失去來自出發(fā)城市的信號。然而,用CDN,無線電信號可能可以以無線電臺信號的范圍界限從車輛中繼轉發(fā)和重新廣播。在距廣播站一定徑向距離處的車輛成為用于無線電臺的高速緩存,其允許具有一定范圍的其他車輛請求流。也就是說,廣播車輛303e可能可以包括緩存服務器172并且在C-V2X或V2X通信系統網絡176中廣播元數據2。收聽方車輛303a可以接收元數據2。[0078]可以使用機器學習算法來收聽、解析、理解和廣播駕駛員的收聽偏好。連同駕駛員的地理位置,信息可以被收集來確定每個地理區(qū)域內由車輛最頻繁地從其他車輛接收的最受歡迎的內容。[0079]如可以在圖1d中看出的,可以存在用于從第二設備接收元數據的第一設備。第一設備和第二設備可以經由作為C-V2X或V2x通信系統網絡172的一部分的側鏈路信道無線地連接。一旦第一設備(例如,車輛303d)接收元數據(例如,元數據1171或元數據2173),第一設備就可以讀取元數據且提取表示音頻內容的一個或多個標簽。[0080]一個或多個標簽可以包括歌曲名稱、藝術家名稱、專輯名稱、作家或國際標準音像制品代碼。國際標準音像制品代碼(ISRC)唯一地標識聲音記錄和音樂視頻記錄,并且被編碼為ISO3901標準。[0081]元數據可以被索引,并且可以是我的搜索引擎可搜索的。如果音頻內容被第二設備(例如,車輛303d或303e)流送或廣播,那么一個或多個標簽可以由音頻播放器讀取,或在一些情況下由到無線電的無線電接口讀取。另外,音頻標簽中的一個或多個可以在顯示設備上表示。與音頻內容相關聯的元數據可以包括歌[0082]元數據可以是結構性的或描述性的。結構性元數據將數據表示為數據的容器。描述性元數據描述音頻內容或與音頻內容相關聯的一些屬性(例如,歌曲輯等)。[0083]在由一個或多個處理器提取表示音頻內容的一個或多個標簽之后,可以基于所提取的一個或多個標簽來標識音頻內容。第一設備的一個或多個處理器可以被配置來輸出音頻內容。[0084]在圖1d中,第一設備也可以是被配置為接收一個或多個標簽之一的一組設備的一部分。設備(例如,車輛303a)可以是被配置為從另一設備(例如,車輛303d或303e)接收元數據的至少一個標簽的一組設備(例如,還有車輛303b和303c)的一部分。該組設備還可以包括發(fā)送元數據的其它設備(例如,車輛303d和303e)。也就是,可以存在包括五個設備的一組輛和頭戴式耳機的混合??梢允窃摻M設備包括該五個設備。[0085]在一個實施例中,該組設備可以是內容遞送網絡(CDN)的一部分。另外或可選地,該組設備中的第二設備(例如,303e)可以是各自的內容遞送網絡,并且將一個或多個標簽發(fā)送給該組中的其余設備。[0086]圖2示出了基于本公開中描述的技術的第一設備啟動與第二設備的通信的過程200的流程圖。[0087]210,第一設備可以包括被配置來檢測第一設備外部的至少一個目標對象的選擇的一個或多個處理器。220,一個或多個處理器可以被配置來啟動第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道。230,一個或多個處理器可以被配置來響應于設備外部的至少一個目標對象的選擇而從第二設備接收音頻分組。[0088]240,一個或多個處理器可以被配置來解碼從第二設備接收的音頻分組以生成音頻信號。250,一個或多個處理器可以被配置來基于第一設備外部的至少一個目標對象的選擇而輸出音頻信號。[0089]圖3示出了在第一車輛上或第一車輛中具有根據本公開中描述的技術操作的不同部件的第一車輛的概念圖。如圖3所示,人111可以在車輛303a中移動。車輛303a外部的目標對象的選擇可以直接在駕駛員的視野內,其可以由耦合到車輛303a內的相機310a的眼睛凝視跟蹤器(即,人111正在看目標對象)或手勢檢測器(人111做出手勢,例如指向目標對象)[0090]第一設備可以包括基于命令信號的檢測的至少一個目標對象的選擇,命令信號檢測是基于眼睛凝視檢測的。[0091]如果目標對象是車輛303a外部的人,或者存在與車輛303b相關聯的一些其他可識別圖像,則安裝在車輛303a上的相機310b也可以幫助目標對象本身(例如,車輛303b)或與目標對象相關聯的另一設備的選擇。[0092]通過可以是諸如C-V2X的蜂窩網絡的一部分的無線局域網(WLAN),或者是蜂窩網的一個或多個天線356可以幫助目標對象相對于車輛303a的相對位置的確定。[0093]應當注意,安裝在車輛303a內的攝像機310a、或安裝在車輛303a上的攝像機310b、或攝像機310a、310b兩者,取決于可用帶寬,通過一個或多個天線356,可以形成作為車輛303a的一部分的個人區(qū)域網絡(PAN)。通過PAN,車輛303a中的相機310a或車輛303a上的相機310b可能可以具有和與目標對象相關聯的設備或目標對象本身的間接無線連接。盡管外部相機310b被示出在車輛303a的前部附近,但是車輛303a可能可以具有安裝在車輛303a的后部附近或后部中的一個或多個外部相機310b,以便查看什么設備或車輛在車輛303a后[0094]外部相機310b可以幫助選擇,或者如前文和下文解釋,GPS也可以輔助確定第二設備的位置,例如第二車輛303c位于何處。[0095]第二設備的相對位置可以在顯示設備319上表示出。第二設備的相對位置可以基于由一個或多個天線356接收該位置。在另一實施例中,深度傳感器340可以使用來幫助或確定第二設備的位置。檢測第二設備的位置的其他位置檢測技術(例如,GPS)或者輔助GPS也可能可以用于確定第二設備的相對位置。[0096]第二設備的相對位置的表示可以表現為合成圖像、圖標或其它與第二設備相關聯的表示,以致車輛303a中的人可通過朝向顯示設備319上的表示的眼睛凝視或朝向顯示設備319上的表示的手勢(指向或觸摸)做出第二設備的選擇。[0097]選擇也可以通過語音識別并使用位于車輛303a內部的一個或多個麥克風360。當第二設備與車輛3030a通信時,音頻信號可以由(第一)車輛303a通過安裝在車輛303a中或車輛303a上的、耦合到一個或多個天線356的收發(fā)器接收。[0098]本領域普通技術人員還將理解,隨著自動駕駛車輛的繼續(xù)改進,車輛303a的駕駛是自動駕駛的。[0099]圖4a示出了在第一設備上或在第一設備中具有根據本公開中描述的技術操作的不同組件的第一設備的框圖400a。一個或多個不同組件可以集成在第一設備的一個或多個處理器中。[0100]如圖4a所示,選擇第一設備外部的目標對象可以基于眼睛凝視跟蹤器404,其檢測并跟蹤頭戴式耳機的佩戴者正在看哪里或第一車輛中的人111正在看哪里。當目標對象在人的視野內時,眼睛凝視跟蹤器404可以檢測和跟蹤眼睛凝視并幫助經由目標對象選擇器414選擇目標對象。類似地,耦合到車輛303a內的一個或多個面向內部的相機403的或安裝在頭戴式耳機(未示出)上的手勢檢測器406可以檢測手勢,例如,指向目標對象的方向。另外,語音命令檢測器408可以幫助基于人111說出如上所述的短語(例如“在我前面的黑色本田雅閣”)來選擇目標對象。語音命令檢測器408的輸出可以被目標對象選擇器414使用以選擇預期的第二設備,例如車輛303b或303c。[0101]如前提及,車輛303a可能可以具有安裝在車輛303a的后部附近或后部中的一個或多個面向外部的攝像機402,以便查看什么設備或車輛在車輛303a后面。例如,第二設備可以是車輛303c。[0102]目標對象(例如,第二設備)可以相對于第一設備且基于圖像的特征、圖像、或圖像和圖像的特征兩者表示,其中圖像由耦合到第一設備的一個或多個相機捕獲。[0103]一個或多個面向外部的攝像機402可以幫助第二車輛303c位于何處的選擇,例如,在車輛303a的后面(在其它圖中)。[0104]還可能的是,基于一個或多個發(fā)送器天線425和可能地深度傳感器340(圖4a中未示出),或檢測第二設備的位置的其它位置檢測技術(例如GPS),第二設備的相對位置可以二設備相關聯的表示,以致車輛303a中的人可通過朝顯示設備410上的表示的眼睛凝視或至少一個目標對象的表示的顯示設備可以被配置為基于顯示設備上的電容傳感器或超聲[0106]耦合到包括在第一設備中的一個或多個處理器的第一設備的一個或多個發(fā)送器天線425,可以被配置為基于由一個或多個處理器在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道的啟動來向第二設備發(fā)送通信數據。也就[0107]選擇也可以是通過語音識別的,并使用位于車輛303a內部的一個或多個麥克風車輛303a上的一個或多個接收器天線430由(第一)車輛303a接收,該接收器天線耦合到收處理器的一個或多個接收天線430可以被配置為基于在第一設備外部的至少一個目標對象[0108]另外,第一設備可以包括一個或多個面向外部的相機402。如果目標對象是車輛[0109]提取的特征或外部傳感器422的輸出可以輸入所選目標對象的相對位置/朝向的確定器420。所選目標對象的相對位置/朝向的確定器420可以被集成到一個或多個處理器可以被音頻空間化器420使用來輸出基于第二設備的相對位置的三維音頻信號??梢源嬖隈詈系揭粋€或多個處理器的至少兩個揚聲器440,其被配置為基于第二設備的相對位置呈[0111]在由目標對象選擇器414執(zhí)行第一設備外部的至少一個目標對象的選擇之后,集成到第一設備中的一個或多個處理器中的命令解釋器416啟動在第一設備和與第一設備外[0112]來自第二設備的音頻分組432a可以由編碼解碼器438解碼以產生音頻信號。可以基于第一設備外部的至少一個目標對象的選擇來輸出音頻信號。在一些場景中,音頻分組可以表示來自與遠程設備(即,第二設備)436a相關聯的云的流。編碼解碼器438可以解壓縮音頻分組,并且音頻空間化器可以操作未經壓縮音頻分組432b或436b。在其他場景中,音頻可以基于進行第二車輛選擇的人的乘客位置來空間化。[0113]由要使用的音頻編碼解碼器進行的音頻分組的傳輸可以包括以下的一個或多個:和v2V系統可以使用數據業(yè)務信道或語音信道,因此音頻分組(可以攜帶語音信號)可以使用以下編碼解碼器中的一個或多個來解壓縮音頻信號:AMR窄帶語音編碼解碼器 (5.15kbp)、AMR寬帶語音編碼解碼器(8.85Kbps)、G.729AB語音編碼解碼器(8kbps)、GSM- 在通過空中發(fā)送之前,聲碼器分組被插入到更大的分組中。語音在語音信道中發(fā)送,盡管語音也可以使用VOIP(voice-over-IP,基于IP的語音)在數據信道中發(fā)送。編碼解碼器438可表示語音編碼解碼器、音頻編碼解碼器、或用于解碼語音分組或音頻分組的功能的組合。通[0114]還可能的是,在一種配置中,在第二車輛與第一車輛相距一定的距離之后,空間化效果可以被禁用。[0115]包括在第一設備中的一個或多個處理器可以被配置為在第二車輛距第一設備大于可配置距離之后禁用空間化效果。該一定的距離可以是基于距離可配置的,例如八分之一英里??膳渲镁嚯x可以隨著距離測量或時間測量被輸入。該一定的距離可以是基于時間可配置的,例如,取決于第一車輛和第二車輛的速度。例如,取代指示八分之一英里是空間效果應該持續(xù)的距離,它們之間的距離可以依據時間來測量。車輛以每小時50英里(mph)行駛,八分之一英里相當于9秒,即125mi/50m[0116]圖4b示出了在第一設備上或第一設備中具有根據本公開中描述的技術操作的不同組件的第一設備的框圖400b。一個或多個不同組件可以集成在第一設備的一個或多個處理器中。[0117]框圖400b包括通信解釋器416和rx天線430。通過rx天線430,一個或多個處理器可以被配置為從第二設備接收元數據435,第二設備經由側鏈路信道無線地連接到第一設備。一個或多個處理器可以在緩沖器444中存儲元數據??梢詮木彌_器444讀取元數據435。一個或多個處理器可以被配置為提取表示音頻內容的一個或多個標簽。例如,通信解釋器416可以向控制器454發(fā)送控制信號,并且可以被集成為一個或多個處理器的一部分的控制器可以控制提取器460,該提取器也可以被集成為一個或多個處理器的一部分。提取器460可以被配置為提取表示音頻內容的一個或多個標簽。如果一個或多個標簽尚未處于可以在緩沖器444中原位提取它們的形式中,則可以經由總線445將它們寫回到緩沖器444。也就是說,提取器460可以提取緩沖器444中的一個或多個標簽,或者提取器460可以經由總線445接收元數據,然后經由總線445將一個或多個標簽寫回到緩沖器444中。本領域普通技術人員將認識到,可以寫入一個或多個標簽的位置可以是同一緩沖器444或替代緩沖器中的不同存[0118]一個或多個處理器可以被配置為基于一個或多個標簽來識別音頻內容。識別可以以多種方式完成。例如,標簽中的一個可以識別歌曲的名稱,并且識別歌曲的標簽可以在顯示設備410上顯示,或者一個或多個處理器可以將“歌曲”標簽存儲在存儲器位置中(例如,也在緩沖器444中)、或在替代存儲器位置中?;谠撟R別,一個或多個處理器可輸出音頻內[0119]音頻內容的輸出可以以多種方式完成。例如,第一設備中的一個或多個處理器可以被配置為基于一個或多個標簽切換到正在播放所識別的音頻內容的無線電臺。這可以通過使無線電接口458從控制器460接收控制信號來發(fā)生。無線電接口458可以被配置為掃描無線電470上的不同無線電臺,并且基于一個或多個標簽將無線電470切換到正在播放所識別的音頻內容(例如,歌曲)的無線電臺。[0120]在另一個示例中,一個或多個處理器可以被配置為基于一個或多個標簽開啟媒體播放器并使媒體播放器播放所識別的內容。媒體播放器可以從具有可以與所接收的一個或多個標簽相關聯的標簽的播放列表中讀取。例如,控制器可以被配置為將經由元數據接收并用其自己的標簽提取的一個或多個標簽與存儲在存儲器中的音頻內容進行比較。媒體播放器可以耦合到數據庫448,并且數據庫448可以存儲與媒體播放器的播放列表的音頻內容相關聯的標簽。數據庫448還可以存儲音頻比特流形式的音頻內容的壓縮版本,該音頻比特流包括音頻分組。音頻分組453可以被發(fā)送到編碼解碼器438。編碼解碼器438可以被集成為媒體播放器的一部分。應當觀察到,音頻分組453可以被存儲在數據庫448中。還可能可以如圖4a中所描述的接收音頻分組432a。另外,可能可以接收與一個或多個標簽相關聯的音頻分組432a,該一個或多個標簽與經由rx天線430接收的音頻內容相關聯。[0121]第一設備包括一個或多個處理器,其可以從第二設備接收元數據,該第二設備經由側鏈路信道無線地連接到第一設備,該一個或多個處理器讀取從第二設備接收的元數據以提取表示音頻內容的一個或多個標簽,并基于標簽識別音頻內容,然后輸出音頻內容。[0122]經由側鏈路信道的無線鏈路可以是C-2VX通信系統的一部分。在C-V2Vx系統中的第一設備和第二設備可以都是車輛,或者設備中的一個(第一或第二)可以是頭戴式耳機,而另一個是車輛(第一或第二)。統中的第一設備和第二設備都可以是車輛。[0124]第一設備可以包括被配置為基于存儲在第一設備上的配置偏好來掃描緩沖器444的一個或多個處理器。例如,可以存在從多個第二設備接收的許多元數據集。在第一設備(無論是車輛還是頭戴式耳機)中收聽音頻內容的人可能僅想要基于配置偏好(例如,搖滾音樂)收聽音頻內容。配置偏好還可以包括來自第二設備的屬性。例如,第二設備本身可以[0125]在相同或可選實施例中,第一設備耦合到顯示設備。耦合可以是集成,例如,顯示設備被集成為頭戴式耳機的一部分或車輛的一部分。第一設備中的一個或多個處理器可以被配置為在顯示設備的屏幕上表示一個或多個標簽。當緩沖器444耦合到顯示設備410時,包括歌曲名稱、藝術家甚至藍色BMW的一個或多個標簽可以出現在顯示設備410的屏幕上。[0126]如先前關于圖4a所討論,第一設備可以包括被配置來表示出第二設備的相對位置的顯示設備。類似地,關于基于來自從第二設備接收的元數據的所提取的一個或多個標簽識別的音頻內容,第一設備可以包括被配置來輸出三維空間化音頻內容的一個或多個處理器。在從編碼解碼器438解碼來自數據庫448的音頻分組453之后,三維空間化音頻內容可以可選地由音頻空間化器424生成。在相同或可選實施例中,可以從編碼解碼器438解碼與所標識的音頻內容的一個或多個音頻標簽相關聯的音頻分組432a。編碼解碼器438可實施關于圖4a所描述的音頻編碼解碼器或語音編碼解碼器。一個或多個處理器可以被配置來基于在顯示設備410上表示出第二設備的相對位置在哪里而輸出三維空間化音頻內容。輸出的三維空間化音頻內容可以由耦合到第一設備的兩個或更多個揚聲器440呈現。[0127]在一些配置中,不依賴第二設備的位置是否表示出在顯示設備410上,音頻內容的輸出可是基于第二設備的相對位置的三維空間化音頻內容。[0128]另外,在相同或可選實施例中,一個或多個處理器可以被配置來淡入或淡出與一個或多個標簽相關聯的音頻內容。[0129]與一個或多個標簽相關聯的音頻內容的淡入或淡出可以基于第二設備的可配置距離。例如,如果第二設備的距離在20米內或在200米內,則在第一設備中收聽音頻內容的人可能期望淡入或淡出音頻內容。此外,如關于圖4a所描述,一個或多個處理器可以被配置為在第二設備距第一設備大于可配置距離之后禁用空間化效果。因此,可能存在第一可配置距離來淡入和淡出音頻內容(例如,在0到200米內),以及第二可配置距離,其中如果第二設備在200米內或甚至更遠(例如,多至2000米),則收聽空間化效果的收聽者的空間化效果是禁用的。如前所述,可配置距離(第一可配置距離或第二可配置距離)可以是距離測量或時間測量。[0130]如關于圖1d所描述,第一設備可以是一組設備的一部分。圖1d所示的一個或多個標簽170或緩存服務器172也可以是緩沖器444的一部分,或者可以可選地被繪制為與圖4b中的緩沖器444相鄰,其中元數據435a可以是元數據1或元數據2,這取決于第二設備是否是在存儲器中具有一個或多個標簽170的設備(例如,車輛303d),或者第二設備是否是具有緩存服務器172的設備(例如,車輛303e)。因此,音頻內容的淡入或淡出也可能可以基于組中的設備之一何時從組斷開連接。例如,第一設備可以與該組設備斷開連接,并且音頻內容可以淡出。類似地,當連接成為該組設備的一部分時,音頻內容設備)與一組設備連接或斷開時的淡入和淡出兩者中,淡入或淡出也可以是基于可配置距[0131]另外,該組設備中的第一設備和其它設備可以是內容遞送網絡(CDN)的一部分,如以上在描述圖1d時所描述。[0132]第一設備或第二設備可以是單獨的內容遞送網絡,并且可以向該組的其它設備發(fā)送一個或多個標簽。[0133]雖然在圖4b中繪制了一個或多個面向外部的相機402和目標對象選擇器414,在圖4a中沒有耦合到它們的其他組件,但是在相同或替代配置中,其也可以接收與一個或多個標簽相關聯的音頻分組,該一個或多個標簽與經由一個或多個rx天線430接收的音頻內容相關聯。CN113196795B[0134]像這樣,在由目標對象選擇器414執(zhí)行第一設備外部的至少一個目標對象的選擇之后,集成到第一設備中的一個或多個處理器內的命令解釋器416啟動在第一設備和與第一設備外部的至少一個目標對象相關聯的第二設備之間通信的信道。響應于第一設備外部的至少一個目標對象的選擇,可以從第二設備接收音頻分組。[0135]來自第二設備的一個或多個標簽可以被接收在元數據中,其被從緩沖器444讀取,提取,并用于識別音頻內容。音頻內容可以基于第一設備外部的至少一個目標對象的選擇來輸出。在一些場景中,一個或多個標簽可以表示出來自與遠程設備(即,第二設備)相關聯的云的流。[0136]圖5示出了根據本公開中描述的技術將世界坐標變換到像素坐標的概念圖500。安裝在第一車輛上的外部相機(例如,圖3中的310b、圖4a和圖4b中的402)可以捕獲圖像(例如,視頻幀)并在三維(3D)世界坐標[x,y,z]502中表示出對象。世界坐標可以被變換到3D相機坐標[xc,yc,zc]504.3D相機坐標504可以被投影到2Dx-y平面(垂直于相機(310b、402)的面的法向量)中,并且在像素坐標(xp,y。)506中表示出圖像的對象。本領域普通技術人員將認識到,從世界坐標到像素坐標的這種變換是基于使用輸入旋轉矩陣[R]、平移矢量[t]yz]*[R]+t,其中旋轉矩陣[R]是3×3矩陣,且平移向量是1×3向量。[0137]感興趣區(qū)域(ROI)的邊界框可以在顯示設備510上由在像素坐標(xP,yP)表示??梢源嬖谝曈X指示(例如,在邊界框512內部增強的顏色變化或圖標或合成指針),以警告車輛中的乘客,目標對象(例如,第二車輛)已經選定來啟動與其的通信。[0138]圖6a示出了在遠程車輛/乘客(例如第二車輛)的距離和角度的估計的一個實施例的概念圖。距離可以從視頻幀中的邊界框622d得到。距離估計器630可以接收傳感器參數632a、外視相機(310b、402)的固有和外部參數632d以及邊界框622d的大小632b。在一些實施例中,可以存在車輛信息數據庫,其包括不同車輛的大小632c,并且還可以包含可以幫助識別車輛的某些圖像特性。[0139]可以以視頻幀率估計距離和角度參數,并進行內插來匹配音頻幀率。從車輛的數對應于3D世界坐標中具有給定方位角和仰角的線。[0140]例如使用邊界框的左下角和右下角,并且具有車輛的寬度w,可以如圖6b所示的估[0141]圖6b示出了遠程設備的x-y平面中的距離640c和角度640a的估計的概念圖。[0142]圖6b中的點A可以由世界坐標(a,b,c)表示。圖6b中的點B也可以由世界坐標(x,y,z)表示。方位角(θ)640a可以表示為(θ?+0?)/2。對于小角度,距離dy*(sinθ?-sinθ?)近似為w,其是圖6b中的遠程設備的寬度。世界坐標(x,y,z)和(a,b,c)可以用x-y平面中的寬度表示,例如使用以下公式:[0146]圖5中描述的像素坐標可以表示為xp=x=a和y,=y=w+/-b。[0147]類似地,使用邊界框的左下角和左上角,并且知道第二車輛303b的高度h、第二車CN113196795B說明書17/21頁輛30b的仰角(φ)640b,可以如圖6c所示的計算第二車輛的距離dyz。[0148]圖6c示出了遠程設備的y-z平面中的距離和仰角640b的估計的概念圖。[0149]圖6c中的點A可以由世界坐標(a,b,c)表示。圖6c中的點B也可以由世界坐標(x,y,z)表示。仰角(φ)640b可以表示為(φ?+φ2)/2。對于小角度,距離dyz*(sinφ?-sinφ2)近似為h,其是圖6c中的遠程設備的高度。世界坐標(x,y,z)和(a,b,c)可以用y-z平面中的高度表示,例如使用以下公式:[0153]圖5中描述的像素坐標可以表示為x。=x=a,和y,=y=b。[0154]根據聲源的位置,對于來自遠程設備670的左半部、右半部或中間的聲音,可以對仰角640b和方位角640a進行進一步調整。例如,如果遠程設備670是遠程車輛(例如,第二車輛),則聲源的位置可以取決于是駕駛員講話還是乘客講話。例如,遠程車輛的駕駛員側(左)方位角640a可以表示為(3*0?+0?)/4。這提供了在圖8中表示的在車輛的左半部的方位角640a。[0155]視頻幀率通常與音頻幀率不匹配。為了補償不同域(音頻和視頻)中的幀率的失幀對應的值的線性插值??蛇x地,可以使用(采樣并保持)來自最近的視頻幀的值。此外,可以以降低響應能力為代價,通過從過去幾個視頻幀中取中值(剔除異常值)或平均值來平滑這些值。[0156]圖6a所示的距離640c,d可以是d,或dz,或者d和d的某種組合,例如平均值。在一些實施例中,可能期望忽略第一車輛和遠程設備670之間的高度差,例如,假如遠程設備670與第一車輛處于相同高度。另一示例可以是,第一車輛中的收聽者配置設置,以通過將從遠程設備670發(fā)出的聲場的z分量投影到x-y平面中來接收空間音頻。在其他示例中,遠程設備670可以是無人機(例如,四處飛行播放音樂),或者可以在高層建筑中流送音樂的設備。在這樣的示例中,可能期望由角度估計器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論