买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于机器学习的VR场景沉浸控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于机器学习的VR场景沉浸控制方法

面议

专利号： 2017108576624

申请人：南京邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于机器学习的VR场景沉浸控制方法，其特征在于，包括如下步骤：

步骤A01.针对L个VR音频录制设备所采集音频信号对应的MIT HRTF数据库，获取MIT HRTF数据库中的各个音频信号对象xn，1≤n≤N，xn表示MIT HRTF数据库中第n个音频信号对象，N表示MIT HRTF数据库中音频信号对象的数目；接着分别针对各个音频信号对象xn，获得音频信号对象xn所对应的各个指定音频特征属性值xns，并构建该音频信号对象xn的特征向量p(xn)＝{xn1、…、xns、…、xnS}，1≤s≤S，xns表示第n个音频信号对象所对应的第s个指定音频特征属性值，S表示指定音频特征属性的数目，各个指定音频特征属性包括方位角；然后根据W个VR场景音频输出设备，构建W个聚类簇，初始化迭代次数g＝1，并进入步骤A02；

步骤A02.由N个音频信号对象中随机选取W个音频信号对象，作为W个初始音频信号对象，剩余各个音频信号对象作为各个待处理音频信号对象，构建待处理音频信号对象集合M＝{x1、…、xl、…、xL}，1≤l≤L,L＝N-W，然后进入步骤A03；

步骤A03.将W个初始音频信号对象的特征向量分别一一对应加入至各个聚类簇中，分别作为各个聚类簇中的向量元素，并分别获得各个聚类簇中所有向量元素的初始均值向量a1、…、aw、…、aW，1≤w≤W，然后进入步骤A04；

步骤A04.分别针对待处理音频信号对象集合M中的各个待处理音频信号对象，获得待处理音频信号对象xl分别与各个聚类簇初始均值向量aw的距离dlw，并将该待处理音频信号对象xl加入至最小dlw所对应的聚类簇当中，进而将待处理音频信号对象集合M中各个待处理音频信号对象分别加入至对应聚类簇当中，然后进入步骤A05；

步骤A05.判断迭代次数g是否等于预设最大迭代次数，是则进入步骤A08；否则进入步骤A06；

步骤A06.分别获得各个聚类簇中所有向量元素的均值向量a′1、…、a′w、…、a′W，并针对各个聚类簇，判断各个聚类簇初始均值向量aw与对应均值向量a′w是否均相等，是则进入步骤A08；否则进入步骤A07；

步骤A07.分别针对各个聚类簇，获得聚类簇初始均值向量aw与对应均值向量a′w之间的差值，并获得W个差值的平均值，作为调整幅度值，然后判断调整幅度值是否小于预设最小调整幅度阈值，是则进入步骤A08；否则回滚本次迭代中步骤A02至步骤A04的操作，并针对迭代次数g的值进行加1更新，然后返回步骤A02；

步骤A08.分别针对各个聚类簇，获得聚类簇中各个向量元素方位角的均值，并与MIT HRTF数据库中音频信号对象的方位角进行对比，确认该聚类簇所对应的方位角，并与VR场景音频输出设备的摆放位置进行映射，进而将各个聚类簇一一对应映射到W个VR场景音频输出设备，实现L个VR音频录制设备到W个VR场景音频输出设备的音频信号映射控制。

2.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：还包括步骤A0102如下，执行完步骤A01之后，进入步骤A0102，执行外步骤A0102之后，进入步骤A02；

步骤A0102.分别针对各个音频信号对象中的各个指定音频特征属性，进行标准差标准化更新。

3.根据权利要求2所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述步骤A0102包括如下：步骤A0102-1.分别针对各个音频信号对象，获得音频信号对象xn所对应S个指定音频特征属性值的平均值同时分别针对各个指定音频特征属性，获得N个音频信号对象对应指定音频特征属性的平均值然后进入步骤A0102-2；

步骤A0102-2.分别针对各个音频信号对象，并进一步针对音频信号对象中的各个指定音频特征属性值，采用的结果，针对xns进行更新，进而针对各个音频信号对象中的各个指定音频特征属性进行标准差标准化更新。

4.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述步骤A04中，分别针对待处理音频信号对象集合M中的各个待处理音频信号对象，按如下公式：dlw＝||xl-aw||2

获得待处理音频信号对象xl分别与各个聚类簇初始均值向量aw的距离dlw。

5.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述各个指定音频特征属性包括方位角、仰角、双耳时间差数据、双耳声级差数据、频谱结构相位数据和幅度数据。

6.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述步骤A08之后还包括如下步骤：步骤B01.分别针对各个VR场景音频输出设备，获得当前时刻、VR场景音频输出设备相对于用户的位置状态yw，yw表示当前时刻、第w个VR场景音频输出设备相对于用户的位置状态；然后基于yw，获得下一时刻、该VR场景音频输出设备相对于用户分别位于各类不同位置状态的概率Bwm＝[P(yw1|yw)、…、P(ywm|yw)、…、P(ywM|yw)]，1≤m≤M，M表示各类不同位置状态的种类数，ywm表示下一时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态，进而基于W个VR场景音频输出设备，构建矩阵A＝[P(ywm|yw)]W×M，然后进入步骤B02；

步骤B02.获取基于任意时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态y′wm下，该时刻用户定位坐标x'被获取的概率P(x′|y′wm)，则基于W个VR场景音频输出设备、M种不同位置状态，构建矩阵B＝[P(x′|y′wm)]W×M，然后进入步骤B03；

步骤B03.分别针对各个VR场景音频输出设备，获得VR场景音频输出设备相对于用户的初始位置分别为各种不同位置状态的概率向量πw＝P(y″wm)，y″wm表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态，P(y″wm)表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态的概率，进而获得各个VR场景音频输出设备分别相对于用户的初始位置分别为各种不同位置状态的概率向量组π＝{π1、…、πw、…、πW}，然后进入步骤B04；

步骤B04.根据矩阵A、矩阵B和概率向量组π，构建三元数组E＝{A,B,π}，然后进入步骤B05；

步骤B05.根据历史数据推算各个状态的转移率，并针对三元数组E＝{A,B,π}，计算A、B、π，在采用前向算法计算指定隐马尔可夫模型下，各个VR场景音频输出设备、下一个可观察状态序列的概率如下：则t时刻、第w个VR场景音频输出设备相对于用户位于各类位置状态下时，该t时刻向前预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率：以及该t时刻向后预设各时刻分别观测到该第w 个VR 场景音频输出设备相对于用户位于对应位置状态的概率：

接着利用前向、后相的参数学习算法在学习过

程中不断更新隐马尔可夫模型的参数，从而使P(xt|λ)最大，然后进入步骤B06；

步骤B06.获取各个时刻用户的定位信息序列x″＝{x″1、…、x″K}，且用户当前时刻定位信息为：x″t＝(ηt,σt)，(ηt,σt)表示用户当前时刻定位坐标信息，接着将x″输入到隐马尔可夫模型当中，预测下一时刻用户的方向，并将该方向转换成角度τ，结合预设用户步长λ，预测获得下一时刻用户的位置，然后进入步骤B07；

步骤B07.通过VR场景音频输出设备指向用户算法，根据所获预测用户下一时刻的位置，调整个VR场景音频输出设备的指向；以及根据所获预测用户下一时刻的位置，实时调节音量算法。

7.根据权利要求6所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述VR场景音频输出设备相对于用户的各类不同位置状态包括原地不动、正前方、正后方、正左方、正右方、左前方、左后方、右前方、右后方。

8.根据权利要求6所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述用户定位坐标为用户GPS定位信息。