3D手势识别背后的技术

时间: 2023-12-18 15:38:47 |   作者: 光电sensor

工作地点:首页 > 爱游戏最新官网 > 光电sensor

  随着触摸屏技术的不断推广,用户已经适应并逐渐熟悉了与机器的互动。现在,人机互动技术已迈上了更高的台阶,进入了手势识别时代,不过这也并不是一帆风顺的。手势识别现已在娱乐及游戏市场出现,然而这种技术将对我们的日常生活产生怎样的影响呢?不妨假想一下,有人坐在沙发上,只需一挥手就能操控灯光和电视,或者汽车自动检验测试附近是否有行人。随着手势识别技术上的支持人机互动的不断深入发展,这些及其它功能将很快得以实现。手势识别技术长期以来一直采用 2D 视觉进行研究,但随着 3D 传感器技术的出现,其应用将日益广泛并多样化。

  计算机视觉技术一直在努力向堪比人类智慧的智能方向发展,以更好地了解场景。若无法解释周围的世界,计算机就无法与人实现自然交流对接。计算机在了解周围场景方面面临的主体问题包括细分、对象表征、机器学习与识别等。由于 2D 场景表征本身存在局限性,手势识别系统必须应用其它各种提示信息才能得到包含更有用信息的更好结果。在可能性信息包含整个身体跟踪时,尽管将多种提示信息整合在一起,单靠 2D 表征也很难获得超越手势识别的任何信息。

  向 3D 视觉及手势识别发展过程中的挑战一直都是第三坐标 —z 轴坐标的获取。人眼能看到 3D 对象,能自然识别 (x,y,z) 坐标轴,从而能清楚看到一切事物,而后大脑能够以 3D 影像的形式表达这些坐标轴。机器没有办法获得 3D 视觉的一大挑战就在于影像分析技术。目前有 3 种应对 3D 采集问题的常见解决方案,每种方案都有其独特的功能与特定的用途。这三种方案分别为:立体视觉、结构光模式以及渡越时间 (TOF)。有了这些技术提供的 3D 影像输出,就可实现手势识别技术。

  立体视觉系统可能是最为人所熟知的 3D 采集系统。该系统使用 2 个摄像机获得左右立体影像,该影像有些轻微偏移,与人眼同序。计算机通过比较这两个影像,就可获得对应于影像中物移的不同影像。该不同影像或地图可以是彩色的,也可以为灰阶,具体取决于特定系统的需求。立体视觉系统目前通常用于 3D 电影,能带来低成本而又震撼人心的娱乐体验。

  结构光模式可用来测量或扫描 3D 对象。在该类系统中,可在整个对象上照射结构光模式,光模式可使用激光照明干扰创建,也可使用投影影像创建。使用类似于立体视觉系统的摄像机,有助于结构光模式系统获得对象的 3D 坐标。此外,单个 2D 摄像机系统也可用来测量任何单条的移位,然后通过软件分析获得坐标。无论使用什么系统,都可使用坐标来创建对象外形的数字 3D 图形。

  渡越时间 (TOF) 传感器是一种相对较新的深度信息系统。TOF 系统是一种光雷达 (LIDAR) 系统,同样可从发射极向对象发射光脉冲。接收器则可通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离。

  TOF 系统不是扫描仪,因为其不支持点对点测量。TOF 系统可同时获得整个场景,确定 3D 范围影像。利用测量得到的对象坐标可创建 3D 影像,并可用于机器人、制造、医疗技术和数码摄影等领域的设备控制。

  实施 TOF 系统所需的半导体器件现已开始供货。目前的器件支持实现 TOF 系统所需的处理性能、速度与带宽。

  不同的应用或市场适用于不同的 3D 视觉技术。图 1 显示了不同 3D 视觉技术的比较及其相关响应时间、软件复杂性、成本及准确性的相对优缺点。

  立体视觉技术需要极高的软件复杂性才可以获得高精度 3D 深度数据,其通常可通过数字信号处理器 (DSP) 或多内核标量处理器做处理。立体视觉系统支持小巧的外形与低成本,是移动电话等消费类设备的良好选择。不过,立体视觉系统的精确度与响应时间不及别的技术,因此对于制造质量控制管理系统等要求高精度的系统来说不太理想。

  结构光技术是包括 3D 计算机辅助设计 (CAD) 系统在内的 3D 对象扫描的良好解决方案。这些系统的相关软件复杂性可通过硬接线逻辑解决(如 ASIC 与 FPGA 等),其需要高昂的开发及材料成本。此外,该计算复杂性还可导致较慢的响应时间。在实现微观层面上的高精度方面,结构光模式技术优于其它 3D 视觉技术。

  TOF 系统取得了性能与成本的平衡,非常适用于需要快速响应时间的制造与消费类电子设备等应用领域的设备控制。TOF 系统软件复杂程度通常较低,不过这些系统要昂贵的照明部件(LED、激光二极管)以及高速接口相关部件(快速 ADC、快速串行/并行接口、快速 PWM 驱动器),这将提升材料成本。图 1 显示了这三种 3D 传感器技术的对比情况。

  随着“z”坐标的加入,显示与影像更接近自然,更贴近人类。人们在显示屏上能看到人眼从旁边的环境所看到的逼真事物。增加这第三维坐标改变了可使用的显示与应用类型。

  立体显示屏常常要用户佩戴 3D 眼镜。这种显示屏为左右眼提供不同的影像,两眼看到的影像不同,让大脑误以为看到了 3D 影像。这种显示屏目前大范围的使用在众多 3D 电视与 3D 电影院。

  多视点显视屏不同于立体显示屏,无需佩戴特殊眼镜。这些显示屏可同时投射多个影像,每个影像稍微有些位移,形成适当的角度,让用户可在每个视点角度看到相同对象的不同投射影像。这些显示屏支持全息摄影效果,在不久的将来将实现全新的 3D 体验。

  处理并显示“z”坐标的功能将实现全新的应用,这中间还包括游戏、制造控制、安全、互动数字标牌、远程医疗、汽车以及机器人视觉等。图 2 是身体骨架与深度映射传感技术所支持的某些应用领域视图。

  人类手势识别是一项深受欢迎的新技术,可为游戏、消费类以及移动产品带来新的输入方式。用户能以极其自然、直观的方法与设备做互动,从而可促进产品推广。这些人类手势识别产品有从 160 x 120 像素到 640 x 480 像素,30 到 60 fps 的各种分辨率的 3D 数据。原始数据到z深度解析、双手跟踪以及全身跟踪等软件模块需要数字信号处理器 (DSP) 对 3D 数据来进行高效快速处理,才能实现实时游戏与跟踪。

  工业与制造传感器等大多数 3D 视觉工业应用都采用至少 1 像素至数 100k 像素的影像系统。3D 影像可使用 DSP 技术来控制分析,确定制造瑕疵或者从部件集中选择正确的部件。

  每天我们都在遭受广告的轰炸,无论是看电视、开车还是在机场登机都是如此。有了互动数字标牌,企业就可通过精确定位的市场营销工具提供适合每位消费者的内容。例如,有人走过一个数字标牌,标牌上可能就会马上显示额外的消息确认该客户。如果客户停下来阅读信息,该标牌可能会理解为客户对产品感兴趣,并提供更有明确的目的性的消息。麦克风则将让广告牌检验测试并识别关键短语,进一步精确定位所提供的消息。

  这些互动数字标牌系统将需要 3D 传感器做全面的身体跟踪,2D 传感器进行面部识别,并需要麦克风进行语音识别。这些系统的软件将运行在更高级的 DSP 及通用处理器 (GPP) 上,不但可实现面部识别、全面的身体跟踪以及 Flash 媒体播放器等应用,而且还可提供诸如 MPEG4 视频解码等功能。

  3D 视觉将为医疗领域带来前所未有的全新应用。医生无需跟患者共处一室就可问诊。远程虚拟护理采用高精度 3D 传感器支持的医学机器人视觉系统,可确保为每一位患者提供最优质的医疗护理,无论他们身处何方。

  近期,汽车应用在交通信号、车道以及障碍检验测试方面使用 2D 传感器技术取得了长足发展。随着 3D 传感技术的到来,3D 传感器的“z”数据将大幅度的提高场景分析的可靠性。汽车利用 3D 视觉系统,现已有了预防事故的新途径,无论白天还是夜间都非常适用。采用 3D 传感器,车辆能可靠检测并解读旁边的环境,确定对象是否对车辆及车内乘客构成安全威胁。这些系统要求软硬件支持 3D 视觉系统,并需要密集型 DSP 及 GPP 处理性能在极短时间内解读 3D 图形,避免事故。

  视觉会议技术经过多年发展,已经从间断脱节传输影像发展成当前的高清系统。未来增强型视频会议将充分的发挥 3D 传感器的优势,提供更真实、更具互动性的视频会议体验。该增强型视频会议系统具有集成型 2D 传感器以及 3D 传感器及麦克风组合,将能够与其它增强型系统连接,实现高质量的视频处理、面部识别、3D 影像、噪声消除以及内容播放器(Flash 等)等应用。随着这种密集型音视频处理需求的出现,需要具备最佳性能及外设组合的 DSP。

  对许多应用而言,需要同时具备 2D 和 3D 摄像机系统才能充分实现应用技术。图 3 显示了这些系统的基本数据路径。从传感器获取数据,接着进行视觉分析,这并不像数据路径示意图看上去那么简单。具体而言,TOF 传感器需要的带宽相当于 2D 传感器的 16 倍之多,这可导致高输入/输出 (I/O) 问题。另一个瓶颈则存在于原始 3D 数据向 3D 点云转换的处理过程中。通过正确的软硬件组合解决这样一些问题,对于手势识别及 3D 的成功应用至关重要。当前数据路径可通过DSP/GPP 处理器组合加上分立式模拟组件及软件库实现。

  如前所述,输入带宽限制对 3D 视觉嵌入式系统提出了极大的挑战。此外,输入接口也没有标准化。设计人员可为 2D 传感器与通用外部存储器接口选择采用不一样的输入选项,这中间还包括串行与并行接口。在支持最佳带宽的标准输入接口出现之前,设计人员只可以使用现有的接口。

  图 3 所示的 3D 深度映射处理可分为两类:一是以数据为中心的视觉专用处理,二是应用上层处理。以数据为中心的视觉专用处理需要处理器架构能够执行单指令多数据 (SIMD) 快速浮点乘法及加法运算,以及快速搜索算法。DSP 是快速可靠执行这种处理功能的完美选择。对于应用上层处理而言,高级操作系统 (OS) 及协议栈则可提供任何应用上层所需的必要特性集。

  根据两种处理器架构要求,提供高数据速率 I/O GPP+DSP+SIMD 处理器的片上系统 (SoC) 很适合 3D 视觉处理,其可支持必要的数据及应用上层处理。

  3D 视觉处理领域的中间件是多种来源的众多不同组件的整合,包括开源(如 OpenCV)与专有商业源等。商业库主要是针对身体跟踪应用,这是一种特定的 3D 视觉应用。目前尚未开发出针对所有不同 3D 视觉应用标准化的中间件接口。

  没有人质疑 3D 视觉的诱人因素。工程师早已在期待未来的应用发展。那么不久的将来会出现哪些最新技术?研究人员已经在开发针对人和对象的各种视觉技术了。全球研究人员正在使用多路径光分析技术,探索实现转角视觉或绕开对象的视觉途径。透明研究将带来可透视对象和材料的系统,而运动检测系统则将带来查看人类大脑内部的应用,从而可检验一个人是否在撒谎。

  3D 视觉与手势识别技术的发展会带来无尽的可能性。不过,如果没有支持这些振奋人心的新技术所必须的硬件及中间件,该研究将没有任务意义。提供 GPP+DSP+SIMD(通用处理器+数字信号处理器+单指令多数据流)架构的 SoC(系统芯片)持续不断的发展,将提供处理性能、外设支持以及必要带宽的完美组合,从而可实现这种振奋人心的技术与应用。

  中国立体视像产业联盟秘书长唐斌 随着3D立体视像、全息影像等技术不断取得突破性进展,3D立体技术和产品正革命性地影响和改变着人们的沟通、工作和生活方式。3D立体技术不仅在工业领域得到普遍应用,推动传统信息化的升级,而且其正悄悄地融入个人娱乐与数字家庭的诸多领域,如电影、电视、动画、游戏、通讯、摄影、摄像、购物、互联网等。3D立体消费电子时代已经开启,它必将对传统生活形态产生巨大的影响,催生一条全新的产业链,带来更可观的经济效益。 目前,虽然3D在大多数消费者眼中还只是一种概念,但由此产生的3D立体产业高质量发展将会是一场划时代的革命,就像将3D技术应用发挥到极致的好莱坞电影大片《

  产业迅速成长 标准制定紧急跟上 /

  近日,由刘静研究员领导的中科院理化技术研究所、清华大学联合小组报道了一种基于液态金属的可植入式生物医学电子器件体内3D打印成型技术。研究文章发表在Nature出版集团系列期刊《科学报告》上。 在此项研究中,科研人员首次提出了一种以微创方式直接在生物体内目标组织处喷墨注射成型的医疗电子器件在体制造方法,首先将生物相容的封装材料注射于体内固化形成特定结构,在此区域内进一步将导电性金属墨水、绝缘型墨水乃至配套的微/纳尺度器件等顺次注射后形成目标电子装置,经过控制微注射器的进针方向、注射部位、注射量、针头移位及速度这样的3D打印步骤,可在目标组织处按预定形状及功能构建出终端器械。由于全部器件及单元均采用基于微针的液相注射方式

  自动驾驶汽车(AV)是如何观看外部世界的? 你可能听说过LiDAR或其他奇怪的摄像头。但它们是如何工作的,它们如何能看到这一个世界,与人类相比,它们到底看到了什么?如果我们想让AV上路,了解它们的工作原理是至关重要的,尤其是如果你在政府工作参与到制定法规,或作为被服务的对象。 我们通过Tesla AI DAY了解过特斯拉的车辆是如何工作的,但它们与传统的AV不同。特斯拉只使用摄像头来了解世界,而大多数其它公司,如Waymo,使用普通摄像头和3D LiDAR。这些LiDAR相当简单易懂,它们不会像普通摄像头那样产生图像,而是产生3D点云。LiDAR测量物体之间的距离,计算它们投射到物体上的脉冲激光的飞行时间。

  物体检测? /

  目前,中国3D电视呈井喷式发展,在全球3D电视产业环境日益成熟的背景下,3D电视表现出迅猛的发展势头。自年初《阿凡达》引发3D体验狂潮之后,作为上市不到1年的电视新品,3D电视可谓创下有史以来普及速度最快、消费者接受度最高的电视消费奇观。 目前市场上3D电视产品很多,三星、索尼、松下、长虹等13家国内外彩电企业都有不相同的型号的3D电视产品推出。面对如此多的3D电视消费者该如何明智的选择呢?我们要从3D电视显示技术说起。 3D电视显示技术综述 3D电视显示技术能分为眼镜式和裸眼式两大类。在家用消费领域,无论是显示器、投影机或者电视,现在都是需要配合3D眼镜使用。而对于眼镜式3D技术,我们又可以细分出三种类型:色

  4月18日消息,据路透社报道,三星电子周五表示,公司已将最新的芯片制造技术授权给美国制造商GlobalFoundries。此举旨在帮助后者改善生产力,以提高其在面对像苹果这样的大订单时与台积电的竞争力。 GlobalFoundries是全球第二大合同芯片制造商。而根据周五公布的声明,该公司如今已从三星获得了3D芯片制造工艺的授权,或称为FinFET。 三星已计划在今年第四季度展开14纳米工艺的FinFET量产。公司希望逐步的提升产能,以满足当前日趋增加的市场需求。 3D晶体管比传统平面晶体管的体积要小很多,同时功耗和性能表现方面也分别有35%和20%的改进。 三星在芯片制造业上最大竞争对象为台积电。后者目前仍主要是采用28纳

  前几日,SK海力士正式公开宣布量产最强72层3D NAND闪存颗粒,一时间震撼全行业。可近日,韩国媒体给出的报道称,三星将从7月份开始运营位于韩国京畿道平泽市的新半导体工厂。下面就随模拟电子一起来了解一下相关联的内容吧。  前几日,SK海力士正式公开宣布量产最强72层3D NAND闪存颗粒,一时间震撼全行业。 海士力要哭了!三星将量产最强64层3D NAND闪存芯片 可近日,韩国媒体给出的报道称,三星将从7月份开始运营位于韩国京畿道平泽市的新半导体工厂。这是全球顶级规模的芯片工厂,占地289万平方米,而在这里三星量产第四代3D NAND闪存芯片,该芯片垂直堆叠达到64层。 新工厂从2015年开始建造,耗资15.6万亿韩元(约合136亿

  从制造商的立场来看,除非实现硅穿孔(TSV)所增加的成本以及随之而来的所有工艺步骤都能够因为芯片性能优势而得到大部分的补偿,或是工艺与材料成本大幅度降低,才可能加速3D IC的量产。 因此,在今年初于法国举行的欧洲3D TSV高峰会上,提到一个重要的问题是,怎么样才可以将拥有成本平均分配到整个供应链? 该由谁来制造TSV? 针对非MEMS IC,TSV也必须进一步微缩,是因为如果你的TSV 排除区域 (Keep-out zone)耗用太多优质芯片面积的话,进展到下一代节点也并不一定有意义。由于这些工艺需要的设备组合通常只在晶圆厂中才有,因此TSV的整合理想上应该 由代工厂来完成

  IC成本效益显着提升 /

  2D激光雷达除了实现定位、建图、多点触摸等应用外,还能用来做3D建模与环境扫描。肯定会有人好奇,2D激光雷达扫描出来的图像应该是平面图,怎么将2D平面图变为三维的立体图呢? 目前市面上实现这种效果的方式主要有两种: 一种是采用现状激光器,将原先的一个点变成一条线型光,如下图的效果: 另一种方式是使用一个2D激光雷达扫描,同时在另一个轴进行旋转,从而扫描出3D信息。 以下主要为大家介绍第二种方法,通过激光雷达的不断扫描,不需反射棱镜就可以快速获取各转角情况下目标物体扫描截面到扫描仪的具体点云数据,同时获取被测物体表面的三维坐标,高效地对真实世界进行三维建模和虚拟重现。 当然这种方法虽能较为方便的将2D激光雷达做改造,能快速

  电子技术基础 数字部分 数字部分(第五版) (康华光、华中科技大学电子技术课程组)

  版 (许珉,孙丰奇,车仁青)

  报名直播赢【保温杯】等好礼|TI MSPM0 MCU 在汽车系统中的应用

  ADI世健工业嘉年华—有奖直播:ADI赋能工业4.0—助力PLC/DCS技术创新

  MPS 隔离式稳压 DC/DC 模块——MIE系列首发,邀你一探究竟!

  随着电动汽车电子器件多功能化、集成化、高功率化趋势,汽车控制器系统工作时产生的热量慢慢的变多。 传统能源的日益短缺,环保压力日渐加重 ...

  卷扬机上使用变频器有以下几个好处:节能:变频器能够准确的通过实际的需求调整电机的转速,避免电机长时间运行在高速状态下,由此减少能源的消耗。 ...

  本文将探讨从Profinet协议转换到CCLink协议的过程,包括转换的必要性、网关的使用、转换步骤以及需要注意的几点。通过了解这一些内容,能够更好地理 ...

  在流程工业中,我们处理许多流程,其中一些流程基于计时器运行。有些进程需要较少的运行时间,而其他进程则要比较长的时间。时间较短的过程 ...

  机器视觉上主要使用在的四大LED光源有哪些?欢迎各位一块儿来看看这篇文章!环形光源环形光源由高密度LED阵列组成,结构紧密相连,占用空间小,在机 ...

  站点相关:嵌入式处理器嵌入式操作系统开发相关FPGA/DSP总线与接口数据处理消费电子工业电子汽车电子其他技术存储技术综合资讯论坛电子百科

下一条:一款单芯片UWB IC让轿车超宽带运用玩出新花样!