深度剖析：风口之上的无人商店和它背后的“黑科技”

一、未来已来，“无人商店”风起

（一）“无人商店”成为零售业新趋势，或迎发展红利期

随着人工智能、机器视觉等新兴技术的逐渐成熟，加上国内全球领先的移动支付态势，以无人零售为代表的新零售受到各大电商平台及知名品牌的关注。无人商店俨然已成为全球零售业的一种新趋势，阿里等传统零售业巨头开始尝试无人商店模式，一些中小型创业公司凭借其较业内领先的人工智能技术也崭露头角。继共享单车之后，无人商店有望成为下一个爆炸性新型业态。

iiMedia Research（艾媒咨询）数据显示，2017 年无人零售商店交易额预计达 389.4 亿元，未来五年无人零售商店将会迎来发展红利期，2020 年预计增长率可达 281.3%，至 2022 年市场交易额将超 1.8 万亿元。2017 年中国无人零售商店用户规模仅有 600 万，未来五年用户规模将大幅增长。至 2022 年，用户规模可达 2.45 亿人。从互联网及

电商巨头纷纷布局未来电商的趋势来看，无人零售商店理念的渗透会随店面覆盖率上升而逐渐深入用户群体，平台流量导流的情况下用户规模会呈现明显喷发趋势。

从经营角度来看，无人便利店能够减少人工成本，扩大应用场景，同时具备可规模化复制能力。从消费需求来看，无人便利店的消费习惯在 90 后、00 后体现的很明显，在 70 后、80 后的中产富裕阶层也体现的越来越明显。

（二）互联网巨头纷纷入局，多足鼎立之势渐成

互联网巨头向来作为市场风向标，从亚马逊的 Amazon Go 到阿里的淘咖啡，无人商店风口将至。从 2016 年亚马逊推出 Amazon Go 以后，便利蜂、罗森推出“无人化”便利店；TakeGo 无人店 2017 年 2 月份在北京芝麻信用大会上亮相，它由深兰科技推出的快猫智能零售系统实现； 2017 年 6 月初，欧尚、大润发等大型超市相继开始尝试 BingBox 无人店模式。2017 年 6 月 25 日，在上海深兰科技联合蚂蚁金服，支付宝，英伟达等发布了三款 TakeGo无人店技术，娃哈哈更与深兰科技则签订了 3 年 10 万台 Takego 无人店协议。随后，乳业大佬伊利也计划在 2000多个社区内推广和深兰科技合作推出的无人便利微店。在 7 月 8 日-12 日举办的 2017 淘宝造物节上，免去排队、无需扫描、甚至不掏手机的线下快闪店——“淘咖啡”无人结算版，即将亮相。

1、Amazon Go：Just Walk Out

Amazon Go 是亚马逊推出的无人便利店，Amazon Go 颠覆了传统便利店、超市的运营模式，使用计算机视觉、深度学习以及传感器融合等技术，彻底跳过传统收银结帐的过程。2016 年 12 月 5 日，亚马逊宣布推出革命性线下实体商店——Amazon Go。

Amazon Go 的购物流程较为简单：

1）消费者在进入 Amazon Go 进行购物时首先需要一个亚马逊帐号，并在自己的智能手机上安装亚马逊的应用软件，用户打开Amazon Go App，刷一下二维码，即可进入商店。有些在入口处还会对顾客进行人脸识别，确认用户身份。

2）当消费者在货架前停留并选择商品时，摄像头会捕捉并记录顾客拿起或放下的商品，同时，置于货架上的摄像头会通过手势识别判断顾客是否将货物置于购物篮还是只是看看然后又放回原处。

比如：拿起一样东西，系统会自动记录物品及数量。

如果不要了，放回去就是了，系统会自动扣除

对于用户购物信息的统计，则是通过货架上的红外传感器、压力感应装置(确认哪些商品被取走)及荷载传感器(用于记录哪些商品被放回原处)。

3）用户所采购的商品数据会实时传输至 Amazon Go 商店的信息中枢，不会有任何延迟，顾客付账时直接离店就可，传感器会扫描并记录下消费者购买的商品，同时自动在消费者的账户上结算出相应的金额。

当你走出门后，商品就会自动被识别，并且完成结算，并在手机上显示详细清单。

直接出门就可以了，手机会自动显示你买了什么以及自动扣款。

人工智能、图像识别、手势识别、深度学习等最前沿最时髦的技术都在Amazon GO上得到了充分的体现，并且还是亚马逊极简的产品思路，相信看过Amazon Echo语音助手和Amazon Dash Button便利按钮两款产品的朋友都深有体会。

2、阿里淘咖啡：线下经营线上支付抢商机

淘咖啡是阿里实验室筹划已久的“无人零售计划”中的第一个应用场景，试图通过一体化的实体店无人结算解决方案，让消费者的每一个体验环节都足够快和平滑。同时，它将阿里巴巴电商板块的核心能力灌注到线下消费场景中，

赋予实体店和线上一样创造便捷高效体验、依靠数据进行智能化运营的能力，形成线上线下贯通的闭环。淘咖啡是一个占地达 200 平方线下实体店，将集商品购物、餐饮于一身，可容纳用户达 50 人以上，而实际容纳规模可随场地面积而增加。

消费者进入淘咖啡的整个购物过程大致分为三个步骤：

1）用户首次进店需打开“手机淘宝 app”，扫码获得电子入场码，同时签署数据使用、隐私保护声明、支付宝代扣协议等条款，顾客将手机放在认证闸机上方以通过验证即可开始购物。

▲ 淘咖啡手机扫码入场

选好商品后，也不再需要掏出手机付款。顾客会通过“结算门”（阿里巴巴内部戏称为“剁手门”），它由两道门组成，第一道门负责感应顾客的离店需求，自动开启；第二道门用于结算，当这道门打开之后，顾客便已为商品买单，并收到支付宝的扣款通知。

▲ 淘咖啡离店扣费

2）餐饮区，顾客可通过语音点单，语音识别系统会迅速识别，并将信息陈列到面前的屏幕上。若回答“确认支付”，所选商品即自动下单，相应款项将同步从支付宝账户中扣除。

咖啡厅内顾客的影像会投影到一块公开的大屏上，每个人旁边都带有相应的取餐时间提示。

淘咖啡涉及的技术包括多摄像头与传感器结合、计算机视觉、人工智能、深度学习等方面，具体到场景中，入场生物识别等技术负责对顾客进行身份验证与淘宝ID的绑定；走进货架，拿起商品，除了生物识别之外，还会有数据追踪，用以记录货架的库存状态和消费者购物时的心情；“结算门”之间会有图像识别技术。

相比 Amazon Go，淘咖啡把支付功能设计在了分拆到了离店时的“支付门”上，货架区则是用视频信息捕捉来优化运营，帮助结算。

在无人监督的环境下，如何约束消费者的不良购物行为？阿里巴巴的选择是，发现顾客有掩藏商品、或撕毁电子识别码的行为时，会制约该顾客下次进场。

3、缤果盒子（BingBox）：新零售业的“超级网红”

欧尚、大润发相继在上海推出无人零售商店缤果盒子，缤果盒子成为零售业的“超级网红”。缤果盒子的定位是全球第一款真正意义上的可规模化复制的 24 小时便利店，于 2016 年 8 月开始在广东中山地区启动项目测试，2017年 6 月初落地上海、开启针对一线城市的大规模人流测试。缤果盒子主打是可规模化复制的 24 小时无人值守便利店，定位是全新社区智能化项目，目的是为高端社区居民提供更高品质的生鲜及便利服务。十个多月的试运营期间，缤果盒子的客流量在数万人次，用户复购率接近 80%。

缤果盒子的购物流程： 首先顾客进入商店需要扫描二维码，目前只支持微信扫描，暂不支持支付宝，如果微信没有实名认证，同样无法进入。用户在商店内选好商品后，需将商品整齐放置于收银台检测区，然后，检测台边上的显示屏会自动显示一个收费二维码，用户可以利用微信或者支付宝扫描二维码即可完成付账，然后离店即可。

缤果盒子主要采用 RFID 技术和人脸识别技术等。店内商品包装上皆贴有 RFID 标签，内置的全视角视频监控，可有效震慑顾客在店内的作弊行为(比如破坏商品、撕毁 RFID 标签等)，当然，一旦出现作弊行为，系统会自动报警，相关人员会及时赶到现场处理。缤果盒子目前已累计申请 16 项全球首创的专利，拥有动作识别防盗系统、自动结算系统、动态货架、人脸识别等多项技术优势，在提高效率的同时保障安全，缤果盒子在安全运营的半年内，始终保持 0 偷盗的记录。

国内无人商店的序幕刚刚开启，便逐步形成多足鼎立状态。TakeGo 无人店 F5 未来商店处于快速布店阶段；便利蜂手握 3 亿美元融资，已在中关村开了 5 家店；快猫 QuiXmart 的亮点在于扫手支付 facepa；小 e 微店主打“上班族”，渠道策略清晰。除以上品牌，还有 Eatbox 怡食盒子、罗森便利店、7-Eleven 等在持续追赶，连锁巨头沃尔玛在 6月初推出了自助杂货售卖亭，而北京居然之家也将于 2017 年 7 月开出无人便利店 EAT BOX，寻求在渠道占领方面的先发优势。

二、站在投资风口，资本市场浪涌

自亚马逊 Amazon Go 开张以来，无人零售商店逐渐成为创业者和资本追逐的新风口。2017 年 4 月，国内智能零售的领导企业——深兰科技（上海）有限公司完成首轮数千万元天使轮融资，由 DNA 基金领投，国内 A 股制造业龙头企业徐工集团的蓝海基金跟投。目前已经得到包括伊利集团、来伊份、中民投、金茂集团、日本田三、澳洲 Goodhousekeeping 连锁等企业订单，订单金额已逾 2 亿元，产品也将在进入日本、澳大利亚、新西兰和美国市场，为扩大市场占有率。由华兴资本作为 FA，启动第二轮融资，目标募集 6000 万，目前跟投和领投方已超 2 位数。

2017 年 6 月 28 日，创新工场宣布完成对 F5 未来商店的 3000 万元 A+轮融，这是一家依托自主研发的机械臂和后台管理系统来构建 24 小时无人值守便利店。此前，F5 曾获得创大资本 200 万元的天使轮融资，以及 TCL 创投的1000 万元 Pre-A 轮融资。F5 商店目前提供三种购买方式，一种是通过移动端下单，到临近的 F5 门店取货；第二

种是通过店内的自助终端下单，机器出货后取货；第三种是通过店内的商品墙扫码下单，机器出货后取货。三种购买方式均由用户自助完成。

2017 年 7 月 1 日，无人便利店企业缤果盒子也宣布已完成 A 轮融资，金额超 1 亿元。该轮融资由 GGV 纪源资本领投，启明创投、源码资本、银泰资本等机构共同参与投资。缤果盒子已做好了大规模量产的准备，预计一年内可完成 5,000 个网点的铺设。

资本的涌入预示着无人便利店正在成为继共享单车后下一个爆炸性新型业态。中国百货商业协会自助售货行业分会内部分析材料显示，2017 年中国无人店行业将迎来一个起始年。

三、机器视觉（人脸识别）、语音识别、RFID 标签等新兴技术支撑“无人商店”落地

目前国内市场上常见的无人店有两类，一类是机器视觉技术无人店，一类是 RFID 技术无人店，还有部分自动售货机组合。Amazon Go、淘咖啡及 take go 可划为第一类，三者用的都是目前大热的前沿技术，比如机器视觉、深度学习算法、传感器融合技术、卷积神经网络、生物识别等。第二类则主要是指缤果盒子、7-11、罗森日本无人店，这几家主要利用了 RFID 标签技术，RFID 在对货物的识别与防盗上更具优势。

1）机器视觉是人工智能正在快速发展的一个分支。简单说来，机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置，分 CMOS 和 CCD 两种)将被摄取目标转换成图像信号，传送给专用的图像处理系统，得到被摄目标的形态信息，根据像素分布和亮度、颜色等信息，转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。

目前一些无人店使用机器视觉完全可以支持识别顾客拿走或者放回商品的动作，再利用生物识别（如人脸识别），生物支付（如指纹支付）等技术淘汰掉原来店员的监控和收银等重复动作，大大提高效率，增加了店主利润。了解到视觉识别技术的难点在于独特的算法，目前比较成熟的公司除了基础的算法外，还辅助引入了其他黑科技，不仅关注商品本身，同时也对其他关联信息进行分析，如对消费者正购买的动作予以关注，同步进行体态计算，很大程度提升了识别的精准度。

产业链方面：

由于机器视觉需要用到摄像头，所以自然也离不开摄像头产业链的关键企业。

CCD厂商，主要还是索尼柯达等，不过主要用于工业市场。CMOS厂商除了索尼、三星、Omnivision、佳能等大厂之外，国内也有格科微、思比科、奇景等厂商。

工业相机厂商方面，在国内比较有影响力的国外厂商有瑞士堡盟Baumer、德国Basler、德国AVT、德国映美精ImageSource、加拿大PointGrey、日本东芝Teli等。国内厂商有大恒、方诚、华用、维视、度申等。

镜头厂商：远心镜头（主要是为纠正传统工业镜头视差而设计，它可以在一定的物距范围内，使得到的图像放大倍率不会变化，这对被测物不在同一物面上的情况是非常重要的应用。远心镜头由于其特有的平行光路设计一直为对镜头畸变要求很高的机器视觉应用场合所青睐）主要是日本VST和意大利Opto相对知名，FA镜头主要是日本VST、日本理光（Pentax被理光收购了）、日本Computar、日本Fujinon、日本KOWA、德国Schneider等等。国内也涌现了不少的出色的镜头厂商，比如舜宇。

摄像头模组厂商方面：国内则有很多的厂商，比如舜宇、欧菲光、邱太、信利等众多厂商。不过这些厂商目前的产品主要还是针对智能手机等相关领域。在针对机器视觉（人脸识别）方面，英特尔的Realsense 3D模组以及奥比中光的3D摄像头模组则相对更为突出。

视觉处理芯片厂商：国外比较知名的有Movidius、Mobileye（两家都已被英特尔收购），国内的全志科技（比如其V系列芯片）、瑞芯微（比如其新推出的RK1608）、君正（比如其T系列芯片）、盈方微（比如其C系列和Q系列芯片）等厂商也均有涉及。

机器视觉算法厂商（也可以看做是人工智能厂商）：目前国内比较知名的有旷视科技（Face++）、格灵深瞳、云从科技、商汤科技等。另外，其实上面很多做芯片、模组甚至一些终端品牌厂商也都有涉及，比如在安防领域比较知名的海康威视、大华等等。

2）RFID 是无线射频识别技术的缩写，是一种非接触式的自动识别技术。可通过无线电讯号识别特定目标并读写相关数据，而无需识别系统与特定目标之间建立机械或光学接触。RFID 技术最早起源于英国，应用于第二次世界大战中辨别敌我飞机身份，20 世纪 60 年代开始商用。RFID 技术是一种自动识别技术，后被广泛应用于身份证件、门禁控制、供应链和库存跟踪、汽车收费、防盗、生产控制、资产管理等方面。在 Walmart、Metro 等零售业企业应用该技术后，RFID 技术的发展进入了黄金时代。

基于 RFID 技术的无人店目前主要有以下三种模式，按使用流程来分主要分成：预识别（身份）模式、免识别（身份）模式和全开放模式。

预识别（身份）模式是指用户在打开智能商品柜或无人店大门时需先进行身份识别后方可进行商品购物的。如欧尚引入的无人店，首先需扫描二维码（身份认证）后方可进入，即属于一种典型的预识别（身份）应用，如不能完成识别，则消费者无法进行购物动作！ (商品均配有 RFID 标签，并形成相应电子账单）

免识别（身份）模式是指用户无需进行身份识别即可进行商品购物。一般此类无人店都会设有门禁系统，消费者通过物理开关可以直接进入店内，在消费者进入后，门禁自动锁死，消费者在购物完成且支付成功后，门禁方可重新开启。 (商品均配有 RFID 标签，并形成相应电子账单）

全开放模式是指用户可自由出入店内，并可自由选择商品，商品带有 RFID 及二维码支付标签，消费者在选择商品并扫码完成支付后即可出店。但如未完成支付而出店时，门禁系统会自动检测并报警。全开放模式的优点在于，可以解决多点购物结算问题，同时门店改造相对可控。该模式如加以配备少量服务人员并结合前两种模式的应用设备组合的话，则特别适合便利店、超市形成有人、无人结合应用的新模式。

目前 RFID芯片厂商主要有：国外的NXP（恩智浦）、Impinj（英频杰）、Alien（意联）、富士通等；国内有上海复旦微电子、深圳远望谷等等。

3）除了机器视觉和 RFID这两大类技术之外，语音识别也是目前一些无人零售店有用到的技术。而在这块，国内的科大讯飞、思必驰、云知声等厂商也都做的不错。另外阿里在这块也有布局，比如其近期发布的天猫精灵所采用的自然语言处理以及声纹识别技术均由其自己的人工智能实验室研发。

编辑：芯智讯-浪客剑

注：本文约60%内容源自华创证券研报；关于相关产业链介绍方面，相关厂商只是例举，并非盘点，所以对于未提及的主要厂商在此表示抱歉。另外如果有错误的地方，希望能够通过评论指正。谢谢！

—————————— 活动预告 —————————

随着移动支付及智能手机行业的迅猛发展，让生物识别产业进入黄金时代。指纹识别技术已经开始在智能手机上普及，随着手机全面屏的兴起，以及三星、苹果等厂商的带动，新的屏幕内指纹识别、虹膜识别、人脸识别、语音识别等技术备也即将成为智能手机全新的打开方式。同时随着移动支付以及例如无人超市等新兴领域的发展，也将推动人脸识别、语音识别以及虹膜识别等技术的加速落地。

指纹识别技术百花齐放，虹膜、人脸、语音识别虎视眈眈，谁又将会引领新一轮的生物识别发展热潮，创新还是颠覆？生物识别产业又将迎来新的发展机遇。

芯智讯暂定于2017年8月下旬在深圳举办一场生物识别论坛。欢迎感兴趣的厂商与我们联系，索取资料！邮件预报名：yj@padnews.cn

_____________________________

更多干货、爆料、独家观点，欢迎订阅芯智讯

官方微信公众号：芯智讯

VR 不完全科普指南

大家都了解VR是一种可以创建和体验虚拟世界的计算机仿真系统，是利用计算机从而生成一种模拟环境，可以让用户沉浸到该环境中。下面这篇文章是笔者整理的关于VR的科普内容，想要了解的同学可以进来看一看。

一、上帝的画笔

你有没有想过创造一个世界？

或者，如果让你当创世神的话，你知道该怎么构造这个世界吗？

千百年来，人类一直试图回答这个问题：用语言、用图像、用视频。可是还是不够。我们从未能真正重现我们所感受的世界，只能凭借真实经验的脑补，将它们当做真的而已。

媒介限制了我们对世界的描摹。

有没有一种方式，能够让我们真正地拿起上帝的画笔？

有一群人，试图用 VR 给出答案。

VR 的历史可以追溯至 20 世纪 60 年代，Philco （现被飞利浦收购）的两位工程师 Charles Comeau 和 James Bryan 制造出了一款用于军事目的头戴式显示器 HeadSight，该设备能够显示来自隔壁房间摄像头的视频画面，摄像头的位置可根据佩戴者的头部移动而移动，从而塑造出一种临场感。

图一，图片来自 THE VR SHOP

作为人类历史上的第一款量产头戴式显示器，Philco Headsight 的视场角仅有 40°，刷新率也仅有 10 Hz，而重量则是…未知。

60 余年过去了，早 Philco Headsight 五年的达特茅斯会议，经历过潮起潮落，终于在上一年迎来了它们最重磅的主角：ChatGPT。

而头戴式设备也并非吴下阿蒙，空间定位、眼动追踪、手势识别、Micro LED、Pancake 光学模组，硬件、算法与工程学的结合，让上帝的画笔呼之欲出。

接下来，就让我们进一步走进 VR 的世界。

二、我们应该如何呈现世界？

正如把大象塞进冰箱需要三步，制造一台 VR 设备也是如此：

让世界在我们的眼前呈现。让世界与我们进行实时地交互。把一切都塞到一台头戴式设备上，让其独立运行。

我们先来谈第一步。

让世界在我们的眼前呈现，这件事我们并不陌生，已然创造了一个赛博世界的我们，透过手机的屏幕，另一个世界的光映入眼中。把手机换成 VR 设备，道理也是一样的：我们需要一块屏幕，然后我们把屏幕的光映入眼中。

1. 一块屏幕

我们需要一块屏幕，以显示另一个世界的丰富。古早的时候，因为看重 AMOLED 的色彩饱和度，VR 显示屏用的都是 AMOLED，但 AMOLED 的像素密度低且难以提升，并且存在纱窗效应（像素低导致的，人眼可以看到像素点），所以便更换成了 LCD 。

LCD 是液晶显示屏，对比度、色域、亮度都不够，同时刷新率低。为了改善 LCD，Fast-LCD 又被引入，顾名思义，Fast-LCD 采用了超速驱动技术，刷新率可以提升到 75-90 Hz，同时用了新的液晶材料，呈像效果上也有所改善。

但 Fast-LCD 仍然存在问题，由于是背光技术，不能自发光，需要有背光光源，所以面板上容易出现漏光现象。为了解决这个问题，业内通常采用 Fast-LCD + Mini LED 背光光源的方案，将 Mini LED 作为 Fast-LCD 的背光光源。Mini LED 实际上就是在背板上集成了尺寸更小的 LED 灯珠，所以亮度、对比度都会有所增强。

目前，Fast-LCD + Mini LED 背光光源已成为 XR 设备的主流方案，但 Micro OLED 和 Micro LED 将是未来的探索方向。两者都是自发光技术，无需背光，无论从色域、亮度、对比度，还是功耗、分辨率等方面都领先其他方案。随着Apple vision pro 采用 Micro OLED，Micro OLED 的发展将进一步加速。

图二，表格由 MicroDisplay 整理

2. 把光映入眼中

如果说把手机的光映入眼帘，是一件再自然不过的事。VR 设备的光就有所讲究了，从业者至少需要解决三个问题：

近眼成像： 视力正常者的最小物距（物体距离眼睛的距离）是 14 cm，而 VR 设备的屏幕物距仅 3-4 cm。深度感知： VR 设备的屏幕呈现的是 2D 画面，而沉浸式体验需要 3D 呈现。视觉放大： VR 设备的屏幕仅为普通眼镜大小，而 VR 画面渲染需要与现实世界同等尺寸乃至更大。

乍听起来，三个问题都如天方夜谭。然而受惠于神经科学和认知科学的发展，也得益于自托勒密时便兴起的视错觉研究，看似无能为力的问题亦都有了解法。

这都要从人的视觉机制说起。

1）人眼的视觉机制

人眼是如何看到事物的？不妨以照相机作喻：人眼是凸透镜成像，晶状体是照相机镜头，视网膜是照相机胶片。

图三，图片来自网络

物体光线从瞳孔进入眼睛，经由晶状体（凸透镜）折射，最终形成在视网膜上的倒立实像，经由人脑的算法自行复为正位。

凸透镜的成像原理，初中时都学过，透镜把平行光线汇聚于一点，形成实像/虚像。近大远小实际上也是因为凸透镜的作用（经过轴心的光线入射角减小，所以高度增加）。

图四，表格来自均一教育

如图所示，焦距固定，物距不同时，成像的距离也有所不同。当物距小于焦距时，物体成虚像，也就是放大镜的功效。

图五，图像来自百度百科

2）凸透镜的作用

运用凸透镜成像的规律，把光映入眼中的其中两个难题就可以解了。根据上图可得，当物体放置到透镜的一倍焦距内，便会在一倍焦距到二倍焦距之间形成一道正立放大的虚像。

什么是虚像呢？即物体的光经过反射而映入眼中的，光与光之间不能形成交汇，但人眼下意识觉得光是直线传播的，所以会自动反向延长光线，使其交汇于一点，从而形成虚像。

图六，图片来自光学影像与镜头

VR 的原理和人眼一样，利用了凸透镜的作用。通过在人眼和屏幕间放置一块凸透镜，屏幕放置于透镜的一倍焦距内，使其在 2 倍焦距出形成了屏幕内容的虚像，根据 B 站 Up 主消失的模因推算，大概是 280 英寸的巨幕大屏。

图七，图片来自 Up 主消失的模因视频截图

由于凸透镜的作用，屏幕的成像距离也被调整，如 Quest 2 的像距在 1.3 m，已经能够满足人眼的观看范围了。

不过，由图六可知，人眼与透镜、透镜与屏幕间，都需要保持合适的距离。如果透镜离人眼过近，像距也会被拉近，从而不能满足人眼的观看范围。如果透镜过远（仍要小于焦点），那整个设备的体积又会增大。

透镜的距离也影响着 FOV 的大小。这里要再稍微解释下 FOV 的概念，一般我们所谈论的都是水平 FOV（field of view），是指屏幕被透镜折射，最顶部和最底部的两道光线射入人眼所形成的夹角。

FOV 越大，人在屏幕中所看到的虚拟视野就越大。但问题在于，想要增加 FOV，要么把透镜后移，让其更靠近人眼，或者增加镜片的厚度。透镜后移，会导致像距被拉近，不能满足人眼的观看需求；增加镜片厚度，又会导致设备整体过重，并且同样的，像距依然会有问题。

实际上，FOV 并不是越大越好。现实世界中，人正常聚焦的视野范围一般在 110°，如果物体出现在 110° 外，人一般要转头去看，增加疲劳度。所以，只要保证 FOV 在 110° 左右，其实也就够了。

另一方面，透镜所呈现的放大版屏幕，实际上是原来屏幕的投射，屏幕分辨率是没有变的，FOV 越大，对屏幕分辨率要求就越高，差的屏幕甚至能看到像素点。从工程学而言，找到 FOV 同屏幕、透镜厚度、设备整体尺寸的平衡关系，才是实际的难点。

3）透镜的演变

在实际工程中，透镜的演变，或者说 VR 中光学方案的演变，大体可以从非球面镜片到菲涅尔镜片，再到 pancake 折叠光路。

图八，图片来自网络

一般的球面镜片，镜面各处曲率相同，所以光从镜片折射出来，会聚焦在不同的位置，也因此导致模糊和外围失真的情况，这种现象被称为球面像差；非球面镜片就是在球面镜片的基础上，改变表面的曲率，使得折射出来的光能够汇聚在一点上。这样，球面像差的问题就能得到缓解或消除；但非球面镜片有个问题，它太重了。

于是菲涅尔镜片被搬到了 VR 中，简单来说，透镜的主要作用是为了折射光线，而透镜中存在一部分区域不折射光线，既然如此，直接把这部分拿掉，也完全不影响透镜的功能。菲涅尔凭着这样的方式，减了一波重量。

但菲涅尔镜头各处曲率不变，焦距无法进一步被压缩，整体仍然较重，VR 眼睛也无法做得轻薄；同时由于曲面不连续，成像精度受限。非球面和菲涅尔镜头，都是采用平行光路的方案（光从透镜中透出，进入人眼）。想要再轻薄，目前最佳的实践是采用折叠光路（拉近焦距，通过多重反射进入人眼，既缩小焦距又保证成像）。

pancake 的名字也反映出了它的结构，就是像饼干一样的四层镜片（各家有不同，如果用 micro led 会有五层），它的光学原理不必深究（反正也搞不懂），只需记住它的解决方案是通过折叠光路使得焦距近一步被压缩。

焦距被压缩，其实不单改变厚度，也改变了视场角，近大远小，焦距变短，那视场角就会变大。当然这只是理论上的（理论上限 pancake 可达 200°），现实中由于工艺的问题，pancake 方案的视场角还没有菲涅尔广，在 60 – 90° 之间，而菲涅尔可以达到 100° 左右，当然，离人眼的 120° 还有一段距离。

当然，pancake 也有自己的问题，因为有两次反射的原因，理论上 pancake 的入射光线亮度只有一开始的 25%，这就要求光源本身得很亮。

同时由于多路反射，容易出现鬼影的情况，对工艺要求很高。但这些都是可解决的问题，平行光路有它的上限，如果要塑造沉浸感 + 便携的设备，折叠光路还是更好的方案。

由于 pancake 「损光」的特性，屏幕亮度就显得尤为重要，目前主流的搭配仍然是 Fast LCD + Mini LED 背光+ Pancake，但更理想的方式是 Micro OLED + Pancake，相比于传统 LCD 的 500 尼特亮度，Micro OLED 的亮度可达 1000-6000 尼特。

另外值得一提的是，既然是折射，画面一定会失真。现行的光学方案都是先让屏幕中显示的画面先失真（桶形畸变），再通过透镜折射恢复正常（透镜会通过枕形畸变将桶形畸变的图像恢复正常）。

图九，图片来自 POMEAS

4）沉浸感的实现

如果说凸透镜解决了近眼成像和视觉放大的问题，那么还留存着一个尚待解决的问题：深度感知。这也是实现 VR 沉浸感的关键。

解决方案其实再简单不过，只需在透镜前放置两块屏幕（或一块屏幕隔成两块），分别呈现同一图像的不同成像角度即可。

图十，图片来自网络

人眼是个非常神奇的存在，本质上当我们看向三维物体时，左右眼看到的其实是同一物体的不同角度的平面成像图像。当两种不同角度的图片到达人脑后，人脑内置的视觉算法可以自动将两张平面图片合成一张立体图片。

VR 成像，由于所有的内容都只呈现在屏幕上，而屏幕是平面的，所以无法像真实的三维物体一样，由于视差（两眼看到的角度差异）的存在而感受到立体感。所以，一不做二不休，干脆在两块屏幕上呈现同一物体的不同成像画面，利用大脑的自动合成功能，模拟立体感知。

虽然，双目视差的机制让 VR 眼镜能够模拟三维影像的立体感。但沉浸感除了立体，还有对于深度信息的感知。简言之，怎么区分物体离我们的距离。

5）远近感知

人眼感知世界的方式，主要依靠四种机制：

双目汇聚（vergence）双目视差单眼调节（Accommodation）大脑补充

其中，双目汇聚、单眼汇聚和大脑补充都能帮我们感知到世界的远近信息。在日常感知中，大脑补充其实是最为常见的体验，因为我们在观看视频时，视频画面本身是 2D 的，可我们却能从中判断出物体的远近，很重要的原因就是大脑补充。

大脑补充，简言之即人脑根据经验的总结，通过一些画面线索进行的距离判断，比如近大远小（学名仿射）、遮挡关系（近处遮挡远处）、光照阴影、纹理差异、先验知识（比如飞机和风筝同样大，但飞机比风筝远）。这些知识学过画画的同学不会陌生。

双目汇聚（vergence），简单理解，是指两只眼睛看向同一物体，这个过程需要转动眼球肌肉，使得双眼聚焦同一物体。当物体靠近或远离眼睛时，汇聚角（图中所示的夹角）也会变大缩小，同时眼部肌肉会收缩或放松。也即，通过感知汇聚角的范围和睫状肌的紧张程度，人眼可以分辨物体的远近。

图十一，图片来自 Relative contributions to vergence eye movements of two binocular cues for motion-in-depth

单眼调节（Accommodation）：眼睛依靠睫状肌进行聚焦控制，越靠近人眼的物体，成像会越模糊，通过模糊程度判断物体的远近。当眼睛聚焦在近处物体时，远处物体会模糊；相反，当聚焦在远处物体时，近处物体会模糊。

单眼汇聚只依靠单眼即可判断，一个典型的实验是：闭上一只眼睛，左右手分别竖起一只手指，与眼睛呈一条直线。当眼睛聚焦于近处手指时，远处手指模糊；反之亦然。本质上，单眼汇聚和双目汇聚是一体两面的存在，前者告诉大脑物体离人眼的绝对距离，后者告诉大脑双眼视线形成的绝对角度，两者都是在物理上可测量的。

VR 中的远近信息传递，主要运用了大脑补充，但因为屏幕的距离是固定的，透镜的距离也是固定的（pancake 之前），所以双目汇聚和单眼汇聚的信息是缺失的，而这也直接导致了所谓的 VAC 问题。

在真实世界中，人眼的汇聚距离和调节距离应该是一致的（观看远处物体时，眼睛聚焦到远处；观看近处物体时，眼睛聚焦到近处），反映在物理层面则是控制眼球转动的眼部肌肉和控制聚焦的睫状肌同步运动。但 VR 中，由于像距是固定的，因此无论观看画面中的远处或近处物体，眼睛都只能聚焦到屏幕上，这时，双眼肌肉与睫状肌便不再同步了。

图十二，来自维基百科

一般而言，有两种方式解决 VAC 问题。一种是光场技术， VAC 的本质是由于屏幕不含深度信息，而采用脑补的方式进行模拟，从而导致了眼部肌肉与睫状肌的不协调。

那如果让屏幕发出的光，一开始就不相同（比如画面中的远景发 A 光，近景发 B 光），人眼就可以获得深度信息，问题就得以解决了。另一种方式是通过可变焦距 + 眼动追踪解决（第三部分会详述）。

眼动追踪确定用户的注意焦点，通过可变焦距实时改变焦点处的焦距，进而改变成像距离，使得会聚距离与调节距离保持一致。

目前光场技术还不成熟，而业内已采用的 pancake 方案可以实现多重变焦，有望在第二种方案上实现突破。

三、世界应该如何与我们交互？

以上我们所讨论的仅仅是静态的呈现，而真实世界是动态的，我们每时每刻都在与世界本身交互。因此，尽管静态的 VR 世界已经如此庞大，我们仍然不能停下来，驻足欣赏此刻的成果，更艰难的事情在于从照片到影像的跃升。请继续保持耐心。

1. 空间定位

试想，当我们观察现实世界上，我们会移动，转头，于是我们看到事物的不同角度和大小。当我们靠近，声音变强，画面变大；当我们远离，声音减弱，画面变小；当我们围绕物体，则看到它的侧面。正是诗中所言：横看成岭侧成峰，远近高低各不同。

有一个专业术语，DOF（degrees of freedom），用于衡量人活动的尺度。如果把空间分为 X，Y，Z 轴，则一共可以包括六种移动方式：沿 X、Y、Z 平移；沿 X、Y、Z 旋转。

所谓的 6DOF，其实便是指包含这六种情况的活动类型。

图十三，图片来自网络

VR 空间中，本质上所有的信息都只是投射在眼前两块屏幕上的平面信息，远近、侧面并不存在。所以它其实是模拟用户发生相应活动后的视觉呈现效果，直接投射如人眼。

比如当人靠近某个物体，屏幕画面会放大；转头就能观察整个空间的全景，不是用户真的来到另一片空间，而是算法根据用户的当前活动判断，并进行实时渲染。

目前的算法，主要是以头盔的活动情况为标准，通过 IMU 和追踪摄像头进行空间定位。空间定位是 VR 的核心之一，因此有必要具体阐述。

1）IMU

IMU，全称为 Inertial Measurement Unit，翻译为惯性测量单元，一般指测量物体角速率和加速度的装置。我们经常看到，一个名词 MEMS 与 IMU 伴随出现。

MEMS 全称 Microelectromechanical Systems，翻译为微机电系统传感器，指内部结构在微米级别的传感器。

MEMS 有很多种，比如 MEMS 加速度计、MEMS 陀螺仪。

MEMS 和 IMU 是两个独立的概念，并不存在包含关系，不过两者存在交集。比如上面提到的 MEMS 加速度计和 MEMS 陀螺仪，既属于 MEMS ，也属于 IMU。

一般而言，IMU 又包含三种传感器：加速度计、陀螺仪和磁力计。

加速度计: 一般为三轴加速度计，检测物体在 X、Y、Z 三轴上的加速度，经过积分换算，从而确定位移距离（实际上这样确定位移不太准，加速度计算位移是靠积分换算，本身就有误差，多次积分会导致误差累计，最终的位移距离会出现漂移）。陀螺仪: 一般为三轴陀螺仪，检测物体在 X、Y、Z 三轴上的角速度，根据角速度推算物体当前的角度。磁力计: 又称电子罗盘，一般为三轴磁力计，检测物体在 X、Y、Z 上的磁分量，计算得到最终的磁向量，经过算法纠偏，最终得到地磁北的方向，从而确定物体的所在方向。

市面上的一些叫法，如六轴陀螺仪，其实是三轴加速度计+三轴陀螺仪；九轴陀螺仪，则是三轴加速度+三轴陀螺仪+三轴磁力计；十轴陀螺仪，是在九轴陀螺仪的基础上再加一个气压传感器，获得海拔高度，从而获得物体的高度。

在 VR 的应用场景中，一般采用九轴陀螺仪，实现 3DOF 的检测（Roll 、Picth、Yaw 三种动作，见图十二）。

但光靠 IMU 无法检测到平移的动作（沿三轴平移），一般还需要辅助摄像头等其他设备。

2）追踪摄像头

这里要谈到技术路径的演变，最早的平移定位，采用的是外部定位方式，直到一体机的风潮愈烈和 SLAM（空间定位算法）的发展，才渐渐转为内部定位。不过在一些要求超高精度的环境下（比如虚拟场馆或动捕），都还是采用外部定位的方法。

技术路径的演变，从 Outside-in 到 Inside-out。

本质的区别，Outside-in 是在外界空间中有一套锚定的装置，构建一个相对坐标系。通过装置与 VR 设备的互动，检测头盔和手柄的当前位置。在由外而内的系统中，多个固定的外部摄像头用于跟踪头戴显示设备的姿势（3D位置和3D方向）。外部摄像头跟踪位于头戴显示设备和控制器（如果有）上的一组参考点。

Inside-out，是依靠光学追踪，在 VR 头盔上安置摄像头，让设备自己检测当前外部环境的变化，再经过 SLAM 算法（Simultaneous localization and mapping）计算出当前的空间位置。

Outside-in

Outside-in 路径中，最有名的有两种技术方向：- Cculus 的 Constellation 红外摄像头定位系统；- HTC 的 Lighthouse 定位；先说 Constellation，Oculus 的头盔和手柄上都布满了红外传感，以固定模式闪烁。

房间中布置了红外摄像机，摄像机以特定频率拍摄头盔和手柄，由此得到一组图片，并得到这些红外的点的特定坐标，由于头盔和手柄的三维模型是已知的，通过 Pnp 求解（可以理解为一种复杂的数学计算）能够得到点的 6 DoF（加上 IMU 后）。

图十四，图片来自 GamesBeat

至于用红外，则因红外波可以规避大部分颜色的影响，不会出现误判。但红外容易被遮挡，所以在空间中要布置多台红外摄像机，才能准确判断三维信息。实际上，Optitrack 和 Zero Latency 用的都是同样的方案，只不过 Zero Latency 用的是可见光，更容易受到颜色等噪声干扰。

主动式红外光（ Constellation）主要受到摄像头精度（因为根据图像判断）和光学算法的影响，同时价格昂贵，布置也比较麻烦，在移动浪潮下不太适用了。

另一种则是 Lighthouse 定位，室内安置了两台激光发射器，安放在房间对角，而在头显和手柄上有 70 多个光敏传感器。激光发射器从水平和垂直方向扫射空间，发射器为 0 度时，开始计时，激光到光敏传感器时，光敏传感器记录到达时间。由于发射器的旋转速度是已知的，所以根据时间和转速能够计算光敏传感器相对发射器的角度，一次扫描完成后，就可以进行空间定位。

图十五，图片来自 HTC VIVE LIGHTHOUSE CHAPERONE TRACKING SYSTEM EXPLAINED 视频截图

相比红外，Lighthouse 的方法方便很多，没有那么多光学计算，误差和延时都有所保证，可以达到 20ms 以内。但激光扫描区域一般在 5 * 5 * 2 m 范围内，如果要扩大，需要多个灯塔，这时候多空间的融合又会出现算法问题。为了实现定位，光敏传感器需要区分不同来源的激光，而光塔过多也会相互干扰。

另外，Lighthouse 在安装和成本上仍然要比 inside-out 高，但延时性低，精度高，在需要特别拟真的环境仍然需要这种技术。

Inside-out

Inside-out，主要通过摄像头拍摄周围的画面，通过图像识别判断房间景物的一些特征点，通过与上一次拍摄时的特征点位置进行对比，从而得到特征点的位移。与此同时借助 IMU 得到辅助数据，通过算法得到头显的位移情况。同样，在手柄上存在一些小白点，摄像头也通过捕捉小白点的位移判断手柄的变化情况。

因为是可见光识别，所以房间内得保持一定的亮度，不能关灯。

此外，因为依靠摄像头识别外部的标记点，如果角度识别精读差异 1 度，整个距离可能偏移几厘米，Inside-out 对精度要求十分之高。又由于需要计算图像显示，所以它的延时没有办法像 Lighthouse 一样低。

Inside-out 主要依靠 VGA 摄像头和深度识别摄像头进行 3D 空间定位。VGA 摄像头，配合深度识别摄像头，主要用来做头部空间定位和手势识别。VGA 是指的 VGA 格式的分辨率，640X480 ，黑白。深度识别摄像头，主要用来识别物体的距离（实际上也可以识别骨骼点，但不需要），主要有三种技术：

TOF： 原理是传感器发出经调制的近红外光，遇物体后反射，通过计算光线发射和反射时间差或相位差来换算被拍摄物体的距离。单目结构光： 该技术将编码的光栅或线光源等投射到被测物上，根据它们产生的畸变来解调出被测物的三维信息。双目结构光： 和人眼一样用两个普通摄像头以视差的方式来计算被测物距离。

2. 面部、眼动和手势追踪

有了空间定位，VR 可以实时渲染出对应的画面结果。然而人不止和世界交互，也要和人交互。试想，如果我们想要在虚拟空间中同家人，亲朋好友交流，那么我们势必需要看到他们的神情，这其中最重要的便是面部表情和眼神。

图十六，图片来自 MARK ZUCKERBERG: FIRST INTERVIEW IN THE METAVERSE | LEX FRIDMAN PODCAST 视频截图，图为 ZUCKERBERG 和 FRIDMAN 在 VR 世界中的面部重建

1）面部识别

面部识别主要靠摄像头，放在头显内部，追踪如额头、下巴、脸颊的变化情况，追踪原理和空间定位差别不大。一般可以用在如下的场景下：

面部识别存在的问题是，当戴上头显时，人脸 60% 的地方是被遮住的。Magic Leap 的想法是，虽然有的地方被遮住，但可以根据周围未被遮住的肌肉变化来推测。当然，越多的摄像头还是更有助于捕捉真实表情。

Oculus 在训练面部识别时，用了 9 颗摄像头，只是到了消费级，才用 3 颗摄像头并配合 9 颗摄像头训练出来的算法进行面部追踪。

2）眼动追踪

眼部追踪主要靠眼动追踪摄像头。眼动追踪的原理是利用光摄入瞳孔反射到角膜的原理，测算角膜和瞳孔的距离来判断眼动的情况。VR 的眼部周围有一圈红外光 LED 灯，向眼睛发射红外光，光从瞳孔反射到角膜上，摄像头拍摄图像，判断瞳孔和角膜的位置，从而判断眼动的情况。

眼动追踪带来的益处很多，除了眼神与渲染的人物同步，最熟知的是眼动交互，和手势交互一起可以带来自然的交互体验。另一个重要的好处在于，人类的视力在整个视野中并不均匀。中央凹是视网膜的中心区域，视力最好。

在中央凹区域外，视力逐渐下降到视网膜边缘。这样，实际上画面的渲染只需要关注到视线聚焦处，这样可以降低计算渲染成本。此外，有了眼动追踪后，VR 的瞳距可以根据佩戴者的身份自动调节；在运营层面，可以根据眼睛聚焦情况进行数据分析。

还有一个隐藏的好处，主要是体验层面。VR 中的 3D 成像效果，是通过向每只眼睛显示一个独特的 2D 图像来创造 3D 感觉，其中每个图像的渲染略有不同，以产生双眼视差，从而带来 3D 效果。

但是，用户眼睛和图像之间的距离（也即显示屏与人眼的距离）是固定的，所以实际上会导致眩晕问题，也就是所谓的视觉汇聚调节冲突（VAC）。通过眼动追踪 + 变焦显示器，VAC 可以得到缓解。

变焦显示器使用眼动追踪来主动跟踪眼睛的会聚，并使用具有可变焦距的聚焦元件来匹配眼睛的会聚。至于变焦技术，主要是机械式变焦（电动齿轮，改变镜头和物体、视线焦点的距离）。

3）手势识别

有了面部表情和眼动追踪外，我们还需要手势识别，以进一步与虚拟世界交互，比如拾取、点击，或只是简单的 say hello。手势识别所用的摄像头和空间定义一致，都是 VGA 摄像头，识别原理类似。

手势识别主要的难点在于：一般摄像头的视场角都讲究水平，垂直视场角的高度不够，所以手跑到摄像头的视线范围之外就很难办。而在人类大部分的自然任务中，手都是处于下视野的范围，手势追踪的实际难度会很大。

另外，根据对照实验，采用手势追踪的任务效率，会低于直接用手部控制器的方式，一是因为延时，二是因为纯手势交互缺乏触觉提示和反馈，而人需要后两者以定位操作对象。Apple vision Pro 通过手眼融合的方式，提供了一种视觉反馈，变相弥补了下纯手势交互的问题。

此外，它还配了六颗摄像头（一般是 4 颗），其中两颗专门垂直向下以捕捉下视野的手。

4）全彩透视

如果说空间定位和面部、眼动追踪是与虚拟世界交互。那么 VR 很快有了一个更大的野心：升级成 XR，捕捉现实世界的动态。全彩透视，使用 VST RGB 摄像头，用于捕捉带着 VR 头盔的用户所看到的真实景象。VST 指 vedio see through，RGB 是图片颜色格式。

VST 原先都是黑白的，用来看周围空间，现在成了 MR 的入门券。无心插柳柳成荫，原先是为了让用户能够看到周围的真实空间，以确定活动范围的透视，却悄然一变，变成了与 AR 类似的功能。

不过囿于成本，VST 也没有全部采用全彩。如 Quest pro 用 VST，两颗黑白镜头建场景，一颗 RGB 摄像头用来补色，不过现在也出现了双目的 RGB，体验越来越好。

VST 要注意三点：

清晰度：简言之就是看到的画面要和现实中一模一样。延时性：要低，不然画面和动作不一致，用户会晕。视角偏差：摄像头的位置和人眼的位置不一致，所以画面容易产生视角偏差，长时间使用可能出现视觉伪影，有点像水里折射的情况；所以要提前设置算法矫正。

其实，虽然 VR 推出了全彩透视的功能，但并不意味着 VST 一定要放在一体机上，那样相比于 AR 并没有太大的优势。如果拿 PC 和手机类比 VR 和 AR，VR 是 PC 的延伸，承载的是重活，而 AR 更擅长可移动的小场景。VR 在肉眼可见的未来，很难达到出街的可能，VST 的作用仅仅是家庭活动，例如游戏、音乐、绘画。

图十七，Hauntify Mixed Reality 让鬼出现在家中真实房间

VR 的 VST 中，真实世界的元素更多成为一种背景，增加活动本身的乐趣，但却不是主体。试想，如果 VST 和 VR 主机分离，VST 作为 VR 的配件，可以配置到工厂、医院，通过无线传输实时渲染，那是否能够真正实现数字孪生？而 VR 也将真正闯入工业级的应用。

四、把大象塞进冰箱的最后一步

旅程到这里，其实已经结束了。VR 的核心就是光学方案和空间定位，以及基于此的渲染和定位算法。不过，为了方便读者后续阅读某些拆解报告时，对上述内容外的一些概念不太了解，特在最后一章附上相关的名词解释。

1. 头盔、手柄

接近传感器 : VR 头盔的接近传感器一般用红外，由一个红外发射管和一个红外接收管组成。红外发射管会发射一调制红外光信号，该信号在遇到障碍物后被反射回来，接收管通过接收该反射信号并根据反射信号的强度来判断障碍物的远近。玻纤 : 头盔所用材料，耐热、绝缘、超轻。霍尔芯片 : 霍尔IC是将霍尔元件与运算放大器组为一体的产品。霍尔元件一般用在手柄上，用于检测扳机、侧键是否按下；霍尔元件从元件本身获得的电压非常小，因此一般情况下需要配置运算放大器等的放大电路。马达驱动芯片 : 马达即电机，控制马达的正转、反转、刹车等，用于控制震动马达。线性马达 : 通电的线圈在磁场中受到洛伦兹力作用，带着动子沿固定方向往复运动产生振感，是一种能将电能直接转换成直线运动机械能; 线性马达的振动频率和波形均可编程，能根据使用场景，让马达做出不同方向、时间和强度的振动反馈。X 轴线性马达 : 动子沿 X 轴方向移动的马达，可以带来前、后、左、右四个方向的震动感觉（X、Y 轴）。Z 轴线性马达 : 动子沿 Z 轴方向移动（x，y，z 轴），带来上、下的震感。

手机上一般配 X 轴，因为手机薄，Z 轴行程短，效果不好；手柄上就不是了，双关齐下；早期还有一种转子马达，利用电磁感应，用电流导致的磁场驱动转子旋转而产生振动。这种方法的问题是延时，缺乏方向性，震动的手感不好。

2. 计算、通信、存储

IC : Integrated Circuit 集成电路芯片的简称。集成电路芯片是一种电子元件，是将多个电子元件（如晶体管、电容、电阻等）集成在一起，通过半导体制造工艺制成的电路。集成电路芯片有很多类型，比如存储器芯片、处理器芯片等。CPU : Central Processing Unit ，中央处理单元，主要用于计算机指令的逻辑计算和输入、输出控制。DRAM : Dynamic Random Access Memory，动态随机存取存储器，RAM 的一种，用于数据的临时存储，主要用于存储运行中的程序和数据。LPDDR5 : DRAM 的一种，全称Low Power Double Data Rate SDRAM，其中 SDRAM 是 Synchronous Dynamic Random Access Memory 的缩写，表示同步动态随机存取存储器。LPDDR5 的读取速度可以达到 6400MHz，表示内存每秒钟可以进行6400万次数据读写。ROM : Read Only Memory，只读存储器，用于永久保存数据，也即我们一般意义上的内存。闪存 UFS 3.1 : Universal Flash Storage, 读写速度可以达到几百MB/s或甚至上千MB/s，一般插 U 盘在电脑上，数据从 U 盘上的读取、写入就看闪存的能力。MCU : Microcontroller Unit, 微控制器单元，集成了处理器核心（CPU）、存储器（RAM）和输入/输出接口等功能。SoC : System on Chip, 系统级芯片,将系统的大部分或全部组件集成在一块芯片上，通常包括处理器、内存、输入/输出接口、模拟电路、数字电路和其他外围设备等。SoC 可以简单理解为 MCU + 特定功能的外设集成。FEM : Front-end Modules，前端模块，主要用于射频信号的发送放大、接收放大、滤波等，用在手柄、头盔（2.4 G、5G 射频）的通信。FPGA : Field Programmable Gate Array，可编程的集成电路，优势是高速、实时处理大量数据，用于对视觉画面、传感器数据等的并行处理。

3. 电源管理

钽电容 : 电容器，主要用来存储电荷。电压电平芯片 : 解决不同电压电平之间兼容性问题的集成电路芯片，电压电平芯片可以将输入信号的电压范围转换为输出信号的电压范围。电平电压芯片将VR头显与计算机或游戏主机之间的信号进行转换，以确保它们能够正常地进行数据传输和通信。稳压芯片 : 将输入电压转换为稳定输出电压的集成电路芯片。升压芯片 : 将输入电压升高到更高电压的集成电路芯片，升压芯片也有使用运放的方案。运算放大器 : Operational Amplifier，简称Op-Amp，可以将微弱的模拟信号放大到适合后续处理的范围，也放大输入之间的电压差；VR 中作为 LED 驱动或者其他驱动的放大器；运放也有用在升压芯片的方案。OTG 扩展供 : On-The-Go，USB 2.0 规范的补充，供电是指在使用OTG 功能时，主机设备（比如电脑）为连接的外设（比如 VR 头显）提供电源供应。电源管理芯片 : 顾名思义，对电源起到管理作用，具体包括。电源变换 ：将输入电源的电压和电流转换为适合系统需求的电压和电流。电源分配 :将电能分配给不同的系统组件，以满足其功耗需求。电源检测 :监测电池电量、充电状态和系统负载等信息，以提供电源管理的智能化控制。其他电能管理功能 ：如电池保护、温度监测和功率管理等。

五、后记

这应该是我自《张小龙 22 年》后写的最长的文章了，无论是字数还是时间。写长文不容易，记得当时写张小龙的时候，大概花了一个星期，虽然在微信上没发出多久就被腾讯封了，但在 pmcaff 上还有留存（链接放在了参考中），并得到了池建强老师的推荐，也算满意了。

写这篇文章，比写人物要困难多了，太多的专业术语，以及技术理解。原先我以为自己懂了的概念，其实真正串起来，又延伸出许多枝蔓，又一点点去查。

好在有 perplexity 的帮助，简化了我的一些工作量。不过写作的乐趣正在于此，它是一座迷宫，有时只想理解一个概念，又牵扯到另一个概念，概念与概念之间的关系又引发了新的着迷。

有一些很不错的信息源在此过程中也被发现，例如雷锋网的 VR 专题、知乎上胡痴儿的早年回答，以及 B 站 Up 主消失的模因的精彩视频。可惜，前两者已经不再更新了。

当然，最惊喜的是终于发现了一本介绍 VR 全貌的书籍，《The VR Book》，虽然成书于 2016 年，但作者功力深厚，仍然不失为理解 VR 的最佳材料之一。

这篇文章，大概可以 2 个月以来，对 VR 的研究结果，是给自己一个交代。里面一定有诸多问题，受限于自己当前的见识，有所偏颇，但第一步既已踏出，便可以在后续的学习道路上增删改查，可谓是写完后最大的收获了。我想，在消费电子业无聊的状态下，有一件有意思的事物可以研究，便很快慰了。

参考：

人类的视觉增强探索史：https://www.uisdc.com/evolution-of-ar-and-vXR 设备发展史：https://www.scaruffi.com/memejam/vr.htmlPhilco HeadSight 介绍：https://www.virtual-reality-shop.co.uk/philco-headsight-1961/凸透镜成像原理：https://www.junyiacademy.org/junyi-science/science-high/science-high-history/s5p-99/junyi-geometric-optics/v/F-qVxGLJT1Y了解 AR/VR 的光学原理：https://imgtec.eetrend.com/blog/2022/100557077.htmlVR视场角真的是越大越好吗？- 大朋工程师的文章 – 知乎 https://zhuanlan.zhihu.com/p/22252592重新认识鱼眼镜头：https://www.bilibili.com/video/BV1TL41117ti/?spm_id_from=333.1007.top_right_bar_window_history.content.click;vd_source=7cf1f568229c6f5b4a7c23f5a2e85cbcVR沉浸感的奥秘，人眼如何通过双目视差硬解深度信：https://www.bilibili.com/video/BV11A411m7Sw/?share_source=copy_web;vd_source=c7e29439c97151c3755a46ccd4c8160a如何充分利用视觉系统对深度的感知从而营造更强的立体感与深度感？：https://www.zhihu.com/question/46552885光场与人眼立体成像机理：http://vr.sina.cn/news/2018-10-24/detail-ifxeuwws7707633.d.html维基百科 – Vergence-accommodation conflict：https://en.wikipedia.org/wiki/Vergence-accommodation_conflictMEMS传感器1：3轴加速度计工作原理揭秘，与这些有关：https://www.bilibili.com/video/BV1NJ41117B8/?share_source=copy_web;vd_source=c7e29439c97151c3755a46ccd4c8160a深度解析 HTC Vive 的 Lighthouse 室内定位技术 – 虎嗅网：https://www.huxiu.com/article/142795.htmlLighthouse 激光定位技术开源了，但不是 Valve 做的 | 雷峰网：https://www.leiphone.com/category/arvr/nu6Zln6hQTdMqSsy.htmlHTC Vive Lighthouse Chaperone tracking system Explained – YouTube：https://www.youtube.com/watch?v=J54dotTt7k0How the Vive Lighthouse Works – YouTube：https://www.youtube.com/watch?v=oqPaaMR4kY4Hypereal 突然开源？背后所涉的重磅信息都在这里了 | 爱范儿：https://www.ifanr.com/786928目前最强的 VR 定位技术，HTC 和 OptiTrack 是如何做到的？：https://wapbaike.baidu.com/tashuo/browse/content?id=2e7f4fcdd19a68101416efc6深度干货：详解基于视觉+惯性传感器的空间定位方法：https://www.leiphone.com/category/arvr/taExbGMOaYfbnnMw.htmlVR的空间定位技术是如何实现的？- 知乎：https://www.zhihu.com/question/46422259VR空间定位全解：如何在虚拟世界中行走？：https://www.leiphone.com/special/216/201607/577cd787225d6.html「面部动作捕捉」是一项什么技术？主要应用于哪些场景？- 渲云渲染的回答 – 知乎：https://www.zhihu.com/question/321811525/answer/675319985【VR速递】OculusQuest面部识别;眼球追踪的研发之路 – 载入圈VR的文章 – 知乎：https://zhuanlan.zhihu.com/p/410829378面部表情追踪技术在 VR 设备中的发展研究：https://m.fx361.com/news/2019/0106/6266425.htmlEye Tracking in Virtual Reality: a Broad Review of Applications and Challenges：https://link.springer.com/article/10.1007/s10055-022-00738-zWhat is VR Eye Tracking? [And How Does it Work?]：https://imotions.com/blog/learning/best-practice/vr-eye-tracking/Hand Tracking for Immersive Virtual Reality: Opportunities and Challenges：https://www.frontiersin.org/articles/10.3389/frvir.2021.728461/fullQuest手势识别功能评测：https://mp.ofweek.com/vr/a645693029046Meta RGB透视VR研究：摄像头距离可调、分辨率720p：https://zhuanlan.zhihu.com/p/569886369从典型案例看VST MR游戏的设计技巧：https://www.vrtuoluo.cn/536138.html红外 ToF 技术将大幅提升接近感应传感器的性能及可靠性：https://mouser.eetrend.com/content/2020/100048606.html何谓霍尔IC？：https://www.ablic.com/cn/semicon/products/sensor/magnetism-sensor-ic/intro/转子马达、X轴和Z轴线性马达有啥差别？这篇文章总算说明白了！：https://www.cfan.com.cn/2020/0729/134125.shtmlMEMS mic之Amic(一)_麦克风thdpn是什么不良代码?：https://blog.csdn.net/weixin_44316365/article/details/124838502EPOS 波束成形麦克风阵列技术优化您的会议体验.pdf常用的音频功放芯片-电子工程世界：http://news.eeworld.com.cn/qrs/ic628769.html瑞苏盈科为VR行业提供FPGA核心板解决方案：https://xilinx.eetrend.com/content/2023/100572176.html同创国芯窦祥峰演讲实录：VR的FPGA应用分析：https://cloud.tencent.com/developer/article/1137422Perplexity：https://www.perplexity.ai/张小龙的 22 年和微信的 8 年：https://xie.infoq.cn/article/a70d189eaa18334868f8b2a45

专栏作家

善宝橘，微信公众号：善宝橘，人人都是产品经理专栏作家，2019年年度作者。南大传播学硕士，崇尚终身学习的互联网斜杠青年，专注新媒体、游戏领域的运营策划。

本文原创发布于人人都是产品经理。未经许可，禁止转载

题图来自 Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

vst工业镜头回收深度剖析：风口之上的无人商店和它背后的“黑科技”

深度剖析：风口之上的无人商店和它背后的“黑科技”

一、未来已来，“无人商店”风起

二、站在投资风口，资本市场浪涌

三、机器视觉（人脸识别）、语音识别、RFID 标签等新兴技术支撑“无人商店”落地

VR 不完全科普指南

一、上帝的画笔

二、我们应该如何呈现世界？

1. 一块屏幕

2. 把光映入眼中

三、世界应该如何与我们交互？

1. 空间定位

2. 面部、眼动和手势追踪

四、把大象塞进冰箱的最后一步

1. 头盔、手柄

2. 计算、通信、存储

3. 电源管理

五、后记

vst工业镜头回收深度剖析：风口之上的无人商店和它背后的“黑科技”

台州工业级镜头台州建设：全国首个，1688日百选品中心正式开园

镇江工业级镜头镇江：62项重点工作推进长江经济带发展向“新”向“绿”

莆田新型工业镜头(莆田工业)

工业镜头相机推荐小编呕心整理：国内外主流GigE（千兆以太网）工业相机大全

工业镜头素质了解工业相机镜头的四大参数

深度剖析：风口之上的无人商店和它背后的“黑科技”

一、未来已来，“无人商店”风起

二、站在投资风口，资本市场浪涌

三、机器视觉（人脸识别）、语音识别、RFID 标签等新兴技术支撑“无人商店”落地

VR 不完全科普指南

一、上帝的画笔

二、我们应该如何呈现世界？

1. 一块屏幕

2. 把光映入眼中

三、世界应该如何与我们交互？

1. 空间定位

2. 面部、眼动和手势追踪

四、把大象塞进冰箱的最后一步

1. 头盔、手柄

2. 计算、通信、存储

3. 电源管理

五、后记

猜你喜欢

vst工业镜头回收 深度剖析：风口之上的无人商店和它背后的“黑科技”

台州工业级镜头 台州建设：全国首个，1688日百选品中心正式开园

镇江工业级镜头 镇江：62项重点工作推进长江经济带发展向“新”向“绿”

莆田新型工业镜头(莆田 工业)

工业镜头 相机推荐 小编呕心整理：国内外主流GigE（千兆以太网）工业相机大全

工业镜头 素质 了解工业相机镜头的四大参数

vst工业镜头回收深度剖析：风口之上的无人商店和它背后的“黑科技”

台州工业级镜头台州建设：全国首个，1688日百选品中心正式开园

镇江工业级镜头镇江：62项重点工作推进长江经济带发展向“新”向“绿”

莆田新型工业镜头(莆田工业)

工业镜头相机推荐小编呕心整理：国内外主流GigE（千兆以太网）工业相机大全

工业镜头素质了解工业相机镜头的四大参数