不用付钱拿着东西就走人，亚马逊无人超市是怎么做到的？

漂亮的石头 · 2016-12-08

相关链接：亚马逊将开线下无人超市不用排队不用结账

知乎用户

重大发现，再次更新：

根据亚马逊提交的 2 份专利，目前得到了如下消息：

1，总括

Amazon Go 超市的识别流程是：商品 / 货架——识别拿出或放入动作——识别被动物品——物品与用户物品清单关联——清单与行为用户关联。我目前看到的专利是解释识别动作和识别物品的部分。

2，识别动作

a，采集用户的手进入货架平面前的图像。

b，采集用户的手离开货架平面后的图像。

c，两者对比，可以知道是拿出货物还是放入货物。

如果是拿起，进入前的手和进入后的手及手中的物品等特征是可区分的，这个特征与放入是相反的。简单说，如果是拿起，进入之前手是空的，没有商品的，离开后是手里有物品的。放入则相反。

3，识别承受动作的物品

关于拿出物品的识别：

a，不必用图片识别，用传感器即可，简单快速。例如重力 / 红外传感器的变化可表示物品被拿起。

b，部分情况下需要图片识别被拿出的物品是否与所在位置表示的物品一致。例如，物品 A 被放在 B 物品处，如果只有 a 处理，就会被当成物品 B，不过这种情况较少。

关于放入物品的识别：

a，在用户放入物品前，可以确定用户与物品的关联关系（物品清单），这些物品的图片被储存在系统内。

b，通过检索图片，与被放入物品进行比较，识别物品。

c，高置信度可判断物品正确，更新（删除）物品清单。

如上部分可以通过传感器实现或者辅助。

无人超市的关键是解决“谁对什么东西干了什么”的问题，目前我所了解的方案解决了什么东西被怎么处理了，至于是谁实施的还在研究中。

PS:上述内容被我 12/06 日的猜测命中，图像识别——手，货架平面——图片跨界分析。

关于 Amzon Go 项目的最新补充：从 2 份专利文件一窥 Amazon Go 到底藏了什么黑科技？

以下是文章引用：

在 Quora 上，有一位名为 Brian Roemmele 的网友挖出了几年前亚马逊提交的两份专利文件，里面描绘的系统跟如今的 Amazon Go 非常相似。这两份文件名称为：“侦测物体互动和移动”（Detecting item interaction and movement）和“物品从置物设备上的转移”（Transitioning items from the materials handling facility），两文件分别于 2013 年和 2014 年申请。

这两份专利文件都描绘了十分庞杂的应用场景，包括：货仓、船运、零售市场等，所以很多人当初在看到这份文件时，都以为这是亚马逊为自己的仓储系统量身定制的，不过今天一切真相大白。

这两份专利分别讲了什么？

“侦测物体互动和移动”（Detecting item interaction and movement）这份专利的摘要是：

用户从一个货架上拿起或放下一个物品，货物管理系统可以侦测到这个动作，并且更新用户移动设备里的清单。

“物品从置物设备上的转移”（Transitioning items from the materials handling facility）这份专利的摘要是：

物品被识别，并且当用户正在拿起物品时，物品自动与用户发生关联。当用户进入或穿过一个“转移区”（Transition Area），被拿起的物品将自动转移到用户，而不需要用户有任何的输入。

总的来说就是，被识别的物体与用户发生关联，能自动更新清单，并在“转移区”进行自动交易（“转移区”在 Amazon Go 里指的就是商店的出口）。

我们可以从下面一张图里，一窥 Amazon Go 的基本原型。

图中代号为 208 的物体都是摄像头，大约有 10 多个（有一些被人体挡住）。208 摄像头分别置于天花板（如图左右两边各有一个比较大的摄像头）、货架两侧和货架内部。文件里描述到，天花板上的 208 用来采集用户和货品的位置、货架两侧的 208 用来捕捉用户的图像和周围的环境，货架内的 208 用来确定货品的位置或用户手的移动（进入和离开货架）。

下面对几个问题进行总结：

有哪些硬件：摄像头、压力传感器、红外传感器、体积位移传感器、光幕等。

硬件的作用：

1、摄像头：监控拍照，图片分析，a、用于进出门对用户识别。我猜测这个可能是烟雾弹，用防盗门刷手机识别手机即可，这也是专利中补充描述的；b、用于分析客户是否跨过”转移区“。

2、压力 / 红外 / 体积位移转传感器：识别物品运动，识别客户是否跨过”转移区“。

Amzon Go 方案只要做到两点：

1、商品是否被拿起或放下。这个可以通过压力传感器、红外传感器、体积位移传感器识别。

2、谁拿起或放下了商品。这个可以通过光幕识别。我猜光幕会形成一个”转移区“在这个转移区对应唯一的客户。

难度：

1、物品与客户对应识别：如何将被拿起的物品与客户一一对应是个问题，如果在一定区域有足够多人的话，可能会张冠李戴。

2、重放物品识别：原有物品识别是通过货物管理员提前设置的，但是重放回物品识别会存在一定问题。这个问题可能是通过图片分析解决，因为该货架区域物品单一，识别异物比较简单。也可能有传感器的作用。

3、错放物品识别：如果商品 AB 被放错了位置，如何纠错。

以上被曝光的消息被我昨天猜对了 70%。

我就了解的一点情况与各位分享。12 年的时候想过实现方案，14 年毕业前做过实现方案。最后还是失败了，现在又想继续做。先写一点总结和揣摩。

无人商店在 13 年或者更早就已经开始有尝试了，总的来说，我把各种方案分成五类：沃尔玛的“Scan&Go"类方案，无人收银机方案，诚信超市方案，RFID 方案和 Amzon Go 方案。前三者基本靠诚信，毫无技术含量可言，或者说没有解决防盗损的关键问题。第四种方案在仓储中应用较多，因成本太高无法在超市大规模应用。Amzon Go 方案是目前看到最有前景的方案（真如视频中所示的话）。先说前四种。

一：沃尔玛的“Scan&Go"类方案

1，沃尔玛的“Scan&Go"

沃尔玛的“Scan&Go"项目主要是开发一款手机应用，将客户的手机变成扫描枪，客户成了收银员，边购物边扫描，最后手机结账。如下图：

现存报道如下：

沃尔玛推 Scan&Go 移动支付应用实现自助结账服务 | 行业志

因为盗损率过高（好像是从 0.7% 上升到 3% 以上）该项目最终失败了。对于薄利多销的超市而言，损失过于巨大。

2，扫描仪方案

12 年的时候沃尔玛在北京实施过另一个计划，给每个客户发一个扫描仪，每台购物车上安装简易终端（用于导航和展示商品），具体过程与上面介绍的方案类似，失败结果也是一样的。

3，智能购物车方案

15 年出现了”BuySmart 超市智能购物车“，它与前面的区别在于用 Pad 更换了手机 / 扫描仪，而且提供了销售数据分析功能。

报道如下：

BuySmart 超市智能购物车：BuySmart 超市智能购物车，你的时间我来负责 - DEMO - 创业邦

沃尔玛的“Scan&Go"类方案失败的关键在于没能解决防盗防损问题，提供了一些华而不实或者后续才需要实现的功能。

二：无人收银机方案

先上图：

无人机方案比较好理解，和地铁无人售票机一样。客户购物完成走到无人收银机前，将每个物品放入扫描，然后放钱结账。便宜的机器是没有防盗措施的，国外某些机器具有简单的防盗措施，例如重力感应。这个措施是很容易被破除的，例如不扫描直接带走，李代桃僵（重量一致）。

无人收银机方案的关键是节约人工成本（限国外），防盗防损技术基本没有，操作麻烦，不能完全非人工作业，完全不智能。该方案在国外用的多，国内嘛，深圳 / 上海 / 杭州等地都出现过，基本上没啥用途。

介绍如下：

国内超市无人自助收银系统为什么发展缓慢？ | 知乎精选

 自助收银机已登陆上海，你看好吗？- 搜狐

三，诚信超市方案

15 年 6 月的时候，阿里搞了个无人诚信超市活动，就是给便利店的员工放一天假，客户顺便购买 / 拿商品，付不付钱，付多少钱全靠你自己。这种超市用脚想都知道没戏，不过在国外还挺多，但也有特殊条件才行。这种方案不要问我关键因素在哪～～～

报道如下：

无人超市试水 1 天后恢复“有人”(组图)

在“无人超市”，体验美式信用 -- 国际 -- 人民网

四，RFID 方案

RFID 是无线射频识别技术的缩写，它的使用方法是将标签贴在商品上，商品经过一个区域可以自动被感知标签，从而识别商品。这与当前的收银员扫描过程类似，只是 RFID 技术能远距离（30m）批量识别，这样的话只要设立感应装置（出口），任何经过该出口的商品都能被识别。它的应用场景是：你购物过程中自动识别购物车中的物品，完成购物后手机出现付款二维码，到收银台扫描付款即可。该方案没有在超市应用的主要原因是因为标签成本太贵，好像高达 0.5 元一个。不要以为 0.5 元很便宜，对超市而言，简直贵死了。沃尔玛的毛利在 15%左右，净利在 5%左右，超市大部分商品单价在 10 元左右，你想想，每个商品贴上 0.5 元的标签，光标签成本就是 5%。

Chaotic Moon Lab 智能购物车：能带路的"智能购物车"_网易新闻中心

五，Amzon Go 方案

大家先看官方视频：Amazon.com: : Amazon Go。视频下方有关于 Amzon Go 的简单介绍。

官方介绍说用于到了“technologies used in self-driving cars: computer vision, sensor fusion, and deep learning”（无人驾驶技术中的计算机视觉，感应器融合和深度学习）。下面推测一下硬件及其位置：

摄像头的推测理由大概是这样的：

计算机视觉应该就是监控摄像头及图片分析技术，所以摄像头是必不可少的。这个摄像头不可能是用户手机摄像头，只能是亚马逊自己的摄像头，因为用户手机可以揣兜里。摄像头可安放的位置也只能是货架和墙壁，因为要拍摄到商品和用户（准确的说应该是手），拍摄之后就可以分析图片了。摄像头大家都知道，真正关键的是图片分析技术。一般的超市的监控分析是如何完成的呢，答案是保安实时看。在 Amzon Go 方案中，大概是利用图片分析了物品的运动：物品离开货架到进入货架的过程。

蓝牙发射模块的推测理由大概是这样的：

手机能够根据购物行为实时增删虚拟购物车，所以必须有与手机通信的装备 / 模块，这样的装备 / 模块必须是密集分布在货架里。假设只有 1 个或少数几个通信装备 / 模块，那么还需要解决向哪个顾客发送的问题，我认为这个问题是比较难的。如果是密集分布，那么一定区域（足够小）的的货品对应唯一的发生装备 / 模块，在这足够小的货品区域中，一般而言不会同时存在两个客户。比如在能放 4 瓶酒的区域中，会同时出现 2 个顾客太难了，一个顾客的体积就足以覆盖这个区域。所以也就形成了一一对应的关系。

重力或红外感应器的推测理由如下：

当物品静置时，视频 / 图片变动不大，电脑可以实时分析。当物品被拿动时，可以根据物品的运动区分原有物品是否在原地。这个运动的边界就是货架。因为从公布的视频来看，物品离架瞬间就被记录了，所以它默认物品离架等于购买，原有物品放回原地等于不购买。从一个区域到另一个区域（跨越边界）的图片分析技术已经应用了。其中还有就是从图片中识别物品（如果放回来的不一样呢），这个技术很难，据说百度在国际上得奖的图片识别技术也只能是 95% 或 98%，而且是有条件的。在超市这样复杂环境中肯定没法只靠这种技术。因此，识别物品跨界和识别物品就需要感应器。

那么为什么是红外 / 重力感应器呢？

因为我实在想不到还有别的简单 / 低成本且符合条件的感应器了。小时候看神偷电影都会有红外激光保护宝物的镜头，红外感应就是识别物品进入与否的方案。重力感应也可以，没有重量的时候表示被拿起，有重量表示被放下。这个还只是解决了物品跨界问题，识别物品（是否是原来的）还没有很好的解决。

总结一下，Amzon Go 用到了计算机视觉，感应器融合和深度学习，前两者主要用于采集数据，后者用于数据分析和识别，主要用的硬件有摄像头 / 红外或重力感应器 / 蓝牙发送器。主要过程是通过监控分析物品的运动，判断用户是否购买，感应器采集数据，通过分析进一步印证判断，最后通过蓝牙进行发送。

Ps：识别物品并没有想象中的困难，因为摄像头和感应器对应特定区域的物品，相对而言难度降低很多。

这个方案本身可能难度不大，但是能否取到应有的效果，还不清楚。而且有个重大的问题，从视频中判断，售卖的商品存在极大的限制——必须是包装完整的商品。普通超市中存在大量散装商品，如水果，谷物等。

五种方案总结如下：

最后说一下超市防盗现状：

目前，超市防盗措施有：视频监控，人工巡逻，收银员核查，电子标签感应。

前三者大家都能理解，到处都是摄像头，摄像头后面是保安实时监控。超市内部有便衣巡逻，营业员也起到监督作用。收银员在收银的时候能查出极少的掉包事件。电子标签感应就是进出门口的感应防盗门。大概有 30% 的商品（单价高）会贴上标签，有的是硬标，例如衣服上的，有的是软标（贴在条形码或者商品里面），识别软标的办法是收银员是否将商品扫描后在收银台上摩擦一下，摩擦的过程就是消磁，只有消磁了进出防盗门才不会响。所以总的来说，超市大部分防盗还是靠人，大部分商品是没有任何防盗措施的，只要胆子大，直接揣口袋被发现的概率极低。

从现状和各种方案来看，实现无人超市的关键还是在于技术上配合防盗举措，实现低成本防盗。

阅读原文

登录或注册

不用付钱拿着东西就走人，亚马逊无人超市是怎么做到的？

漂亮的石头版主管理成员

登录或注册

不用付钱拿着东西就走人，亚马逊无人超市是怎么做到的？

漂亮的石头 版主 管理成员

漂亮的石头版主管理成员