柏拉图数据智能。
垂直搜索和人工智能。

计算先锋帮助AI看见| 广达杂志

日期:

介绍

什么时候 阿列克谢·埃弗罗斯 1980 世纪 0010 年代,十几岁的他随家人从俄罗斯搬到加利福尼亚州,并带来了苏联制造的个人电脑 Elektronika BK-XNUMX。 这台机器没有外部存储,每隔几个小时就会过热,因此为了玩视频游戏,他必须在机器关闭之前编写代码、排除故障并快速玩游戏。 这种循环在大多数日子里都在重复,加速了他的学习。

“我很幸运,这台苏联计算机不太好!” 埃弗罗斯轻松地笑着说道,说话带有轻微的俄罗斯口音。 现在他玩的游戏不多了,但探索和充分利用他的工具的意愿仍然存在。

在加州大学伯克利分校研究生院期间,埃夫罗斯开始徒步旅行并探索湾区的自然美景。 不久之后,他开始将对计算机的热情与对这些景观的享受结合起来。 他开发了一种无缝修补照片中漏洞的方法,例如,用看起来很自然的树木替换红杉森林照片中错误的垃圾箱。 Adobe Photoshop 后来在其“内容感知填充”工具中采用了该技术的一个版本。

现在,埃弗罗斯是伯克利人工智能研究实验室的计算机科学家,他将大量在线数据集与机器学习算法相结合,以理解、建模和重新创建视觉世界。 2016年,计算机协会授予他 计算机奖 由于他创造逼真的合成图像的工作,称他为“图像炼金术士设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“

介绍

埃夫罗斯说,尽管研究人员尽了最大努力,机器的视觉仍然与我们有根本的不同。 “颜色和亮度的斑块要求我们将现在看到的东西与我们以前在哪里看到过这些东西的记忆联系起来,”埃弗罗斯说。 “这种联系赋予了我们所看到的意义。” 很多时候,机器只看到当下发生的事情,却没有将其与之前看到的事情联系起来。

但差异也可以带来优势。 在计算机视觉领域,Efros 非常重视能够立即了解用于识别物体和场景的算法是否适用于图像。 他的一些计算机视觉问题 - 例如“是什么让巴黎看起来像巴黎?”——有哲学倾向。 其他的,比如如何解决持久化 数据集中的偏差,切实可行、紧迫。

“现在有很多人用语言来做人工智能,”埃弗罗斯说。 “我想看看留下的完整视觉模式。” 通过改进计算机视觉,他不仅希望获得更好的实际应用,例如自动驾驶汽车,还希望能够实现更好的实际应用。 他还想挖掘这些见解,以更好地理解他所说的“人类视觉智能”——人们如何理解他们所看到的东西。

广达杂志 在他位于伯克利的办公室会见了埃夫罗斯,讨论了科学超能力、描述视觉的困难以及人工智能到底有多么危险。 为了清晰起见,采访内容已经过精简和编辑。

介绍

自从您还是学生以来,计算机视觉有何进步?

当我开始攻读博士学位时,几乎没有什么用处。 一些机器人使用计算机视觉来拧螺丝,但仅限于这种高度受控的工业环境。 然后,突然,我的相机检测到了面孔,并使它们变得更加清晰。

现在,计算机视觉有大量应用,例如自动驾驶汽车。 这比一些人最初想象的要长,但仍然取得了进展。 对于不开车的人来说,这是非常令人兴奋的。

等等,你不开车吗?

不,我视力不太好,无法开车! [笑]对我来说,这将是一个游戏规则的改变者——拥有一辆可以载我去某个地方的汽车。

我没有意识到你的视力妨碍了你开车。 您能在计算机显示器上看到您处理的图像吗?

如果我让它们足够大的话。 你可以看到我的字体很大。 我生来视力不好。 我认为其他人都是怪人,因为他们拥有疯狂的好视力。

你的非怪人身份影响了你的研究方向吗?

谁知道? 绝对没有“哦,我看得不太清楚,所以我要制造看得更清楚的计算机”的感觉。 不,我从来没有以此为动力。

要成为一名优秀的科学家,你需要一个秘密的超能力。 你需要比其他人做得更好。 科学的伟大之处在于我们并不都拥有相同的超能力。 也许我的超能力就是这样,因为我看得不太清楚,所以我可能对视力问题有更深入的了解。

介绍

我很早就认识到先验数据在观察世界时的重要性。 我自己看得不太清楚,但我对之前经历的记忆足以填补漏洞,使我基本上可以像正常人一样运作。 大多数人不知道我视力不好。 我认为这给了我一种独特的直觉,即它可能与像素无关,而与内存有关。

计算机只能看到现在存在的内容,而我们看到的时刻与我们之前见过的所有内容有关。

是否有可能用语言表达微妙的视觉模式,例如,使巴黎看起来像巴黎?

当你在一个特定的城市时,有时你只知道你在哪个城市——就是这个 JE NE最高审计机关quoi,即使您从未去过那个特定的街角。 这很难用语言来描述,但它就在像素中。

[对于巴黎],你可以说它通常是六层楼,通常第四层有阳台。 你可以用语言表达其中的一些内容,但很多内容不是语言的。 对我来说这很令人兴奋。

您最近的工作涉及教授计算机 摄取视觉数据 以模仿人类视觉的方式。 这是如何运作的?

目前,计算机拥有庞大的数据集:从互联网上抓取的数十亿张随机图像。 他们拍摄随机图像,处理一张图像,然后拍摄另一张随机图像,处理该图像,等等。您可以通过一遍又一遍地检查该数据集来训练您的[计算机视觉]系统。

我们——生物代理——摄取数据的方式非常不同。 当我们面临新的情况时,这是唯一一次有这些数据的时候。 我们从来没有经历过这样的情况,在这个房间里,在这样的灯光下,穿着这样的衣服。 首先,我们使用这些数据来做我们需要做的事情,了解世界。 然后,我们使用这些数据来学习,[预测]未来。

介绍

此外,我们看到的数据不是随机的。 您现在看到的内容与几秒钟前看到的内容非常相关。 您可以将其视为视频。 视频的所有帧都是相互关联的,这与计算机处理数据的方式非常不同。

我感兴趣的是让我们的学习方法成为一种让计算机看到数据进来、处理它并从中学习的方法。

我想这并不像让计算机查看视频而不是静态图像那么简单。

不,你仍然需要[计算机]来适应。 我对学习方法感兴趣,这些方法可以在数据传入时查看数据,然后在数据发生时对其进行处理和学习。 我们的一种方法被称为 考试时训练。 这个想法是,当您查看视频等一系列图像时,事情可能会发生变化。 所以你不希望你的模型被修复。 就像生物体总是适应周围环境一样,我们希望计算机能够不断适应。

标准范例是首先在大数据集上进行训练,然后进行部署。 Dall·E 和 ChatGPT 大约在 2021 年接受了互联网培训,然后[他们的知识]就冻结了。 然后它会吐出它已经知道的内容。 更自然的方法是[测试时培训],尝试让它吸收数据并在工作中学习,而不是单独的培训和部署阶段。

计算机肯定存在一个问题,称为域转移或数据集偏差 - 这种想法是,如果您的训练数据与部署系统时使用的数据非常不同,那么事情就不会起作用很好。 我们正在取得一些进展,但还没有完全实现。

介绍

这个问题是否类似于银行警告投资者过去的表现可能无法预测未来的收益?

这正是问题所在。 在现实世界中,事情会发生变化。 例如,如果一只田鼠最终进入了房子,那就没问题了。 你永远摆脱不了那只老鼠! [笑]它出生在田野里,以前从未在房子里呆过,但它会找到并吃掉你所有的供给品。 它适应得非常快,能够学习和适应新环境。

当前的[计算机视觉]系统不具备这种能力。 对于自动驾驶,如果你在加利福尼亚州训练一辆车,然后在明尼苏达州测试它 - 繁荣! ——有雪。 它从来没有见过雪。 它变得混乱。

现在,人们通过获取大量数据来解决这个问题,以至于[系统]基本上已经看到了一切。 那么就不需要适应了。 但这仍然错过了罕见事件。

听起来人工智能系统是前进的方向。 人类又将何去何从?

OpenAI 在文本方面 (ChatGPT) 和图像方面 (Dall·E) 的工作都非常令人兴奋和令人惊讶。 它重申了这样一个想法:一旦拥有足够的数据,相当简单的方法就可以产生令人惊讶的良好结果。

介绍

但 ChatGPT 让我意识到人类并不像我们希望看到的那样富有创造力和卓越。 大多数时候,我们体内的模式识别器可能会接管一切。 我们用以前听过的短语或句子组成的句子说话。 当然,我们确实有想象力和创造力。 我们能够做计算机无法做的事情——至少目前是这样。 但大多数时候,我们可能会被 ChatGPT 取代,而大多数人不会注意到。

这是令人谦卑的。 但这也是打破这些模式、尝试更多幻想、不陷入陈词滥调和模仿的动力。

一些科学家对人工智能给人类带来的风险表示担忧。 你担心吗?

许多我非常尊敬的研究人员都曾对人工智能发出过警告。 我不想淡化这些话。 其中很多都是有效的观点。 但人们需要正确看待事物。

目前,文明面临的最大威胁不是来自计算机,而是来自人类。 核末日和气候变化是更紧迫的担忧。 俄罗斯联邦袭击了其完全无辜的邻国。 我出生在俄罗斯,我的前同胞可能会这样做,这尤其令人恐惧。 我正在尽我所能确保这仍然是第一主题。

我们可能认为人工智能革命是我们一生中最重要的事件。 但如果我们不拯救自由世界,人工智能革命就毫无意义。

那么你根本不担心人工智能吗?

不,你知道,我喜欢担心。 我是一个非常担心的人! 但如果普京毁灭世界就在这里(举起手到他的头上),气候变化就在这里(把手放到他的肩膀上),那么人工智能就在这里(把手放到他的脚上)。 与普京和气候变化相比,这只是我担忧的一小部分。

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?