谷歌的人工智能播客工具可以把你的文字变成栩栩如生的音频——而且是免费的
2025-06-08 06:18

谷歌的人工智能播客工具可以把你的文字变成栩栩如生的音频——而且是免费的

  

  

  我一点也不信教,但当我发现这个工具时,我想尖叫:“这是魔鬼的杰作!”

  当我把下面的音频播放给我的编辑时,她反问:“这是什么魔法?”我和她一起工作了10年,在此期间,我们几乎每天都在一起休息,这是我第一次看到她用大写字母大写。

  后来,她和我分享道:“这绝对是我在生成式人工智能竞赛中见过的最可怕的事情。”

  如果你对人工智能感兴趣,我的发现可能会像震撼我们一样震撼你。我们可能正处于一个分水岭时刻。

  在本文中,我将演示Google提供的一项服务。请花几分钟听听我将要分享的两个音频片段中的至少一小段。我将向您展示它们是如何创建的以及如何制作自己的。然后我们将深入研究地震级别的影响。

  最后,请和我一起在下面的评论中讨论这个问题。我想我们都需要处理一下这意味着什么。

  你即将听到的是关于我最近一篇文章的播客讨论。

  我所做的只是将我那篇关于2D图像到3D的虚拟现实转换的文章的文本粘贴到谷歌的NotebookLM服务中,然后点击Generate。

  让我明确一点:广播中的“人”不是真实的。音频完全是人工智能生成的。

  为了充分理解这项技术的含义,值得花几分钟阅读我的原始文章,然后听至少一分钟的六分钟音频轨道。

  原文:我觉得这个新的Visio第2个功能只是一个噱头——直到它让我对着我的Vision Pro哭了

  人工智能生成的音轨:点击这里收听

  去吧,我等你。

  这里有几点需要注意:

  两个人说话的质量,就他们的声音保真度和自然度而言

  使用适当的俗语,如“water works”来描述眼泪和哭泣

  他们的玩笑是完全自然的,事实上甚至还有玩笑

  “人类”说话者的理解程度如何文章中的概念,包括情感重温旧记忆的方方面面

  总的来说,这听起来有多真实,从介绍到正文再到结尾,它和真正的广播没有什么区别

  接下来,让我们花点时间看看它是如何生成的。

  NotebookLM是Google Keep和Notion中的人工智能的混合体。

  NotebookLM中的主要数据结构是笔记本,其中包含关于给定项目的所有“笔记”。笔记,在NotebookLM中称为“源”,可以是你输入到NotebookLM中的文本,类似于Keep。但它们也可以是pdf、Google Docs或幻灯片、粘贴的文本、音频文件、YouTube链接和web url。

  NotebookLM似乎对来源的格式有点挑剔,因为当我粘贴文章的URL时,它无法读取它。我不得不复制文本并粘贴进去。我还发现了一个PDF,它无法读取,即使PDF没有显示锁定或限制。

  一旦你把所有的资料都记录在笔记本上,你就可以让NotebookLM的人工智能用这些数据做人工智能的事情。你可以得到一个摘要。你可以要求它提取要点。你可以要求它给你提纲,等等。AI操作只使用给定笔记本中提供的源数据,类似于Notion的AI只对上传到您自己的Notion帐户中的数据起作用。

  最大的惊喜功能,也是我在本文中非常期待的功能,是Generate按钮,它生成演示中听到的两个播客主持人之间的真实玩笑。

  目前,NotebookLM是测试版并且是免费的。

  让我们创建另一个惊人的播客讨论。这一次,我们将使用Jason Perlow关于英特尔陨落的精彩文章作为我们的来源。

  首先,将浏览器指向NotebookLM。你需要登录你的谷歌账户。登录后,你会看到一个笔记本列表。这个屏幕截图显示了我的第一个测试,我上面展示的演示,以及谷歌提供的一些示例笔记本。

  

  单击“新建笔记本”将我们带到“添加源”屏幕。

  

  因为我之前发现它不能正确地处理到ZDNET文章的链接,所以我只是下到右下角,点击粘贴文本。然后,从Jason的文章中剪切文本后,我将其粘贴到数据输入字段中。

  

  几秒钟后,NotebookLM打开它所谓的“笔记本指南”(Notebook Guide),这是一个来源和建议的摘要。

  

  右侧是Audio Overview部分。只需单击Generate。这需要几分钟来生成一个新的播客。这是我们这次得到的。

  原文章:英特尔的衰落:新一代人工智能如何帮助推翻了一个巨头,并改变了我们所知道的计算

  人工智能生成的音轨:点击这里收听

  如果需要导出文件,可以单击三点菜单,选择“下载”。该站点下载一个WAV文件,尽管您需要添加.WAV扩展名。就是这样。

  一个小提示:大约四分钟后,有一个小错误。男人的声音重复着一句话。我自己在网络广播和广播中也犯过同样的错误,但仍然如此。

  首先,让我们花点时间来欣赏一下这些结果是多么令人难以置信。这两段录音显示了理解的深度,写出相关的聊天对话的能力,以及添加与文化相关甚至敏感的新信息的能力。这就是在我们讨论声音的质量甚至是音调之前的全部内容。

  就我个人而言,我一开始觉得这是一记重击。作为一名图书作者,在进行图书推广和巡回售书时,“出色地发表演讲”的能力是必不可少的。我花了15年多的时间磨炼我的技术,每次出场都是呕心沥血,但我还是不如这两个假主播。

  是的,他们用我的文章(后来还有杰森的文章)作为他们讨论的素材。但这种质量的输出几乎让像我这样的创作者和内容制作者开始感到压力。除了加快语速,我别无选择。现在想象一下,如果你可以选择演讲者、风格,也许还可以编辑一些人工智能生成的脚本。

  所以我们并不是突然间就能假装真实了。而是我们能够将假象进一步延伸到现实。

  接下来的问题是什么是真实的。上周,我向你展示了Vision Pro是如何让我20年前的小猫照片在我眼前变得真实的。现在,我要向你们展示的是,谷歌笔记本实验角落里的一个小功能是如何组成两个完全人造的扬声器的,它们与人类无法区分。

  多年来,我们已经有能力在Photoshop和其他编辑工具中扭曲现实。电影制片人在讲故事时使用特效来制造虚假的现实。即使是在胶片上拍照的行为也会对现实有所改变。

  那张我的猫的照片是她真实生活的1/250秒快照,你只能看到相机看到的东西,以及显影过程(那是静止的胶片)如何与胶片乳剂中的光线反应。

  所以我们并不是突然间就能假装真实了。而是我们能够将假象进一步延伸到现实。猫的快照和看到她是不同的,好像她是真实的,就在你面前。计算机生成的脚本与听到两个广播专业人员就一个感兴趣的话题进行动态讨论是截然不同的。

  还有成本和速度的问题。需要说明的是,谷歌花了数十亿美元才把我的文章变成播客。但我什么也没花。这也需要一些时间。这大大降低了进入内容制作的门槛。

  同样令人担忧的是,一些公司选择使用人工智能生成的内容,而不是雇佣像我和杰森这样的专业人士来做。我写这篇文章已经花了两天时间,因为我一直在努力寻找合适的方式来讲述这个故事。

  但是当我在ChatGPT中输入“写一篇关于Google的NotebookLM创建音频播客的惊人能力及其含义的文章”的提示时,我在不到一分钟的时间内得到了一篇相当深思熟虑的文章。

  我的文章显然更深入、更完整,描绘了我个人风格的细微差别,以及我的经历和选择。但chatgpt生成的版本还不错。它就这五个主题写了详细的想法:

  公司民主化ntent创造

  教育转型和知识共享

  对创意产业的影响

  新的伦理问题

  改变生态环境播客经济学

  这一分钟的工作让人印象深刻。

  谷歌的NotebookLM让我开始思考这可能预示着什么样的服务。我在YouTube上做了很多视频,老实说,我进度落后了。有朝一日,我是否可以拥有类似于“生成”功能的东西来创建YouTube视频的谈话标题部分,使其看起来好像我正在进行表演?

  一方面,这可能会节省我大量的时间,让我有机会赶上积压的工作。但另一方面,神圣可怕的蝙蝠侠!我想要一个我跑来跑去,说天知道什么,拥护我可能不同意甚至讨厌的信仰的模拟吗?或者,如果人工智能本身产生幻觉,忽视或误解了它的护栏,并吐出了一些非常不合适的东西呢?这种事又不是没发生过。

  有多少朋友、选民和客户可能会看到这样的东西,却看不出这是一个深度造假?那要收拾的烂摊子有多大?它会让我失去一份工作或一段友谊,或者伤害我关心的人的感情吗?

  我一直喜欢新技术。自从我写了一篇关于人工智能的社会影响的最早的学术论文以来,我就一直对人工智能着迷,早在木船和铁程序员的时代。

  但我开始更好地理解那些反对使用自动化机械的19世纪纺织工人的感受。

  尽管我对生成式人工智能印象深刻,而且我个人也发现了它的好处,但这种先进的能力,仅仅是一个更先进的未来的预兆,它们让我感到害怕。

  当然,也有垃圾邮件的一面。该算法越来越多地向我展示我感兴趣的主题的窄焦点YouTube视频,但在观看后才发现它们显然是人工智能生成的。这些视频的泛滥不仅对真正的人类创作者造成了不公平的竞争,而且浪费了观众的时间。更糟糕的是,他们正在排挤真正的专家,否则这些专家可能会制作有关这些主题的视频。

  但问题是。当这些人工智能生成的视频首次出现时,有时可能不清楚它们是真的还是假的。但经过一年左右的时间,现在很明显什么是人工智能垃圾,什么是由人类精心制作的。

  你甚至可以通过听我提供的两个示例播客来判断。第一个震撼了我的心。第二个非常非常好。但一个接一个地听,很明显有一种模式。我们人类一生中大部分或全部生活在一个紧张的媒体环境中,我们有精细调整的胡扯探测器。给我们几年的时间,我们将能够看穿最好的生成AI。

  最大的问题是付费给创作者的人是否会在意。我想他们会的。例如,毫无疑问,杰森?珀洛(Jason Perlow)撰写的科技文章都有自己深刻的见解。他写的很多东西都是我们都很了解的领域。

  但我一定会读他的文章,因为我总是能从他独特的视角中学习。我不认为这可以被人工智能克隆,这就是为什么他有这么多的粉丝,他们重视他独特的声音,期待他制作的每一件新作品。

  因此,虽然一些出版商和媒体聚合商总是会选择廉价的解决方案,但它们都将开始融合在一起,尤其是当人工智能算法开始基于一个共同的(如果是巨大的)训练数据块进行训练时。但是ZDNET,拥有像Jason和我这样经验丰富的作家,以及我们无畏的编辑,将永远重视只有我们带来的独特性,人性和视角的深度-而且,通过扩展,ZDNET在其他顶级科技网站中拥有自己独特的身份。

  这不是人工智能可以做到的,而且可能永远也做不到。

  你觉得呢?你和我一样担心吗?你觉得这些演示令人印象深刻吗?你自己试过notebookm吗?请在下面的评论中告诉我们。

  你可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 火互百读

相关推荐