1.产业新闻
Google与AI初创公司Replit合作,以对抗微软的GitHub
谷歌与AI初创公司Replit合作,将其AI语言模型与Replit的Ghostwriter软件相结合,以帮助程序员编写代码。这一合作旨在与微软的GitHub Copilot竞争,后者使用OpenAI的语言生成AI。Ghostwriter将使用谷歌的AI来改进代码建议、程序完成和回答开发者问题。Replit计划通过提供端到端的代码编写、测试、部署、应用程序审查和协作支持来增强其软件。该合作还将使Replit扩大其对谷歌云服务的使用和软件分发。
去年Deepmind发布了关于其Flamingo模型的研究,这是一个功能强大的多模态文本和视觉模型,可以回答有关图像的问题,同时仍然是一个强大的文本模型。现在,Laion发布了一个用于训练Flamingo模型的框架,以及一个由500万个Multimodal C4数据集样本和1000万个LAION-2B图像数据集样本训练的9B参数检查点。该模型不能用于商业应用程序,因为它使用的是Meta的7B Llama检查点。它还没有与Deepmind的Flamingo在基准性能上匹配。
AI搜索领域的一家领先创业公司推出了iPhone应用程序并筹集了额外的资金。他们的目标是成为知识发现领域的领导者。我们将看到哪些服务找到区别,但仅几个月内就有200万用户的增长是令人印象深刻的。
2.研究动态
自然语言处理需要大量数据,这些数据通常是在各种平台上由众包工人进行标注。事实证明,或许不出所料,gpt-3.5-turbo 在遵循标注指令方面非常出色,并且在相关性、立场、主题和其他重要指标上经常胜过人类标注员。更重要的是,它的成本(约为人类标注员的 20 倍)也要低得多。
这篇论文介绍了 EVA-CLIP,这是一组显著提高 CLIP 训练效率和效果的模型。与先前的模型相比,EVA-CLIP 在相同数量的参数下实现了更好的性能,同时还具有更小的训练成本,完整套件已发布供开放研究使用。
Imagen 是一种文本到图像扩散模型,在零样本分类方面与 CLIP 相媲美,在形状/纹理偏差测试中表现更好,并提示生成式预训练作为视觉语言任务的有价值方法。
反梦工厂:保护用户免受个性化文本到图像合成的影响(GitHub 仓库)
本论文讨论了文本到图像扩散模型,如 DreamBooth,可以从简单的文本输入生成逼真的图像,但也可能被滥用以产生针对个人的虚假新闻或令人不安的内容。本文提出了一种名为 Anti-DreamBooth 的防御系统,通过向用户图像添加微小的噪音扰动来干扰任何基于这些图像进行训练的 DreamBooth 模型的生成质量,并评估其在各种文本到图像模型版本上对各种算法的有效性。
Text2Video-Zero,一种零样本文本到视频生成方法(GitHub 仓库)
本文通过修改现有的文本到图像合成方法,介绍了一种低成本的零样本文本到视频生成方法。该方法使用运动动态增强潜在代码,并重新编程帧级自注意力以保留前景对象的上下文、外观和身份,从而实现高质量、一致的视频生成,无需额外的视频数据。该方法也适用于其他任务,如条件和内容专业化的视频生成和指导式视频编辑。
AIx 是一个 CLI 工具,用于与 LLM API 进行交互。
将大型语言模型微调到自己的数据上,每天都变得更加容易,但这仍然是一个有些具有挑战性的系统问题。xTuring 是另一种简化该过程的方法,适用于那些希望在自定义数据上使用一些“开放”模型的人。
3.延伸阅读
本文探讨了生成式 AI 在游戏创作平台 Roblox 中的应用,并讨论了这如何塑造游戏开发和元宇宙的未来。
员工现在意外将敏感公司数据输入 ChatGPT,引发对专有信息安全的担忧。
高盛报告称,生成式 AI 可能会影响多达 3 亿个工作岗位。
在这篇文章中,作者讨论了像 ChatGPT 和 Anthropic 的 Claude 这样的 AI 助手的发展和能力,以及它们与传统确定性计算机的区别。这些更像人类思考和交流方式的 AI 助手正在不断发展,增加了诸如 Wolfram|Alpha 等插件,以提供更准确和实时的信息。作者承认了 AI 的潜在益处和风险,强调人类使用 AI 的意图最终将决定结果,并主张我们应该推动 AI 带来积极的改变,从而显著改善生活。