1.产业新闻
https://loop.microsoft.com/learn
无需Waiting list,你现在就可以登陆 Microsoft Loop 并直接体验啦。
GitHub Copilot正在快速发展,将引入聊天和语音界面,支持拉取请求,回答文档上的问题,并采用OpenAI的GPT-4,为开发者提供更个性化的体验。
谷歌期待已久的语言模型服务终于来了。Bard是Lambda的轻量级版本,Lambda是几年前训练的一个70B参数的对话型代理人。他们花了很多心思来确保安全和真实性,我们将在人们开始加入等待名单后看看它是否能够兑现承诺!
这组4个流行编码模型自2021年以来一直处于免费测试版状态,现已停用,转而支持Turbo和GPT-4模型。虽然这些模型非常擅长编码,但研究社区担心停用这些模型将极大地降低复现基于它们构建的先前研究的能力。至少我们现在知道OpenAI真正是一家科技公司了。
第二个玩家进入游戏。Adobe推出了其Firefly模型的私人测试版。由强大的视觉团队支持,并获得了大量数据的支持,这家艺术公司现在准备提供自己的生成图像模型。有一个越来越被认可的假设,即技术的重要性越来越小,而分发仍然是王道,当两者结合起来时,我们将看到会发生什么!
2.研究动态
来自谷歌的研究人员提出了一种新的方法,称为SVDiff,以解决现有文本到图像扩散模型的个性化限制,包括过度拟合和低效的参数存储。SVDiff涉及微调权重矩阵的奇异值,从而产生一个紧凑而高效的参数空间,降低过度拟合、语言漂移的风险,并且具有显著较小的模型大小,使其更适合实际应用。
Zero-1-to-3是一个框架,用于从单个RGB图像更改物体的相机视角,使用条件扩散模型,从合成数据集中学习相对相机视角的控制。这种方法表现出强大的零样本泛化能力,可以应用于分布外的数据集和野外图像,包括印象派绘画,并且可以用于从单个图像进行三维重建,通过利用互联网规模的预训练,优于最先进的模型。
简单来说,您需要至少16*N(十亿参数)GB的集群内存来训练一个模型。更大的集群可以提高收敛速度和训练时间,但这是一个很好的方式来权衡自定义训练模型的成本和性能。
现在,最好的、开源的模型并行训练库之一已经更新到最新的deepspeed版本。让这两个项目保持同步始终是一个挑战,而现在将会更加关注。如果您想从头开始训练一个数十亿参数的模型,这很可能是适合您的repo。
CG3D提出了一个框架,通过使用点云、渲染的2D图像和文本训练3D编码器,实现了零样本3D几何特征提取。对比损失在多模态嵌入空间中对特征进行对齐,可训练输入参数的提示调整克服了分布位移问题。CG3D展示出令人印象深刻的零样本、开放场景理解和检索能力,并为下游3D识别任务提供了强大的起始权重。
大多数大型语言模型受到芯片内存的限制。这个新系列的芯片提供了188GB的芯片内存,这是令人惊讶的。加上990 TFLOPS,预计这张卡将更经常用于训练和推断昂贵的模型。
AI Commits是一个CLI,它可以使用AI为您编写git提交消息。
Awesome-Totally-Open-ChatGPT(GitHub Repo)
该GitHub repo是一个开源的ChatGPT替代品列表。
3.衍生阅读
在这篇文章中,a16z认为旅游业在从旅行计划到预订机票再到旅途本身的各个领域都有望受到AI的颠覆。生成式AI可以利用公共和私人数据中的旅行偏好、地点、交通和活动等方面提供见解和建议。初创企业可以利用AI进行灵感、行程规划、预订和旅行援助,为旅行者创造更具对话性和定制化的体验。
本文认为,我们在AI方面进展得太快了,也许减缓速度以更好地理解风险对人类来说是最好的选择。
CanceledGPT是一个使用AI搜索和修订您旧的冒犯性推文的网站。
🤗 划重点
我们认为现在的AI资讯太过于碎片化,大家很难高效的获取高密度的有用信息。
所以我们开始采用人工+GPT结合的形式做日报产品(demo),近期会迭代转变为纯AI输出的产品。
如果读者朋友在使用过程中遇到问题,或者对内容本身有更多的需求,又或者是一些优化建议,欢迎点击👉加入👇下方微信群提出你的宝贵建议,非常感谢!