谷歌最近发布了 Gemma 2 大语言模型,并将其开源。Gemma 2 系列模型包括 9B 和 27B 参数两种尺寸,采用了全新的架构设计,旨在实现效率和性能的最优化。27B 版本的 Gemma 2 在基准测试中表现优异,超越了比其规模大两倍的模型,这一突破性的效率为开放模型领域树立了新标准。此外,Gemma 2 模型可以在单个 Google Cloud TPU 主机、NVIDIA A100 80GB GPU 或 NVIDIA H100 GPU 上全精度高效运行推理,大幅降低成本的同时保持高性能,使得模型部署更加普及和实惠。文章还详细介绍了如何在魔搭社区中配置和安装 Gemma 2 模型,并提供了推理和微调的最佳实践教程,包括环境配置、模型下载、模型推理代码示例以及使用 Ollama 工具进行推理的步骤。此外,文章还介绍了如何使用 ms-swift 工具对 Gemma 2 模型进行中文增强和自我认知微调,并展示了微调前后的模型推理和评测效果。
BestBlogs.dev 精选文章 第 10 期
亲爱的读者朋友们,
👋 欢迎阅读本期 BestBlogs.dev 的精选文章推送!
🚀 本期我们深入探讨人工智能的最新突破、创新应用和行业动态。从模型进展到开发工具,从跨界应用到市场策略,我们为您精选了最具价值的内容,助您把握 AI 发展脉搏。
🔥 AI 模型:突破性进展
1.Google Gemini 1.5 Pro:200 万词元上下文窗口,代码执行能力 2.阿里 FunAudioLLM:开源语音大模型,提升自然语音交互体验 3.Meta Chameleon:混合模式 AI 模型,在某些任务中优于 GPT-4 4.Moshi:法国 kyutai 实验室开发的原生多模态 AI 模型,接近 GPT-4o 水平 5.字节跳动 Seed-TTS:高质量语音生成大模型,可模仿人类说话特征
💡 AI 开发:工具、框架与 RAG 技术创新
1.LangGraph v0.1 和 Cloud:为复杂 AI 代理系统开发铺平道路 2.GraphRAG:微软开源工具,用于复杂数据发现和知识图谱构建 3.Kimi 上下文缓存技术:显著降低长文本大模型使用成本和响应时间 4.Jina Reranker v2:针对代理 RAG 的神经重排器模型,支持多语言和代码搜索 5.蚂蚁金服 Graph RAG 框架:结合知识图谱技术提高问答质量
🏢 AI 产品:跨界应用显身手
1.腾讯元宝 AI 搜索升级:推出深度搜索模式,提供结构化、丰富的回答 2.ThinkAny:个人开发者艾逗笔开发的 AI 搜索引擎,利用 RAG 技术 3.Replika:AI 情感伴侣,通过记忆功能建立深厚的情感连接 4.AI 在手语翻译领域的应用:如 Signapse、PopSign 等改善听障人士生活 5.Agent Cloud 与 Google Sheets 构建 RAG 聊天机器人:详细实施指南
📊 AI 资讯:市场动态与未来展望
1.比尔·盖茨访谈:AI 将在合成生物学和机器人技术等领域成为主导力量 2.腾讯汤道生谈 AI 战略:AI 不止于大模型,注重全面布局和产业应用 3.Gartner 研究:AIGC 在企业中实现价值的四大关键能力 4.AI 产品定价策略:探讨 SaaS、交易撮合等九种商业模式及其关键指标 5.为什么这一波 AI 创业还值得干?探讨 AI 技术改变供给,创造新的市场机会
本期内容涵盖 AI 前沿技术、创新应用和市场洞察,为开发者、产品经理和 AI 爱好者提供全面深入的行业视角。我们特别关注了 RAG 技术的实践经验和最新进展,为您提供了宝贵的技术参考。无论您是技术专家还是商业决策者,这里都有助您把握 AI 发展方向的关键信息。让我们一起探索 AI 的无限可能,共创智能化未来!
目录
- 1谷歌开源 Gemma2!魔搭社区推理、微调最佳实践教程
- 2阿里通义音频生成大模型 FunAudioLLM 开源!
- 38 人半年肝出开源版 GPT-4o,0 延迟演示全网沸腾!背后技术揭秘,人人免费用
- 4让开发者用得起、用得好「长文本」大模型,这项新技术功不可没 | Kimi 开放平台
- 5Kimi 论文自曝推理架构,80%流量都靠它承担
- 6讯飞星火 4.0 霸榜八个榜单,大秀语音识别遭有预谋干扰
- 7不到 60 秒就能生成 3D「手办」,Meta 发力 3D 生成,ChatGPT 时刻要来了吗?
- 8揭秘:阶跃星辰万亿 MoE+多模态大模型矩阵亮相
- 9苹果为什么要用「小模型」?
- 10大语言模型超参数入门调参手册
- 11ML 工程师一次微调 7 个模型,击败 OpenAI GPT-4
- 12GraphRAG: 用于复杂数据发现的 GitHub 新工具
- 13Dify v0.6.12:集成 LangSmith 和 Langfuse 增强 LLM 应用的可观测性
- 14搜索广告召回技术在美团的实践
- 15金山办公在知识库业务中的大模型思考和实践
- 16细数 RAG 的 12 个痛点,英伟达高级架构师亲授解决方案
- 17平安壹钱包:RAG 等技术在金融支付类 ToC 应用场景的探索与落地
- 18RAG 在企业应用中落地的难点与创新(文字稿)
- 19如何使用 Agent Cloud 和 Google Sheets 构建 RAG 聊天机器人
- 20发布朗格图 v0.1 和朗格图云:可靠地大规模运行代理
- 21检索增强生成:革命性技术还是过度承诺?
- 22金融场景中的多智能体应用探索
- 23Workers AI 的嵌入式函数调用:更简单、更智能、更快速
- 24利用大模型服务一线小哥的探索与实践
- 25可控细节的长文档摘要,探索开源 LLM 工具与实践
- 26耳朵没错,是声音太真了,字节豆包语音合成成果 Seed-TTS 技术揭秘
- 27开发者万字复盘:AI 搜索 ThinkAny 三个月 17 万用户的踩坑与心得
- 28深度|Greylock 合伙人对话 Replika CEO 畅谈 AI 情感:形式、产品和记忆;优化人类幸福感;应对不同需求的 AI 助手
- 29工具型产品的设计之道
- 30一句话搞定 UI 设计!Figma 开卷 AI,人人都成「设计大神」
- 31腾讯元宝 AI 搜索能力升级:上线深度搜索模式
- 32超 ChatGPT-4o,国产大模型竟然更懂翻译,8 款大模型深度测评|AI 横评
- 33AI 在等开创性的用户界面和产品
- 34OpenAI 联合创始人 Andrej Karpathy 在 2024 年加州大学伯克利分校人工智能黑客马拉松颁奖典礼上的主题演讲 [译]
- 35对话腾讯汤道生:AI 不止于大模型
- 36通用人工智能:是什么?如何测试?如何实现?|研读
- 37为什么这一波 AI 创业还值得干?
阿里通义实验室发布了开源语音大模型项目 FunAudioLLM,旨在提升人类与大型语言模型之间的自然语音交互体验。FunAudioLLM 包括两个主要模型:CosyVoice 和 SenseVoice。CosyVoice 专注于多语言语音生成及情感控制,SenseVoice 则专注于高精度语音识别和情感检测。FunAudioLLM 的应用场景包括多语言翻译、情感语音对话、互动播客和有声读物等。文章详细介绍了两款模型的技术原理和应用,并提供了相关的开源仓库和在线体验链接。
文章介绍了由法国 kyutai 实验室开发的原生多模态 AI 模型 Moshi,该模型达到并接近 GPT-4o 的水平,具备实时听说、情感表达和互动能力。Moshi 的开发团队仅有 8 人,用时半年,并通过 1000 个 GPU 完成训练。Moshi 的设计初衷是理解和表达情感,支持 70 种不同情绪和风格说话,并且可以同时处理「听」和「说」两个音频流,实现最低 160 毫秒的端到端延迟。其模型训练基于 Helium-7B 和内部的 Mimi 模型,使用了专业配音演员录制的音频进行微调。Moshi 即将开源,并且已经可以通过候补名单进行体验。背后的 kyutai 实验室致力于开源和开放科学,团队成员背景深厚,资金由私人资助和捐助支持,使用了高性能计算设备进行开发。
本文详细介绍了 Kimi 开放平台推出的新技术——上下文缓存(Context Caching)。这项技术允许系统预先存储可能频繁请求的数据,从而在再次请求时直接从缓存中快速提供,避免重新计算或从原始数据源中检索。这种方法显著降低了长文本旗舰大模型的使用成本和响应时间。实际应用中,采用上下文缓存技术可以在某些场景下将费用降低高达 90%,并将首 Token 的响应时间降低 83%。文章还提供了如何通过 API 创建和使用缓存的详细步骤,展示了上下文缓存的实际效果和计费模式,并邀请开发者在公测期间试用这项技术。此外,文章中还包含了具体的应用场景示例和代码示例,帮助读者更好地理解和应用该技术。
本文介绍了 Kimi 背后的推理架构 Mooncake。此架构通过分离式设计和 KV 缓存系统优化,成功应对了超大流量的挑战。Mooncake 由全局调度器、Prefill 节点集群、Decoding 节点集群和分布式 KVCache 池组成,利用 RDMA 通信组件实现高效的数据传输。为了应对负载波动和超大流量,Mooncake 实施了基于预测的早期拒绝策略,显著提高了系统性能。实验结果表明,Mooncake 在模拟和真实场景中,吞吐量和请求处理能力均大幅提升,最高能带来 525% 的吞吐量增长,实际场景中也能多处理 75% 请求。未来,Mooncake 将进一步优化以适应更加复杂的负载和调度需求。
讯飞星火 4.0 展现了卓越的语音识别能力,即便在三人同时说话和背景音乐的强干扰下也能准确识别。新版在七大能力上进行了提升,八大榜单排名第一,全面对标 GPT-4 Turbo。同时,星火 APP/Desk 和语音大模型也迎来升级,新增内容溯源功能。在双讲者场景下识别准确率达到 91%,三人讲话场景下达到 86%,抗噪能力显著提升。

本文介绍了 Meta 最新发布的 3DGen 系统,该系统能在不到一分钟的时间内从文本生成高质量的 3D 资产。文章首先梳理了 3D 生成领域的挑战,如艺术质量要求高、数据不足、生成速度慢及算力需求大等。Meta 3DGen 采用了两阶段方法,包括用于创建 3D 网格的 AssetGen 和用于生成纹理的 TextureGen,并支持基于物理的渲染(PBR)。实验结果表明,3DGen 在速度和质量上均优于现有主流解决方案,特别是在处理复杂提示时表现更佳。文章还对比了 3DGen 与其他 3D 生成模型的性能,并探讨了 3D 生成技术的商业化前景。
在 2024 年世界人工智能大会上,阶跃星辰展示了其最新的 AI 技术,包括万亿参数 MoE 大模型 Step-2、千亿参数多模态大模型 Step-1.5V 和图像生成大模型 Step-1X。这些模型体现了阶跃星辰在大模型技术上的创新与实力。Step-2 模型全面提升了数理逻辑、编程、中英文知识和指令跟随能力,采用完全自主研发和从头开始训练的方法,突破了模型性能的上限。Step-1.5V 多模态大模型通过 Step-2 的监督训练,显著提升了感知和高级推理能力。Step-1X 则在图像生成和语义对齐方面表现卓越,特别针对中国元素进行了优化。通过这些技术,阶跃星辰展示了其在 AI 互动体验中的应用,如《AI + 大闹天宫》项目。创始人姜大昕提出了大模型演进的三个阶段,强调了万亿参数和多模融合的重要性,展示了阶跃星辰在国内 AI 领域的领先地位和未来潜力。
在 WWDC 2024 上,苹果发布了深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中的 Apple Intelligence 系统。苹果选择了务实的路线,通过使用小模型来优化用户体验,而不是追求大模型。Apple Intelligence 能够即时适应用户的日常任务,并且可以在设备端运行或通过私有云服务器支持。基础模型在 AXLearn 框架上训练,使用多种并行技术和高效的数据管理策略,确保模型的性能和数据隐私。苹果还开发了拒绝抽样微调算法和 RLHF 算法,通过这些手段显著提高了模型的指令遵循质量和效率。为了进一步优化设备端性能,苹果使用了低比特量化和智能缓存技术,使 iPhone 15 Pro 能够实现低延迟和高生成速率。适配器技术也被用来对基础模型进行微调,以支持特定任务,同时保持模型的通用知识。通过多维度测试和人工评估,苹果证明其模型在摘要生成、基本功能、安全性和指令遵循等方面优于竞品。
本文详细介绍了大语言模型(LLM)中的超参数及其在模型训练和优化过程中的重要性。超参数在训练开始前设置,直接影响模型学习的过程和表现。文章探讨了模型大小、迭代次数、学习率、批大小、最大输出 token、解码类型、Top-k 和 Top-p 采样、温度、停止序列、频率和存在惩罚等主要超参数的设置及其影响。还介绍了自动化调参方法,如随机搜索、网格搜索和贝叶斯优化,并强调了这些方法在提高调参效率和效果中的重要性。最终,文章总结了超参数调优不仅是技术,更是一种艺术,需要不断探索和适应。
本文详细介绍了一位机器学习工程师通过微调技术,对 7 个开源大语言模型进行了调整,并在测试数据集上取得了比 OpenAI GPT-4 更好的性能。微调模型是在已经训练好的大语言模型基础上,使用特定数据集进行进一步训练,以期在特定任务上提升性能。作者强调,微调技术在大模型时代的重要性,特别是在需要精确控制和优化模型表现时。文章中,作者讨论了微调过程中遇到的挑战,如代码复杂度、执行速度和参数选择等问题,并展示了如何加载数据集、进行评估和存储预测结果。通过实验对比,作者发现微调后的模型在事件预测、数据抽取和其他任务上均表现出色,并且在某些任务上显著优于 GPT-4。

微软研究院发布了一种名为 GraphRAG 的工具,该工具利用大型语言模型从文本文档中提取丰富的知识图谱,现已在 GitHub 上线。GraphRAG 采用基于图的方法,能够识别数据的语义结构,并通过检测密集连接节点的社区来创建层次摘要。与朴素 RAG 方法相比,GraphRAG 能够提供考虑整个数据集的社区摘要,从而更好地回答全局问题。评估结果表明,GraphRAG 在全面性、多样性和赋能方面均优于朴素 RAG。此外,微软还发布了 GraphRAG 解决方案加速器,旨在使用户更便捷地应用基于图的 RAG 进行全局级别的数据理解。
Dify 0.6.12 版本集成了 LangSmith 和 Langfuse,简化了 LLM 应用的性能监测和优化。LangSmith 提供复杂应用的深度追踪和评估,Langfuse 以低性能开销和开源特性著称,适合自部署用户。通过简单配置,用户可以获得详细的性能和成本数据,优化应用质量和效率。Dify 的这一更新为 LLM 应用开发树立了新的透明度和效率标准。

美团技术团队撰写的《搜索广告召回技术在美团的实践》详细介绍了美团在搜索广告召回技术上的探索和应用。文章首先分析了美团搜索广告的流量特点和面临的挑战,指出了美团商家的内容质量较差、商品意图占据绝大多数份额等特征。为了应对这些挑战,美团从 2019 年开始建设搜索广告召回技术,经历了多策略关键词挖掘、分层召回体系和生成式召回三个主要发展阶段。在多策略关键词挖掘阶段,美团采用了基于规则的挖掘式策略,并逐步引入模型方法自动挖掘关键词,模型方法包括抽取式和生成式。随着技术的发展,美团将策略重心转向生成式挖掘,希望借助生成式大模型技术突破字面极限,探索更大的流量空间。在分层召回体系阶段,美团采用离线和在线两种召回方式,通过关键词挖掘和 Query 改写提升在线匹配效率。生成式召回阶段,美团重点探索了生成式关键词召回和多模态生成式向量召回,提升了向量表征能力和关键词生成的一致性。此外,文章还介绍了美团在构建广告大模型方面的努力,通过融合领域知识和场景知识,优化了离线关键词的召回效率。文章总结了美团在生成式召回方面的实践经验和未来发展方向,强调了生成式算法在拓展召回策略空间上的优势。
在金山办公的最新文章中,我们深入探讨了大型语言模型(LLM)在知识库服务中的应用实践。文章阐述了金山办公如何通过 AI Hub、AI Docs 和 Copilot Pro 三大核心路径,推动知识库服务的智能化升级。AI Hub 作为智能基座,实现了大模型的高效调用和企业级安全管理。AI Docs 则利用金山办公的文档处理技术,结合大模型,提升了文档的智能化利用。Copilot Pro 作为一个代理产品,旨在提高工作效率,降低企业成本。
文章特别强调了智能问答系统的构建,包括对异构文档的解析、精准检索和数据安全管控的重要性。智能创作功能的实现,通过主题匹配、大纲生成和 Prompt 调优等技术,确保了内容的准确性和多样性。此外,智能简历库的建立,通过结构化数据提取,有效地提高了企业在招聘过程中的效率。
我们认为,大模型的企业级应用不仅需要技术创新,还需要对数据安全和工作效率有深入的理解。文章提出了大模型应用的四个维度:设计、数据、优化和踩坑,以确保应用的准确性和有效性。在未来展望中,我们认为大模型技术将更加深入地融入行业特定应用,实现开放赋能,并且理论研究与实践应用将相结合,推动大模型技术的持续进步。

本文重点介绍了检索增强生成(RAG)技术在实际应用中可能遇到的 12 个痛点,以及针对这些痛点的解决方案。痛点包括内容缺失、错过排名靠前的文档、不正确的具体说明、数据摄取的可扩展性、结构化数据问答、从复杂 PDF 提取数据、后备模型和 LLM 安全等。英伟达高级架构师 Wenqi Glantz 提供了一系列解决方案,包括清洁数据、更好的提词设计、超参数微调、重新排名、查询变换等。同时,文章还介绍了 LlamaIndex、LangChain 和 NeMo Guardrails 等工具和框架,这些工具可以帮助提升 RAG 模型的检索性能和安全性。通过这些方法和工具,RAG 技术可以在实际应用中更加有效地处理复杂查询、提高响应准确性,并确保生成内容的安全性。
本文全面介绍了平安壹钱包在金融支付领域的数字化转型实践,特别是在ToC应用场景中对RAG、向量检索等技术的探索与应用。文章指出,在严格的政策监管和技术伦理背景下,支付企业需要平衡便捷性、安全性和个性化需求。平安壹钱包通过业务场景选择、技术应用和合规监管等实战经验,展示了大模型在金融支付领域的落地策略。文章还深入探讨了标注平台的关键步骤、迭代流程,以及在风控系统中Function Calling & Agent的应用案例,最后对大模型应用架构师的职责提出了独到见解。
本文是卢向东在稀土掘金开发者大会 RAG 专场上的分享内容,主要聚焦 RAG(Retrieval-Augmented Generation)在企业应用落地时遇到的难点和创新解决方案。文章首先介绍了文件解析的难题,包括处理老文件格式(如 .doc)、复杂 PDF 文件以及布局识别问题,提出了使用 OCR、PDFBox 等技术的解决方案。接着讨论了结构化数据与 RAG 的融合,强调了通过元数据和 data-func 的方法来维持数据的结构清晰度。第三个难点是检索能力的提升,通过元数据的管理和混合检索提高检索效果。最后,文章介绍了 rerank 模型在结果排序和原文显示等多方面的创新应用。随后,作者分享了三个企业落地应用案例:金融研报自动生成、零售导购助手和合同预审系统,并简要介绍了每个应用案例的具体效果和反馈。最后,卢向东提出了大模型应用在企业落地中的三点感悟:功能小、质量高、价值大,并强调企业落地服务的重要性和动态技术优势的概念。

文章首先强调了公司在数据孤岛方面面临的挑战,以及数据在改善决策方面潜在的价值。作为一种解决方案,它介绍了检索增强生成(RAG)技术,该技术结合了基于检索的技术与生成式 AI 工具。然后重点介绍了 Agent Cloud,这是一个开源平台,简化了构建 RAG 聊天应用程序的过程。作者详细介绍了他们使用 Agent Cloud 的经历以及该平台的功能。指南介绍了如何设置 Agent Cloud、将其与 Google Sheets 集成以及创建 RAG 聊天应用程序。它还讨论了在没有 Agent Cloud 的情况下构建 RAG 聊天机器人的挑战,例如数据检索和管理、NLP、可扩展性和用户体验。文章最后提供了一个全面的分步指南,介绍如何设置 Agent Cloud、集成模型、创建 GCP 服务帐户密钥、启用 Google Sheets API 以及设置数据源。

文章概述了朗格图 v0.1 和朗格图云的发布,这是两款旨在增强 AI 系统代理工作流的关键工具。朗格图为开发人员提供了对代理任务的精细控制,包括决策逻辑、人机协作和错误恢复功能。它支持单代理和多代理架构,非常适合复杂应用。朗格图云专为可扩展部署设计,管理容错能力的水平扩展、任务队列分布和高效存储,确保平台能够处理大型和复杂的工作流。来自 Replit、挪威邮轮公司和 Elastic 等主要公司的关键用户评价展示了该平台在实际 AI 应用中的价值,同时文章鼓励开发人员通过 GitHub 和朗格图云的等待名单进行实验。
RAG 技术通过整合外部最新信息,显著增强了生成式模型的能力,使得人工智能系统能够提供更准确、相关的响应。文章首先介绍了 RAG 的工作流程,包括发起查询、编码以检索、寻找相关数据、生成答复等关键步骤。接着讨论了开发 RAG 系统的多步骤过程,包括收集自定义数据、分块和格式化数据、将数据转换为嵌入、开发数据搜索、准备提示词系统等。
文章指出,尽管 RAG 提高了准确性,但并非万能,需要根据具体项目定制解决方案。在实际应用中,RAG 面临的挑战包括确保准确性、处理会话中的细微语义差异、访问庞大的数据库、解决 “幻觉” 问题等。文章还强调了 RAG 实施的关键教训,如适应性的重要性、持续改进的必要性、数据管理的重要性,并展望了 RAG 的未来发展方向。
本文详细介绍了蚂蚁集团资深算法专家陈鸿在 AICon 全球人工智能开发与应用大会上的演讲,探讨了多智能体技术在金融领域的应用。文章重点分析了多智能体技术应对金融领域信息、知识和决策密集挑战的作用。通过大模型与智能体的技术演进,文章指出智能体的有状态特性及其在任务执行中的关键作用。随后,文章提出了金融场景中多智能体应用的解决方案,尤其是 PEER 模式在提升金融决策严谨性和专业性方面的应用效果。最后,文章展示了蚂蚁集团基于 AgentUniverse 框架的实际应用案例,说明了 PEER 模式如何在多个金融场景中提高分析师的生产力。

Cloudflare 宣布了一种新颖的函数调用方法,它将 LLM 推理与函数执行放在同一位置,显著简化了 AI 应用的开发流程。这种名为嵌入式函数调用的新方法,通过在同一环境中运行 LLM 推理和函数执行,避免了多次网络往返。为了进一步提升开发者体验,Cloudflare 发布了一个新的 npm 包 @cloudflare/ai-utils,其中包含 runWithTools 和 createToolsFromOpenAPISpec 等工具。这些工具通过从 OpenAPI 规范动态生成工具并一步执行函数代码,简化了函数调用的流程。Cloudflare 的方法旨在与 OpenAI 提供的开发者体验相媲美,但额外支持开源模型。Cloudflare 的 Workers AI 平台为推理、计算和存储提供了一个完整的环境,使开发者能够用更少的代码构建复杂的 AI 代理。
文章详细介绍了京东物流采用大模型技术(如 GPT)来提升快递员(小哥)工作效率的探索与实践。文章首先介绍了大模型的基本原理,包括内容生成、人类反馈强化学习(RLHF)等,并以小哥的工作流程为例,分析了大模型在揽收、派送、站内操作、客户服务等方面的应用。文章重点描述了通过语音+大模型的结合,如何实现智能操作,如语音识别、意图识别、信息抽取等,减少小哥在查找信息、发短信、填写揽收信息等方面的工作量。文章还介绍了智能问答系统的实现,通过 Prompt+检索增强生成(RAG)来提高回答准确性。此外,文章还讨论了智能提示功能,通过大模型将复杂的业务文档和流程规范转化为易于理解的操作提示,提升小哥的作业质量。最后,文章总结了大模型智能体的应用前景,并提到在模型编排、领域模型训练、安全性等方面需要进一步探索。
本文源于 OpenAI cookbook 的实践,目标是展示如何用大语言模型(LLM)高效地总结长文档。传统方法直接输入长文档会导致摘要过短,因此本文提出了将文档分段处理的方法,通过多次查询 LLM 来生成完整的详细摘要。文章主要使用了 Qwen2 模型,并通过 Ollama 和 transformers 工具实现了模型的加载、部署和 API 调用。具体步骤包括运行 Qwen2 模型、安装依赖、读取和检查文档长度、调用 OpenAI 格式的 API 生成摘要、定义文档拆解函数,以及最终实现可控细节的摘要函数。此方法允许递归汇总,从而提升摘要的上下文连贯性。通过调整参数,用户可以生成不同详细程度的摘要,甚至可以添加额外指令来定制化输出。
Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它能生成几乎与真人无异的语音,包括发音瑕疵,特别擅长学习和模仿人类说话。例如,给出一段语音,Seed-TTS 可以生成具有原声音特征的新语音。它还能生成模仿中文说话者特点的英文语音。Seed-TTS 也能定制音色,如增加“娇嗔”感。它甚至可以根据小说情节和不同角色特质,呈现对应人物和情绪的“说书”。该技术已在 C 端产品中使用并获得好评。团队分享了技术亮点、研究价值和克服的挑战。
本文是一篇关于个人开发者艾逗笔开发和上线 AI 搜索引擎 ThinkAny 的经历总结。ThinkAny 是一款利用 RAG(检索增强生成)技术的 AI 搜索引擎,目标是搜得更快,答得更准。文章介绍了 ThinkAny 的定位、运营情况和冷启动过程,并分享了作者对 AI 搜索市场的看法。作者使用 OpenAI 的 gpt-3.5-turbo 作为基座模型,通过设置提示词,请求大模型做问答输出,聚焦于准确度、响应速度和稳定性。文章详细介绍了 ThinkAny 在基座模型选择、上下文信息密度、缓存历史对话等方面的解决方案,并分享了产品特性和冷启动经验。未来的发展方向包括平台化路线、意图识别、多信息源聚合、自定义信息源等。文中还探讨了 AI 搜索引擎的两种模式:大模型问答模式和工作流模式,及其各自的优劣。最后,作者强调了 AI 搜索的准确度、模型选择、差异化创新以及持续优化的重要性,并分享了开发过程中的一些心得和未来计划。
本文介绍了 Replika 创始人 Eugenia Kuyda 在 Greylock 合伙人 Seth Rosenberg 主持的访谈节目中,深入探讨了 AI 情感、记忆功能以及如何通过 AI 助手优化人类幸福感等话题。Replika 的目标是与用户建立能够提升情感健康的关系,帮助用户改善情感状态,并建立紧密的社交联系。Eugenia 强调记忆功能是 Replika 的核心,让用户通过共享的经历和记忆建立深厚的情感连接。她指出,AI 伴侣不仅仅是为了节省时间,更应注重与用户共度高质量时间。未来的 AI 伴侣将会有多种形式和功能,以满足不同用户的需求,Replika 2.0 版本将侧重于提供美好的活动和共享体验。文章还提到,成功的 AI 伴侣产品必须兼具技术和温度,才能真正改善用户的情感体验和生活质量。
本文从工具型产品的定义和核心价值出发,详细阐述了其设计原则和方法。文章指出,工具型产品的核心是“Save time”,强调解决特定问题的持续性和影响范围。作者通过深入分析生产力工具的交互设计,提出了稳定框架、操作效率、情境式菜单和直接操作等设计要点。同时,文章探讨了 AI 辅助、PLG 和云端协同等未来趋势,为工具型产品的设计指明了方向。特别是 PLG 模式和 AI 技术对市场推广和行业变革的深远影响,文章也给予了详细讨论。
在 Config2024 大会上,Figma 宣布了包括 Figma AI 在内的一系列新功能,这些功能旨在解决用户在设计过程中遇到的实际问题,提高工作效率和创意执行力。Figma AI 通过视觉搜索、AI 增强型内容搜索、自动命名图层、文本处理和视觉画面生成等功能,简化了设计师的工作流程。此外,为了让用户快速上手使用,Figma 对 UI 界面进行了五大优化。Figma 还推出了 Figma Slides 新版本,进一步增强了其在职场生态中的竞争力。Figma 也对数据隐私保护做出了明确承诺,确保用户数据的安全性。
腾讯元宝 AI 搜索能力升级,推出了深度搜索模式。更新后的版本将在 AI 搜索深度模式下,对用户的问题进行扩展,从深度和广度两方面提供更结构化、更丰富的回答,并同步生成内容大纲、思维导图及相关人物事件梳理,帮助用户全景式了解搜索内容。数据显示,大模型相关产品中,超过 65% 的用户需求集中在提升工作与学习效率,其中 '搜索问答' 需求占比高达 45%。腾讯元宝基于微信搜索、搜狗搜索等搜索引擎,优化了搜索结果的准确性和相关性,并提供详细的来源索引,降低了模型幻觉导致的可信度问题。此次深度模式升级在科研、财经等专业场景下效果尤为突出,能够多维度深入剖析问题,结合腾讯生态及其他优质内容源,提供全面深入的回答。用户还可在深度搜索模式下,通过多轮对话进一步追问,获得更详细、个性化的搜索和问答。腾讯元宝是腾讯基于混元大模型推出的 AI 原生应用,具备多模态交互能力,支持 AI 搜索、AI 总结、AI 写作一站式服务,可处理多种文件格式并生成各类数据图表。本次深度搜索模式上线,将进一步满足用户在专业、复杂话题下的信息获取需求,全面提升搜索体验。
本文详细评测了 8 款 AI 大模型在翻译能力方面的表现,涵盖经典文本、专业文献翻译和日常生活等多个场景。文章通过具体的测评规则、打分标准和测评题目,对各模型进行了全面分析。重点模型包括 ChatGPT-4o、腾讯元宝和讯飞星火,它们在文言文翻译、诗歌、古典小说以及科技论文等方面展现了不同的优势。特别是国产大模型在多个翻译任务中表现优秀,甚至在翻译质量、效率及专业文献翻译中超越了 ChatGPT-4o。文章还涉及多模态识图和小语种翻译,评估了各模型在这些复杂任务中的表现。最终,文章总结了高质量机器翻译的实际应用价值,并展望了 AI 翻译技术的发展趋势。
文章以对当前 AI 原生应用的发展趋势和未来方向的探讨为中心,从品牌策略、实时与非实时交互、上下文推理等多个角度进行了详细阐述。作者引用了多位业内专家的观点,强调了创新用户界面和产品设计在 AI 领域的重要性。AI 技术的突破不仅依赖于数据和算力,还需找到合适的用户界面和产品形式。AI 可以通过多模态交互和迭代优化解决“空白页面问题”,并为创业团队提供从零开始的机会。作者还呼吁有意在海外市场发展的 AI 原生应用团队与其联系,共同探讨投资和孵化机会。
Andrej Karpathy 在 2024 年加州大学伯克利分校人工智能黑客马拉松颁奖典礼上的演讲中,回顾了他在人工智能领域的 15 年发展历程,并分享了他对这一领域未来发展的见解。他指出,AI 从过去几百位学者讨论数学细节的小圈子发展到如今充满活力的大规模应用阶段,背后是计算范式的变革。他将大语言模型比作新的操作系统,并对其未来应用前景充满期待。Karpathy 强调了从小项目开始的重要性,并以他自身的经历为例,展示了如何通过不断积累经验和技能,逐步实现更大的目标。他提到了自己在 OpenAI、特斯拉等公司的工作经历,如何将小的项目逐步发展成改变行业的大项目。他还强调了持续学习和实践的重要性,引用 "一万小时" 定律,鼓励开发者通过大量实践积累经验,从而在人工智能领域取得成功。同时,他对未来 AI 的发展提出了具体预测和建议,认为 AI 将在更多实际场景中得到广泛应用。
这篇文章通过对腾讯云与智慧产业事业群 CEO 汤道生的采访,探讨了腾讯在 AI 领域的战略和布局。汤道生指出,AI 不应仅局限于大模型,腾讯需要保持资源投入和跟进,同时也要保持全面的视角,不把 AI 等同于大模型。腾讯在 AI 上的布局包括基础设施、模型管理工具与引擎框架、大模型与模型商店、应用场景等四个层次。他特别关注如何让 AI 在产业场景中应用起来,强调需要提供相应的工具和能力。汤道生还提到,虽然大模型降价不会对腾讯产生太大影响,但公司重视可持续发展,注重商业模式和成本控制。 在大模型应用领域,创业公司可以通过差异化竞争和进入大厂不熟悉的市场来赢得份额。腾讯的业务风格是注重技术、产品和市场的长期布局。汤道生认为,腾讯的成功不仅仅是跟随潮流,而是持续打磨产品,改善体验,赢得用户口碑。他还分享了腾讯在组织变革和个体发展方面的经验,强调创新过程中每个人的角色都很重要。汤道生在采访中也探讨了腾讯云的管理经验和对云计算市场的看法,强调调整规则的重要性和主动思维的关键。此外,他认为面对下一轮技术变革,腾讯应该保持开放和好奇心,积极投入远期变革。
本文深入探讨了通用人工智能(AGI)的工作定义、度量方法和研究路线,并从 AGI 视角辨析了世界模型、大模型幻觉、AI 可解释性、对齐、类脑智能等近期热议的问题。文章首先介绍了 AGI 的概念和历史,接着讨论了 AGI 的定义、度量方法和研究路线。AGI 被定义为一个具有自主性、适应性和创造性的系统,度量方法包括任务完成度、适应性、创造性、智能水平等。文章探讨了实现 AGI 的多个挑战,包括知识表示、自然语言处理、感知和自主性等。对于测试基准,现有方法存在局限性,度量智能需要综合考虑适应速度、适应优度和泛化优度三个因素。创造统一的智能理论对于指导 AGI 研究和检验正确性至关重要。文章最后呼吁研究者应在充分了解前人工作的基础上独立思考,慎重选择研究路线。
本文由 Founder Park 研究中心发布,基于张鹏在 AGI Playground 2024 的演讲。文章回顾了互联网到移动互联网的发展历程,指出经济价值增量与信息总量和流动效率的关系,并以字节跳动为例,阐述在智能推荐引擎等关键技术上的贡献。同时强调通用人工智能的出现将带来智能供给的根本性改变,从而可能实现大规模个性化定制的真正落地。文章建议创业者应利用 AI 技术改变供给,而不仅仅是优化连接能力,产品开发需要融入新的变量,如模型能力和数据流设计;创业者应探索用户真正期待的 AI 产品,并在新时代选择具有潜力和成长空间的市场。