GPT-4发布一年之后：生成式AI在医疗健康领域的应用

2024-04-01

前言过去一年，生成式人工智能在算力基础设施、大语言模型、多模态生成等方面取得重大突破，促进了其在各行业的广泛应用。本文将从基础技术层面、应用落地层面和用户应用层面，对生成式AI领域的九大热点进行系统梳理，并展望其未来发展趋势和在医疗健康领域的应用前景。一、基础技术：算力巨擘竞逐，大语言模型百舸争流，多模态模型突飞猛进在过去一年里，生成式人工智能领域在算力基础设施、新一代大语言模型、多模态生成等方面取得了重大突破。以英伟达、AMD为代表的头部科技公司提供了强大的算力支持，GPT-4等新一代大语言模型展现出更长的上下文窗口和更强的涌现能力，而SORA、Stable Diffusion等多模态模型更是实现了跨模态创作和转换的新飞跃。随着技术的不断进步和生态系统的日益完善，生成式人工智能正在为各行各业带来变革性影响，并将开启人机协作的新时代。1."芯"力大爆发：算力巨头纷纷布局过去一年以来，英伟达、AMD、Intel等科技巨头凭借强大的算力基础设施，为生成式AI模型的训练和部署提供了强劲支撑。2024年3月，英伟达推出新一代计算架构Blackwell、AMD、Intel等公司也纷纷推出竞品。Microsoft、Amazon、Google等云计算厂商亦加入芯片设计竞争，算力市场空前火热。各算力基础设施公司正着眼于构建完整的人工智能计算平台，涵盖硬件、软件、开发工具等各个环节，以抢占新一轮人工智能革命的制高点。可以预见，随着算力基础设施的不断完善，以及头部科技公司在人工智能领域的深度布局，生成式人工智能模型将迎来更广阔的应用前景和发展空间。2.语言模型乘风破浪：更长文本、更强能力、更丰富的生态随着生成式人工智能技术的飞速发展，新一代通用大语言模型正在展现出越来越强大的能力。这些模型拥有更长的上下文窗口和更强的涌现能力，能够处理更加复杂和广泛的任务。通过对Transformer模型架构的改进，以及对训练数据的扩充和增强，GPT-4、Claude 3、LlaMa 2、Mistral Large和Gemini 1.5 Pro等最新的大语言模型能够生成更加流畅、连贯的内容，同时具备更强的推理和创造能力。除了模型本身的技术进步，开源与闭源大模型的并存也为生态系统的繁荣发展提供了多元化的选择。一方面，OpenAI、Anthropic等公司推出的GPT-4、Claude 3等闭源模型凭借其出色的性能和丰富的功能赢得了广泛关注；另一方面，Meta推出的Llama 2以及Mistral推出的Mistral Large等开源模型则为开发者和研究人员提供了更多的灵活性和可定制性。3.多模态模型异军突起：跨界生成、风格一致在过去的一年中，生成式大模型在多模态生成能力方面取得了突破性进展。通过融合文本、图像、视频、音频等多种模态的数据，并利用先进的深度学习技术，这些模型展现出了跨模态创作和转换的惊人能力。在视频生成领域，SORA、Pika和Runway等模型脱颖而出。其中OpenAI 于近期推出的SORA模型通过引入时空注意力机制和层次化的时空表征学习，实现了高质量、长时间的视频生成。图像生成方面，Stable Diffusion 3和Midjourney V6等模型继续引领潮流；在音乐生成领域，MusicGen和Suno.ai等模型通过学习海量音乐数据，掌握了音乐创作的基本规律和风格特征。一年以来，各大科技巨头积极推出多模态相互大模型，生成式AI能力在文本、图像、音乐、视频等不同格式之间的转换能力大幅提升，为创意产业带来无限可能。二、应用落地：RAG外挂助攻，LoRA高效定制，部署环境日趋完善检索增强生成（RAG）、LoRA模型微调、友好的模型部署环境等技术的进展，为生成式人工智能的落地应用提供了有力支撑。RAG技术通过利用外部知识库，提升了AI助手的问答能力和知识管理效率。LoRA则为模型定制化提供了高效、灵活的解决方案，推动AI在垂直行业的应用。Hugging Face等平台则构建了友好的开发生态，降低了技术门槛，促进了AI应用的创新和协作。这些技术进展共同推动了生成式AI与各行各业的深度融合，助力了人机协作的发展创新。1. RAG技术:大模型也能"开外挂"检索增强生成（Retrieval Augmented Generation）技术是一种通过检索与当前对话相关的外部文本，扩展大语言模型上下文信息的技术。它利用信息检索组件，根据用户输入从外部知识库中提取相关信息，并将其与原始问题一起输入到语言模型中，从而生成更加全面、准确的回复。RAG技术为生成式人工智能的落地应用提供了多方面的助力。首先，它能够将大语言模型的能力扩展到特定领域或组织内部的知识库，而无需重新训练模型，大大提高了模型的适用性，降低了模型训练成本；其次，通过利用外部知识，RAG能够生成更加相关、准确、有深度的回复，提升了人工智能助手的实用价值；此外，RAG技术还为知识管理和企业数字化转型提供了新的思路。通过将分散的、非结构化的文本数据整合到统一的知识库中，并利用RAG技术实现智能检索和生成，企业可以更高效地管理和运用内部知识资产，促进跨部门协作和知识共享。同时，RAG也为个性化推荐、智能搜索等应用场景注入了新的活力，有望进一步提升用户体验和商业价值。2. LoRA技术灵活调校：预训练模型也可高效定制LoRA（Low-Rank Adaptation）是一种高效的模型微调技术，通过在预训练模型中添加低秩适配器（LoRA Adapter），实现模型的快速定制化。与传统的全面微调（Full Fine-tuning）方法相比，LoRA在保持模型整体性能的同时，大大降低了计算资源和时间成本，为个性化模型定制提供了更加灵活、经济的解决方案。LoRA的核心思想是将预训练模型的权重矩阵近似分解为两个较小的矩阵，并只对这两个矩阵进行微调，而保持原始模型的大部分权重不变。通过这种方式，LoRA能够在不影响模型泛化能力的前提下，针对特定任务或领域进行优化，生成更加贴近用户需求的输出。与全面微调相比，LoRA还能够有效避免"灾难性遗忘"（Catastrophic Forgetting）现象，即在微调过程中丢失预训练模型已学习到的知识。LoRA在保持模型泛化能力的同时，针对特定任务进行优化，使企业能够快速构建适用于自身业务的专用模型。3. 模型部署调用零门槛:AI开发应用前所未有的友好生成式AI应用领域不断扩展，但模型部署、调用和应用发布过程的复杂技术细节，对开发者和企业用户构成了门槛。为推动生成式AI的广泛应用，Hugging Face和LangChain等平台提供了一站式解决方案，集成了模型托管、微调、部署、调用等功能，简化开发和应用流程。通过API接口或可视化界面，开发者可快速将预训练模型应用于特定任务，更多个人开发者和中小企业能参与到生成式AI的应用创新中。友好的模型部署和调用环境，使生成式AI在垂直领域的应用更加便利。通过平台提供的微调工具和领域特定数据集，开发者可快速调整通用模型，生成更准确、专业的输出结果。完善的应用发布环境，如应用市场和在线演示，使优秀AI应用触达更广泛受众，促进AI应用的交流与共享，降低企业的技术集成和应用成本。三、应用场景：搜索引擎革新问答，AI Copilot赋能开发在应用层面，AI搜索引擎、AI Copilot辅助工具和对话机器人等生成式AI应用正在深刻影响用户的工作和生活方式。AI搜索引擎通过语义理解和知识关联，提供更加精准、创新的搜索体验。AI Copilot工具利用自然语言生成代码，大幅提升软件开发效率，赋能行业数字化转型。这些智能应用代表了人工智能走向大众、融入日常的显著趋势，推动人机协作向更高层次迈进。1. 搜索引擎华丽转身：从关键词匹配到智能问答AI搜索引擎正在颠覆传统搜索模式。以Perplexity AI为代表的AI搜索引擎，通过大规模语言模型和知识图谱等技术，建立海量信息与用户查询间的语义关联。AI搜索引擎不仅能够匹配关键词，更会深入理解查询背后的真正需求，考虑上下文语境、用户意图等因素，提供精准、针对性的搜索结果。与传统搜索引擎返回网页链接不同，AI搜索引擎能直接生成自然语言答案，以友好、易懂的方式呈现给用户。这种"即问即答"的交互模式，大大提升了用户获取信息的效率和体验。AI搜索引擎还能通过知识推理和跨领域关联，发现隐藏联系，启发新思路，为用户提供开放、创新的灵感。未来，搜索模式将更加智能、个性化、语义化，成为人们探索知识、激发创新、提升效率的重要工具。AI搜索引擎将与传统搜索互补，为用户提供全面、优质的信息服务，推动知识普惠和应用。AI搜索引擎也将加速人工智能与各行各业的融合，为教育、科研、决策等领域持续赋能。2. AI Copilot齐心协力：代码辅助工具加速软件开发AI Copilot正成为软件开发领域的重要趋势。它利用生成式AI的强大能力，通过自然语言描述自动生成代码，大幅提高软件开发效率，降低开发门槛，为加速软件开发、赋能行业数字化转型提供新路径。以Github Copilot和Amazon CodeWhisperer为代表的低代码生成工具，通过预训练在海量代码库上的大规模语言模型，掌握了编程语言的语法规则和常用模式。开发者只需用自然语言描述所需功能，即可自动生成相应代码片段。这种"即说即码"的交互方式，使开发者能专注于系统设计和业务逻辑，无需耗费大量时间在重复性编码工作上。AI辅助代码工具的普及，也为更多非技术背景人员参与软件开发扫除了障碍。业务专家、产品经理等只需用自然语言表达需求，即可快速实现原型和Demo，加速需求澄清和迭代过程。结语生成式人工智能正以前所未有的速度发展，并广泛应用于各行各业。算力基础设施的完善、大语言模型和多模态技术的突破，为生成式AI提供了强大的技术支撑。RAG、LoRA等应用落地技术和友好的开发环境，推动了AI在垂直领域的规模化应用。AI搜索引擎、代码辅助工具、智能对话机器人等创新应用，正在深刻影响人们的工作和生活方式。值得一提的是，生成式人工智能在医疗领域也具有非常广阔的应用前景。它有望在医疗影像分析、药物发现、个性化治疗等方面发挥重要作用，提高医疗诊断和治疗的精准性和效率，造福患者。IQVIA作为医疗健康领域的领先企业，将推出系列文章，深入探讨生成式人工智能在医疗行业的应用实践和发展趋势，并向读者详细阐述生成式人工智能在医疗企业场景中的落地应用，以及应用过程中需要注意的问题，敬请关注。更多详情，敬请垂询：金晖IQVIA艾昆纬高级总监，数据科学和高级分析中国区负责人hui.jin@iqvia.com王越IQVIA艾昆玮总监，数据科学和高级分析yue.wang1@iqvia.com特别鸣谢本文作者：于思艺声明原创内容的最终解释权以及版权归IQVIA艾昆纬中国所有。如需转载文章，请发送邮件至iqviagcmarketing@iqvia.com。