Gemma
开源
AI训练模型

Gemma

谷歌推出的新一代轻量级开放模型

标签:

Gemma模型简介

Gemma是由谷歌DeepMind和其他团队开发的一系列轻量级、先进的开放AI模型。这些模型基于与Gemini模型相同的技术,旨在帮助开发者和研究人员构建负责任的AI应用。

Gemma模型系列

Gemma模型系列包括两种权重规模的模型:Gemma 2B和Gemma 7B。这两个模型都提供预训练和指令微调版本,支持多种框架,如JAX、PyTorch和TensorFlow,以便在不同设备上高效运行。

Gemma 2发布

6月28日,第二代模型Gemma 2已发布,继续扩展我们的AI工具集。

访问Gemma官网

Gemma官方入口

Github上的Gemma实现

官方PyTorch实现GitHub代码库

Google Colab上的Gemma运行地址

Google Colab运行地址

Gemma的主要特性

  • 轻量级架构:易于在多种计算环境中运行,包括个人电脑和工作站。
  • 开放模型:允许用户在遵守许可协议的情况下进行商业使用和分发。
  • 预训练与指令微调:提供预训练模型和经过指令微调的版本,确保模型行为的负责任性。
  • 多框架支持:支持JAX、PyTorch和TensorFlow等主要AI框架。
  • 安全性与可靠性:在设计时遵循Google的AI原则,进行安全评估。
  • 性能优化:针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行优化。
  • 社区支持:提供Kaggle、Colab等平台的免费资源,鼓励创新和研究。
  • 跨平台兼容性:可在多种设备上运行,包括笔记本电脑、台式机、物联网设备和云端。
  • 负责任的AI工具包:发布Responsible Generative AI Toolkit,帮助开发者构建安全的AI应用。

Gemma的技术要点

  • 模型架构:基于Transformer解码器,采用多头注意力机制和GeGLU激活函数。
  • 训练基础设施:在Google的TPUv5e上进行训练,利用分布式计算资源。
  • 预训练数据:在大量英语数据上进行预训练,过滤敏感和不安全内容。
  • 微调策略:通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)进行微调。
  • 安全性和责任:在预训练阶段过滤数据,进行自动化和人类评估。
  • 性能评估:在多个领域进行广泛评估,与同样规模或更大规模的模型进行对比。
  • 开放性和可访问性:以开源形式发布,提供预训练和微调后的检查点,以及开源代码库。

常见问题

  • Gemma一词的含义:Gemma在拉丁语中的意思是“宝石”。
  • Gemma是开源的吗?Gemma是开源开放的大模型,用户可在Hugging Face查看和下载其模型。
  • Gemma模型的参数量是多少?Gemma目前提供20亿和70亿参数量的模型,后续还会推出新的变体。

相关AI网站

暂无评论

暂无评论...