如今,人工智能的发展日新月异,机器学习项目的优化和更新换代总是备受瞩目。Karpathy等领域的专家项目曾引发广泛讨论,而今,又有新的项目问世,其卓越之处足以超越前人,这自然引起了人们的极大兴趣。
了解旧项目的局限
旧项目「llm.c」中,尽管仅用1000行代码在CPU/fp32上实现GPT-2训练是一项重大突破,但它存在不少局限。比如,复现GPT-2级别模型时,需要在8块H100上耗时45分钟进行训练。这对许多急于得到结果或资源有限的研究者来说,构成了一大制约。此外,验证损失在19560步训练后超过了3.28。
实际情况来看,众多小型研究团队和个人研究者往往缺乏高端GPU设备。他们还难以承受漫长的训练时长。这样一来,旧项目的实用性显然受到了严重影响。
新项目的快速成果
新项目“Modded-NanoGPT”展现了显著优势。仅需5分钟,即可达成相同效果。项目在GitHub上线后,吸引了众多目光。该成果是在10亿Finewebtokens上,经过1875步训练所得,验证损失仅为约3.278。这充分说明,新项目不仅速度上乘,效果亦佳。
在教学场景中,AI研究项目若能迅速取得成效,学生和研究者便能更快地投入到下一阶段的迭代与优化工作中,从而显著提升研究效率。
pip install -r requirements.txtpip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0python data/cached_fineweb10B.py 10 # downloads only the first 1.0B training tokens to save time./run.sh
新项目的参数与性能
“Modded-NanoGPT”这一改进版本,最终将形成一个拥有124M个活跃参数的transformer。这是一个至关重要的技术指标,它展现了模型的规模与潜力。以数据挖掘为例,恰当的参数设置能够让模型更精确地筛选出有价值的情报。
得分更高,各项性能指标均优于旧项目。在各种训练环境中,它都能良好适应,展现出优异的表现。在多个评测指标中,该参数的设置均体现出明显的优势。
运行资源的灵活性
sudo apt-get updatesudo apt-get install vim tmux python3-pip python-is-python3 -ygit clone https://github.com/KellerJordan/modded-nanogpt.gitcd modded-nanogpttmux
pip install numpy==1.23.5 huggingface-hub tqdmpip install --upgrade torch &python data/cached_fineweb10B.py 18
在有限的GPU资源上运行「Modded-NanoGPT」并非难题,只需对run.sh文件稍作修改,调整–nproc_per_node参数即可。这样的调整明显拓宽了项目的适用范围。对于小型实验环境,只要GPU数量有限,也能轻松实现相应配置。
若某初创企业仅有两三台GPU,却又渴望开展相关模型的训练与探索,那么便可通过此法达成目标。
sudo docker build -t modded-nanogpt .sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh
优化器的优势
Muon优化器是“Modded-NanoGPT”的一大特色。它被认为是现知最快的优化器,适用于多种训练场景,包括CIFAR-10和GPT-2规模的语言建模。这一优化器是通过多次实验不断优化的成果。根据作者的经验,这个优化器是在对CIFAR-10进行快速运行探索时得到的,并且它也适用于其他大规模语言建模场景,比如GPT-2的训练,这显著提升了训练的效率和效果。
在处理大批量数据时,这个优化器便能大显身手,展现出其强大的功能。
相关技术的追溯
在新的项目中,我们采用了Bernstein&Newhouse(2024)提出的方法,利用Newton-Schulz迭代进行正交化。这一方法融合了理论与实践。实际上,它代表了平滑谱最陡下降的第二种策略,与Shampoo相比,它在内存和运行时间上有所权衡。对技术人员而言,这有助于更深入地理解并优化项目。若对这一方法的理论进行深入研究,或许还能开发出更高效的技术手段。
你是否同样期待这个项目能在更多场景和规模中得到应用?若觉得这篇文章对你有帮助,不妨点赞和分享一下。
内容来自网络,如有侵权,联系删除。
猜你喜欢
发表评论
电子邮件地址不会被公开。 必填项已用*标注