Skip to content

momentics/NeuralTower

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

177 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NeuralTower

Логотип проекта NeuralTower NeuralTower - открытый инженерный проект настольной рабочей станции на четырех NVIDIA Tesla V100 SXM2 32 GB. Цель проекта - собрать локальный узел с 128 GB HBM2 для инференса и экспериментов с большими моделями без постоянной зависимости от облака.

Проект прошел стадию Proof of Concept: стенд из двух ускорителей V100 SXM2 32 ГБ был собран, протестирован и показал среднюю скорость 32,69 токена в секунду при инференсе модели Qwen3.6-27B. Детали PoC зафиксированы в Diagnosis/V100-SXM2-32G/PoC.md. Полноценная сборка на четырех GPU с жидкостным охлаждением и двумя блоками питания находится в стадии подготовки. В репозитории отдельно лежат расчеты, механика, электрическая часть, подготовка железа, программная среда и статьи о проекте. Если обзорный текст расходится с инженерным документом, для сборки нужно использовать инженерный документ.

Быстрая навигация

Раздел Назначение
Docs/project_status.md Текущий статус узлов, неподтвержденные гипотезы и план первичной проверки
Docs/BOM/bom_list.md Перечень компонентов, материалов и закупочных позиций
Docs/Calculations/air_dynamics.md Расчет воздушной части V-CORE
CAD/Frame/frame_assembly.md Нарезка профиля, рельсы и силовые поперечины каркаса
CAD/Mounts/mounting_hardware.md Канонический порядок сборки нижнего отсека
CAD/Deck/deck_layout.md Геометрия палубы, сопел и технологических проходов
CAD/PSU/psu_mounting_regulation.md Полный регламент PSU-узла: кронштейны, изоляция, панели, кабели, заземление
Electrical/Pinouts/slimsas_mapping.md Топология SlimSAS, слоты PCIe и порядок GPU
Hardware/BIOS/bios_settings.md Настройки BIOS для V100, PLX и PCIe
Software/Linux/system_setup.md Порядок подготовки ОС и первого запуска
Diagnosis/V100-SXM2-32G Контейнер диагностики четырех V100 SXM2

Архитектура

Система строится вокруг четырех Tesla V100 SXM2, установленных на двух SXM2 carrier board. Внутри каждого мезонина пара GPU связана NVLink 2.0, а межмезонинный обмен идет через PCIe 3.0 x16, SlimSAS SFF-8654 8i и PLX-коммутаторы материнской платы ASUS X99-E WS.

Вычислительный узел:

  • Процессор: Intel Xeon E5-2687W v4 (12 ядер, 24 потока, LGA 2011-3, TDP 160W)
  • ОЗУ: 8x DDR4 32GB 2400 ECC REG RDimm (суммарно 256 ГБ)
  • Материнская плата: ASUS X99-E WS

Графика:

  • 4x NVIDIA Tesla V100 SXM2 32 ГБ (суммарно 128 ГБ HBM2)

Питание:

  • 2x Corsair HX1500i (3000Wtotal)
  • Мезонины питаются только GPU 8-pin и CPU 8-pin (без ATX 24-pin)

Основной инженерный компромисс проекта: V100 уже не современная архитектура, но дает большой объем HBM2 на вторичном рынке. Для программного стека это означает обязательную работу с ограничениями Volta sm_70: CUDA 12.8, FP16 как базовый тип данных и отдельная стратегия для vLLM.

Охлаждение V-CORE

V-CORE - рабочее название схемы охлаждения, где жидкостный контур снимает основную тепловую нагрузку с CPU и GPU, а нижний отсек корпуса работает как камера избыточного давления. Воздух проходит через радиаторы СЖО, попадает в герметичный КВД и выходит через калиброванные сопла палубы к VRM, обратным сторонам плат и зонам, не закрытым водоблоками. Два блока питания HX1500i находятся в изолированных боковых отсеках и не используют воздух КВД.

Основные документы по этой теме:

Программный стек

Основной путь развертывания: Gentoo Linux, CUDA 12.8, NVIDIA driver 580+, Python 3.12 и 1Cat-vLLM для восстановления рабочей поддержки V100. Альтернативный путь - официальный vLLM ветки 0.18.x с Triton-бэкендом, если форк 1Cat-vLLM не подходит.

Стартовые документы:

Безопасность

В проекте используются высокие токи, два блока питания, жидкостное охлаждение и дорогое серверное оборудование. До подачи питания обязательны проверка распиновок, прозвонка силовых кабелей, контроль общей земли между БП и рамой, наружный доступ к выключателям HX1500i, тест герметичности СЖО и проверка работы помп.

Связанные документы:

Структура репозитория

NeuralTower/
├── Articles/              # публикации и черновики статей
├── CAD/                   # механическая компоновка и сборка
├── Diagnosis/             # аппаратные тесты GPU
├── Docs/
│   ├── BOM/               # перечень компонентов
│   ├── Calculations/      # расчетные записки
│   └── Images/            # логотип, схемы и будущие фотографии
├── Electrical/            # питание, земля, распиновки
├── Hardware/              # GPU, BIOS, аппаратная подготовка
├── Manuals/               # внешние мануалы и справочные материалы
├── Software/              # ОС, ML-стек, мониторинг
└── ...                    # другие директории могут присутствовать

Связь

Группа в Telegram: @NeuralTower

Группа Telegram проекта NeuralTower