Size is font:
A A A
Site color:
Ц Ц Ц
Voice Assistant
Go to Onlinebank Go to Halyk Club Go to Halyk
Алматы
ИИ Инженер
Основные обязанности:
Разработка и внедрение LLM/VLM-решений для бизнес-задач компании Проектирование и построение RAG-пайплайнов для работы с корпоративными данными Разработка и оптимизация мульти-агентных систем на базе LangGraph и LangChain Настройка и обслуживание инференс-серверов (vLLM, TGI, TensorRT-LLM) Fine-tuning моделей (LoRA, QLoRA, RLHF, DPO) под специфические задачи Разработка REST API на FastAPI для интеграции ML-сервисов в продукт Контейнеризация и деплой ML-сервисов с помощью Docker и Kubernetes Оптимизация производительности моделей: квантизация, батчинг, управление GPU-памятью Проектирование и поддержка векторных баз данных для хранения эмбеддингов Написание и поддержка автоматических тестов для ML-пайплайнов Мониторинг качества моделей в продакшене (LangSmith, OpenTelemetry) Проведение бенчмарков и A/B-тестов для сравнения моделей и подходов Работа с GPU-инфраструктурой: настройка multi-GPU, распределённое обучение Подготовка и очистка данных для обучения и оценки моделей Исследование и внедрение новых моделей, техник и фреймворков Написание технической документации и ADR (Architecture Decision Records) Участие в код-ревью и менторинг младших специалистов Взаимодействие с продуктовой командой для определения требований и приоритетов Оптимизация стоимости облачной GPU-инфраструктуры Обеспечение безопасности и надёжности ML-сервисов в продакшене
Основные требования:
Python & Основы разработки Python 3.10+ (async/await, type hints, dataclasses, protocols) Архитектурные паттерны (SOLID, DI, Clean Architecture) Тестирование (pytest, unittest, mock, integration tests) Линтинг и форматирование (ruff, black, mypy) Управление зависимостями (poetry, uv, pip-tools) Git & GitHub (branching strategies, CI/CD, code review)

LLM / VLM Глубокое понимание архитектуры Transformer: attention, positional encoding, KV-cache LLM: опыт работы с GPT-4, Claude, LLaMA 3, Mistral, Gemma, Qwen VLM: LLaVA, InternVL, Qwen-VL, GPT-4V/4o, Pixtral Fine-tuning: LoRA, QLoRA, PEFT, Full fine-tuning, RLHF, DPO Prompt Engineering: Few-shot, Chain-of-Thought, ReAct, System prompts Evaluation: BLEU, ROUGE, perplexity, human eval, LLM-as-judge Tokenization: BPE, SentencePiece, tiktoken

LangChain & LangGraph LangChain: Chains, Agents, Tools, Memory, Callbacks, LCEL LangGraph: Stateful multi-agent graphs, nodes, edges, conditional routing LangSmith: Tracing, evaluation, monitoring, datasets RAG: Retrieval-Augmented Generation pipelines (indexing, retrieval, generation) Vector Stores: FAISS, Chroma, Pinecone, Qdrant, Weaviate, pgvector Embeddings: OpenAI, Cohere, BGE, E5, Instructor Document Loaders: PDF, HTML, Markdown, Unstructured Text Splitters: Recursive, Semantic, Token-based chunking

vLLM & Инференс vLLM: PagedAttention, continuous batching, tensor parallelism Оптимизация инференса: Quantization (GPTQ, AWQ, GGUF, bitsandbytes), KV-cache оптимизация Serving frameworks: vLLM, TGI, TensorRT-LLM, Triton Batching стратегии: Dynamic batching, continuous batching API совместимость: OpenAI-compatible API endpoints Бенчмаркинг: Throughput, latency (TTFT, TPS), memory profiling

PyTorch & Deep Learning PyTorch: Tensors, autograd, custom modules, DataLoader, Dataset Distributed Training: DDP, FSDP, DeepSpeed (ZeRO Stage 1/2/3), Megatron-LM Mixed Precision: FP16, BF16, AMP Hugging Face: Transformers, Datasets, Accelerate, PEFT, TRL Training: Learning rate scheduling, gradient accumulation/clipping Модельные форматы: SafeTensors, ONNX, TorchScript

GPU & Инфраструктура NVIDIA GPUs: A100, H100, L40S, RTX 4090 — понимание архитектуры CUDA: базовое понимание CUDA cores, Tensor cores, memory hierarchy GPU Memory: управление VRAM, offloading, gradient checkpointing Multi-GPU: tensor parallelism, pipeline parallelism, data parallelism Мониторинг: nvidia-smi, nvitop, GPU utilization profiling Cloud GPU: AWS (p4d/p5), GCP (A3), Azure (ND), RunPod, Lambda

FastAPI & Backend FastAPI: Routers, dependencies, middleware, background tasks Async: asyncio, aiohttp, httpx, async DB drivers Pydantic v2: Models, validators, serialization, settings WebSockets: Streaming LLM responses SSE: Server-Sent Events для стриминга Authentication: JWT, OAuth2, API keys Rate Limiting: Throttling, token bucket Documentation: OpenAPI/Swagger auto-docs

Docker & DevOps Docker: Multi-stage builds, layer caching, .dockerignore Docker Compose: Multi-service orchestration, GPU passthrough NVIDIA Container Toolkit: GPU support в контейнерах Kubernetes: базовое — Pods, Services, Deployments, GPU scheduling CI/CD: GitHub Actions, GitLab CI IaC: Terraform / Pulumi (желательно) Monitoring: Prometheus, Grafana, ELK/Loki

Базы данных & Хранилища PostgreSQL: SQL, pgvector для embeddings Redis: Caching, session management, queues Vector DBs: Qdrant, Pinecone, Weaviate, Chroma Object Storage: S3, MinIO (модели, датасеты) Message Queues: RabbitMQ, Kafka, Celery (желательно)

Дополнительные технологии (Nice to have) CrewAI / AutoGen — multi-agent frameworks Haystack — alternative RAG framework MLflow / W&B — experiment tracking, model registry Label Studio — data annotation Airflow / Prefect — ML pipeline orchestration Streamlit / Gradio — rapid prototyping UI OpenTelemetry — observability для LLM apps

Уровни опыта Junior AI Engineer (0-1 год): Python, базовый PyTorch, LangChain basics, Docker Middle AI Engineer (1-3 года): Fine-tuning, RAG pipelines, vLLM, FastAPI, LangGraph Senior AI Engineer (3-5+ лет): Архитектура систем, distributed training, multi-agent, production MLOps Lead AI Engineer (5+ лет): Стратегия, менторинг, cost optimization, cross-team leadership

Soft Skills Аналитическое мышление и умение декомпозировать задачи Навыки технической коммуникации (документация, ADR) Способность быстро осваивать новые модели и фреймворки Опыт работы в Agile/Scrum командах Английский язык — B2+ (чтение документации, коммуникация)
Условия:
•Заработная плата и бонусы: конкурентоспособная оплата труда благодаря системе грейдирования, премии ко Дню Независимости и годовой бонус.
•Социальный пакет: ДМС и страхование жизни, мобильная связь и скидки от партнеров.
•Отпуск и отдых: 26 дней отпуска с возможностью взять дополнительные дни при наступлении важных событий.
•Бонусы за рекомендации.
•Рабочие условия: льготные условия на паркинг, свободный стиль одежды (smart casual).
•Обучение и развитие: тренинги, вебинары и доступ к корпоративной библиотеке, четкая система карьерного роста.
•Корпоративная культура: открытая и дружеская рабочая атмосфера, спортивные турниры и активная корпоративная жизнь.
•Инициативы и проекты: возможность участия в социальных проектах, реализация идей в новых проектах группы «Halyk» с использованием современных digital-инструментов.
•Команда: творческая и поддерживающая команда для реализации ваших идей.
Присоединяйтесь к нам и становитесь частью команды «Halyk»!

Заполните форму

License for banking and other operations and activities in the securities market №1.2.47/230/38/1 dated June 23, 2023 issued by Agency for regulation and development of the financial market of the Republic of Kazakhstan.

The website uses images and texts created using artificial intelligence.

powered by amphibia