InfiniTensor
diff --git a/‎CMakeLists.txt‎
Lines changed: 152 additions & 55 deletions b/‎CMakeLists.txt‎
Lines changed: 152 additions & 55 deletions
diff --git a/‎example/gpt2/main.cc‎
Lines changed: 6 additions & 5 deletions b/‎example/gpt2/main.cc‎
Lines changed: 6 additions & 5 deletions
diff --git a/‎example/gpt2/net.cc‎
Lines changed: 2 additions & 2 deletions b/‎example/gpt2/net.cc‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/llama3/main.cc‎
Lines changed: 12 additions & 11 deletions b/‎example/llama3/main.cc‎
Lines changed: 12 additions & 11 deletions
diff --git a/‎infini_train/include/autocast.h‎
Lines changed: 4 additions & 9 deletions b/‎infini_train/include/autocast.h‎
Lines changed: 4 additions & 9 deletions
diff --git a/‎infini_train/include/common/common.h‎
Lines changed: 3 additions & 0 deletions b/‎infini_train/include/common/common.h‎
Lines changed: 3 additions & 0 deletions
@@ -1,10 +1,11 @@
+cmake_minimum_required(VERSION 3.28)
+
 option(USE_CUDA "Support NVIDIA CUDA" OFF)
 option(PROFILE_MODE "ENABLE PROFILE MODE" OFF)
 option(USE_OMP "Use OpenMP as backend for Eigen" ON)
 option(USE_NCCL "Build project for distributed running" ON)
-cmake_minimum_required(VERSION 3.28)
 
-project(infini_train VERSION 0.3.0 LANGUAGES CXX)
+project(infini_train VERSION 0.5.0 LANGUAGES CXX)
 
 set(CMAKE_CXX_STANDARD 20)
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
@@ -13,90 +14,186 @@ set(CMAKE_CXX_EXTENSIONS OFF)
 # Generate compile_commands.json
 set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
 
-# Add gflags
+# ------------------------------------------------------------------------------
+# Third-party deps
+# ------------------------------------------------------------------------------
+
+# gflags
 add_subdirectory(third_party/gflags)
 include_directories(${gflags_SOURCE_DIR}/include)
 
+# glog
 set(WITH_GFLAGS OFF CACHE BOOL "Disable glog finding system gflags" FORCE)
 set(WITH_GTEST OFF CACHE BOOL "Disable glog finding system gtest" FORCE)
-
-# Add glog
 add_subdirectory(third_party/glog)
 include_directories(${glog_SOURCE_DIR}/src)
 
-# Add eigen
+# eigen
 if(USE_OMP)
-    find_package(OpenMP REQUIRED)
+  find_package(OpenMP REQUIRED)
 endif()
-# find_package(OpenBLAS REQUIRED)
-# include_directories(${OpenBLAS_INCLUDE_DIR})
 add_subdirectory(third_party/eigen)
 include_directories(${PROJECT_SOURCE_DIR}/third_party/eigen)
-# add_definitions(-DEIGEN_USE_BLAS)
 
 include_directories(${PROJECT_SOURCE_DIR})
-file(GLOB_RECURSE SRC ${PROJECT_SOURCE_DIR}/infini_train/src/*.cc)
-list(FILTER SRC EXCLUDE REGEX ".*kernels/cpu/.*")
 
 if(PROFILE_MODE)
-    add_compile_definitions(PROFILE_MODE=1)
+  add_compile_definitions(PROFILE_MODE=1)
 endif()
 
-file (GLOB_RECURSE CPU_KERNELS ${PROJECT_SOURCE_DIR}/infini_train/src/kernels/cpu/*.cc)
+# ------------------------------------------------------------------------------
+# Sources
+# ------------------------------------------------------------------------------
+
+# Framework core sources (*.cc), excluding cpu kernels (they are built separately)
+file(GLOB_RECURSE SRC ${PROJECT_SOURCE_DIR}/infini_train/src/*.cc)
+list(FILTER SRC EXCLUDE REGEX ".*kernels/cpu/.*")
+
+# CPU kernels (*.cc)
+file(GLOB_RECURSE CPU_KERNELS ${PROJECT_SOURCE_DIR}/infini_train/src/kernels/cpu/*.cc)
+
+# ------------------------------------------------------------------------------
+# CPU kernels library
+# ------------------------------------------------------------------------------
+
 add_library(infini_train_cpu_kernels STATIC ${CPU_KERNELS})
-target_link_libraries(infini_train_cpu_kernels glog Eigen3::Eigen)
+target_link_libraries(infini_train_cpu_kernels PUBLIC glog Eigen3::Eigen)
+
 if(USE_OMP)
-    add_compile_definitions(USE_OMP=1)
-    target_link_libraries(infini_train_cpu_kernels OpenMP::OpenMP_CXX)
+  add_compile_definitions(USE_OMP=1)
+  target_link_libraries(infini_train_cpu_kernels PUBLIC OpenMP::OpenMP_CXX)
+endif()
+
+# ------------------------------------------------------------------------------
+# CUDA kernels library (optional)
+# ------------------------------------------------------------------------------
+
+if(USE_CUDA)
+  add_compile_definitions(USE_CUDA=1)
+  enable_language(CUDA)
+  find_package(CUDAToolkit REQUIRED)
+  include_directories(${CUDAToolkit_INCLUDE_DIRS})
+
+  # CUDA compilation options
+  set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} --expt-extended-lambda --expt-relaxed-constexpr")
+
+  # Only compile CUDA kernels / cuda sources here (your original used src/*.cu)
+  file(GLOB_RECURSE CUDA_KERNELS ${PROJECT_SOURCE_DIR}/infini_train/src/*.cu)
+
+  add_library(infini_train_cuda_kernels STATIC ${CUDA_KERNELS})
+  set_target_properties(infini_train_cuda_kernels PROPERTIES CUDA_ARCHITECTURES "75;80;90")
+
+  target_link_libraries(infini_train_cuda_kernels
+    PUBLIC
+      glog
+      CUDA::cudart
+      CUDA::cublas
+      CUDA::cuda_driver
+  )
+
+  if(USE_NCCL)
+    message(STATUS "Add USE_NCCL, use NCCL with CUDA")
+    list(APPEND CMAKE_MODULE_PATH ${PROJECT_SOURCE_DIR}/cmake)
+    find_package(NCCL REQUIRED)
+    add_compile_definitions(USE_NCCL=1)
+    target_link_libraries(infini_train_cuda_kernels PUBLIC nccl)
+  endif()
 endif()
 
+# ------------------------------------------------------------------------------
+# Main framework library
+# ------------------------------------------------------------------------------
+
+add_library(infini_train STATIC ${SRC})
+target_link_libraries(infini_train
+  PUBLIC
+    glog
+    gflags
+    infini_train_cpu_kernels
+)
+
 if(USE_CUDA)
-    add_compile_definitions(USE_CUDA=1)
-    enable_language(CUDA)
-    find_package(CUDAToolkit REQUIRED)
-    include_directories(${CUDAToolkit_INCLUDE_DIRS})
-
-    # enable CUDA-related compilation options
-    set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} --expt-extended-lambda --expt-relaxed-constexpr")
-    file(GLOB_RECURSE CUDA_KERNELS ${PROJECT_SOURCE_DIR}/infini_train/src/*.cu)
-    add_library(infini_train_cuda_kernels STATIC ${CUDA_KERNELS})
-    set_target_properties(infini_train_cuda_kernels PROPERTIES CUDA_ARCHITECTURES "75;80;90")
-    target_link_libraries(infini_train_cuda_kernels glog CUDA::cudart CUDA::cublas CUDA::cuda_driver)
-
-    add_library(infini_train STATIC ${SRC})
-    target_link_libraries(infini_train glog gflags "-Wl,--whole-archive" infini_train_cpu_kernels infini_train_cuda_kernels "-Wl,--no-whole-archive")
-
-    if (USE_NCCL)
-        message(STATUS "Add USE_NCCL, use NCCL with CUDA")
-        list(APPEND CMAKE_MODULE_PATH ${PROJECT_SOURCE_DIR}/cmake)
-        find_package(NCCL REQUIRED)
-        add_compile_definitions(USE_NCCL=1)
-        target_link_libraries(infini_train nccl)
-    endif()
-else()
-    add_library(infini_train STATIC ${SRC})
-    target_link_libraries(infini_train glog gflags "-Wl,--whole-archive" infini_train_cpu_kernels "-Wl,--no-whole-archive")
+  # infini_train contains cuda runtime wrappers (*.cc) like cuda_blas_handle.cc/cuda_guard.cc
+  # Those may need CUDA runtime/driver/cublas symbols at final link, so attach them here too.
+  target_link_libraries(infini_train
+    PUBLIC
+      infini_train_cuda_kernels
+      CUDA::cudart
+      CUDA::cublas
+      CUDA::cuda_driver
+  )
+
+  if(USE_NCCL)
+    # If your core library code also directly references NCCL symbols (not only kernels),
+    # keep this. Otherwise it's harmless.
+    target_link_libraries(infini_train PUBLIC nccl)
+  endif()
 endif()
 
+# ------------------------------------------------------------------------------
+# Helper: link libraries in a group to fix static lib one-pass resolution
+# (THIS is what fixes "undefined reference" from cuda_kernels -> core symbols)
+# ------------------------------------------------------------------------------
+function(link_infini_train_exe target_name)
+  if(USE_CUDA)
+    target_link_libraries(${target_name} PRIVATE
+      "-Wl,--start-group"
+      "-Wl,--whole-archive"
+        infini_train
+        infini_train_cpu_kernels
+        infini_train_cuda_kernels
+      "-Wl,--no-whole-archive"
+      "-Wl,--end-group"
+    )
+  else()
+    target_link_libraries(${target_name} PRIVATE
+      "-Wl,--start-group"
+      "-Wl,--whole-archive"
+        infini_train
+        infini_train_cpu_kernels
+      "-Wl,--no-whole-archive"
+      "-Wl,--end-group"
+    )
+  endif()
+endfunction()
+
+
+# ------------------------------------------------------------------------------
 # Examples
-add_executable(mnist example/mnist/main.cc example/mnist/dataset.cc example/mnist/net.cc)
-target_link_libraries(mnist infini_train)
+# ------------------------------------------------------------------------------
 
-add_executable(gpt2 example/gpt2/main.cc example/common/tiny_shakespeare_dataset.cc example/common/utils.cc example/gpt2/net.cc example/common/tokenizer.cc)
-target_link_libraries(gpt2 infini_train)
+add_executable(mnist
+  example/mnist/main.cc
+  example/mnist/dataset.cc
+  example/mnist/net.cc
+)
+link_infini_train_exe(mnist)
+
+add_executable(gpt2
+  example/gpt2/main.cc
+  example/common/tiny_shakespeare_dataset.cc
+  example/common/utils.cc
+  example/gpt2/net.cc
+  example/common/tokenizer.cc
+)
+link_infini_train_exe(gpt2)
+
+add_executable(llama3
+  example/llama3/main.cc
+  example/common/tiny_shakespeare_dataset.cc
+  example/common/utils.cc
+  example/llama3/net.cc
+  example/common/tokenizer.cc
+)
+link_infini_train_exe(llama3)
 
-add_executable(llama3 example/llama3/main.cc example/common/tiny_shakespeare_dataset.cc example/common/utils.cc example/llama3/net.cc example/common/tokenizer.cc)
-target_link_libraries(llama3 infini_train)
+# Tools
+add_subdirectory(tools/infini_run)
+set_target_properties(infini_run PROPERTIES RUNTIME_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR})
 
+# Tests
 add_executable(test_hook test/hook/test_hook.cc)
 target_link_libraries(test_hook infini_train)
 
 add_executable(test_precision_check test/hook/test_precision_check.cc)
 target_link_libraries(test_precision_check infini_train)
-
-add_subdirectory(tools/infini_run)
-
-set_target_properties(infini_run PROPERTIES
-    RUNTIME_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}
-)
-
 
@@ -10,6 +10,7 @@
 #include "glog/logging.h"
 
 #include "infini_train/include/autocast.h"
+#include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dataloader.h"
 #include "infini_train/include/device.h"
 #include "infini_train/include/nn/modules/loss.h"
@@ -272,7 +273,7 @@ void Train(const nn::parallel::Rank &rank) {
     loss_fn->To(device);
     LOG(INFO) << "Rank " << rank.GlobalRank() << ": start training";
 
-    auto cuda_device = device->IsCUDA() ? dynamic_cast<const CudaDevice *>(device) : nullptr;
+    auto impl = core::GetDeviceGuardImpl(device.type());
 
     LOG(INFO) << "start training";
 
@@ -282,8 +283,8 @@ void Train(const nn::parallel::Rank &rank) {
 
         const bool last_step = step == FLAGS_num_iteration;
 
-        if (cuda_device) {
-            cuda_device->ResetMemPoolHighWatermarks();
+        if (device.IsCUDA()) {
+            impl->ResetMemPoolHighWatermarks(device);
         }
 
         const auto iter_start = std::chrono::high_resolution_clock::now();
@@ -375,8 +376,8 @@ void Train(const nn::parallel::Rank &rank) {
 
         if (rank.IsLastRank()) {
             size_t used_mb = 0, reserved_mb = 0;
-            if (cuda_device) {
-                std::tie(used_mb, reserved_mb) = cuda_device->GetMemPoolPeakMB();
+            if (device.IsCUDA()) {
+                std::tie(used_mb, reserved_mb) = impl->GetMemPoolPeakMB(device);
             }
 
             LOG(ERROR) << std::format("step {:4d}/{} | train loss {:.6f} | lr {:.2e} | ({:.2f} ms | {:.0f} tok/s | "
 
@@ -199,8 +199,8 @@ GPT2FirstStage::Forward(const std::vector<std::shared_ptr<infini_train::Tensor>>
     int tp_rank = 0;
     if (tp_world_size > 1) {
         auto tp_group = nn::parallel::ProcessGroupFactory::Instance()->Get(
-            nn::parallel::GetTensorParallelProcessGroupName(device->rank().GlobalRank()));
-        tp_rank = tp_group->GetGroupRank(device->rank().GlobalRank());
+            nn::parallel::GetTensorParallelProcessGroupName(device.Rank().GlobalRank()));
+        tp_rank = tp_group->GetGroupRank(device.Rank().GlobalRank());
     }
     int64_t t_local = sequence_parallel_enabled ? x1->Dims()[1] / tp_world_size : x1->Dims()[1];
     int64_t start = sequence_parallel_enabled ? tp_rank * t_local : 0;
 
@@ -8,27 +8,28 @@
 #include "glog/logging.h"
 
 #include "infini_train/include/autocast.h"
+#include "infini_train/include/core/device_guard.h"
 #include "infini_train/include/dataloader.h"
 #include "infini_train/include/device.h"
 #include "infini_train/include/nn/modules/loss.h"
 #include "infini_train/include/nn/modules/module.h"
 #include "infini_train/include/nn/parallel/ddp/distributed_data_parallel.h"
 #include "infini_train/include/nn/parallel/ddp/distributed_optimizer.h"
+#include "infini_train/include/nn/parallel/global.h"
 #include "infini_train/include/nn/parallel/parallel_functional.h"
 #include "infini_train/include/nn/parallel/pp/pipeline_parallel.h"
+#include "infini_train/include/nn/parallel/process_group.h"
 #include "infini_train/include/nn/parallel/rank.h"
 #include "infini_train/include/nn/parallel/reduce_op_type.h"
 #include "infini_train/include/nn/parallel/tensor_parallel.h"
-#include "infini_train/include/optimizer.h"
-#ifdef PROFILE_MODE
-#include "infini_train/include/profiler.h"
-#endif
-#include "infini_train/include/nn/parallel/global.h"
-#include "infini_train/include/nn/parallel/process_group.h"
 #include "infini_train/include/nn/parallel/utils.h"
+#include "infini_train/include/optimizer.h"
 #include "infini_train/include/utils/global_module_hook_registry.h"
 #include "infini_train/include/utils/precision_check_config.h"
 #include "infini_train/include/utils/precision_checker.h"
+#ifdef PROFILE_MODE
+#include "infini_train/include/profiler.h"
+#endif
 
 #include "example/common/tiny_shakespeare_dataset.h"
 #include "example/common/tokenizer.h"
@@ -250,16 +251,16 @@ void Train(const nn::parallel::Rank &rank) {
     loss_fn->To(device);
     LOG(INFO) << "Rank " << rank.GlobalRank() << ": start training";
 
-    auto cuda_device = device->IsCUDA() ? dynamic_cast<const CudaDevice *>(device) : nullptr;
+    auto impl = core::GetDeviceGuardImpl(device.type());
 
     for (int step = 0; step < FLAGS_num_iteration + 1; ++step) {
         // Reset precision check counters at start of each iteration for file overwrite
         utils::PrecisionChecker::ResetCounters();
 
         const bool last_step = step == FLAGS_num_iteration;
 
-        if (cuda_device) {
-            cuda_device->ResetMemPoolHighWatermarks();
+        if (device.IsCUDA()) {
+            impl->ResetMemPoolHighWatermarks(device);
         }
 
         const auto iter_start = std::chrono::high_resolution_clock::now();
@@ -351,8 +352,8 @@ void Train(const nn::parallel::Rank &rank) {
 
         if (rank.IsLastRank()) {
             size_t used_mb = 0, reserved_mb = 0;
-            if (cuda_device) {
-                std::tie(used_mb, reserved_mb) = cuda_device->GetMemPoolPeakMB();
+            if (device.IsCUDA()) {
+                std::tie(used_mb, reserved_mb) = impl->GetMemPoolPeakMB(device);
             }
 
             LOG(ERROR) << std::format("step {:4d}/{} | train loss {:.6f} | lr {:.2e} | ({:.2f} ms | {:.0f} tok/s | "
 
@@ -3,15 +3,10 @@
 #include <string_view>
 #include <unordered_map>
 
-#include "common/common.h"
-#include "datatype.h"
-#include "device.h"
-#include "tensor.h"
-
-#ifdef USE_CUDA
-#include <cuda_bf16.h>
-#include <cuda_fp16.h>
-#endif
+#include "infini_train/include/common/common.h"
+#include "infini_train/include/datatype.h"
+#include "infini_train/include/device.h"
+#include "infini_train/include/tensor.h"
 
 namespace infini_train {
 namespace {
 
@@ -1,5 +1,8 @@
 #pragma once
 
+#include <cstdint>
+#include <vector>
+
 #include "glog/logging.h"
 
 #include "infini_train/include/datatype.h"