jd-opensource
diff --git a/‎third_party/xllm_ops‎ b/‎third_party/xllm_ops‎
diff --git a/‎xllm/core/common/global_flags.cpp‎
Lines changed: 6 additions & 1 deletion b/‎xllm/core/common/global_flags.cpp‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎xllm/core/common/global_flags.h‎
Lines changed: 3 additions & 1 deletion b/‎xllm/core/common/global_flags.h‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎xllm/core/distributed_runtime/worker_service.cpp‎
Lines changed: 65 additions & 5 deletions b/‎xllm/core/distributed_runtime/worker_service.cpp‎
Lines changed: 65 additions & 5 deletions
diff --git a/‎xllm/core/framework/batch/batch.cpp‎
Lines changed: 74 additions & 0 deletions b/‎xllm/core/framework/batch/batch.cpp‎
Lines changed: 74 additions & 0 deletions
diff --git a/‎xllm/core/framework/batch/batch.h‎
Lines changed: 4 additions & 0 deletions b/‎xllm/core/framework/batch/batch.h‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎xllm/core/framework/batch/batch_input_builder.cpp‎
Lines changed: 15 additions & 0 deletions b/‎xllm/core/framework/batch/batch_input_builder.cpp‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎xllm/core/framework/batch/batch_input_builder.h‎
Lines changed: 3 additions & 0 deletions b/‎xllm/core/framework/batch/batch_input_builder.h‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎xllm/core/framework/sampling/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions b/‎xllm/core/framework/sampling/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎xllm/core/framework/sampling/beam_searcher.cpp‎
Lines changed: 47 additions & 0 deletions b/‎xllm/core/framework/sampling/beam_searcher.cpp‎
Lines changed: 47 additions & 0 deletions
@@ -377,4 +377,9 @@ DEFINE_int64(cache_size_per_token,
 
 DEFINE_int64(buffer_size_per_seq,
              0,
-             "Buffer size per sequence in bytes, default 0.");
+             "Buffer size per sequence in bytes, default 0.");
+
+// --- beam search config ---
+DEFINE_bool(enable_beam_search_kernel,
+            false,
+            "Whether to enable beam search kernel.");
@@ -197,4 +197,6 @@ DECLARE_int64(granularity_size);
 
 DECLARE_int64(cache_size_per_token);
 
-DECLARE_int64(buffer_size_per_seq);
+DECLARE_int64(buffer_size_per_seq);
+
+DECLARE_bool(enable_beam_search_kernel);
@@ -346,6 +346,20 @@ void WorkerService::ExecuteModel(
           batched_fwd_inputs.micro_inputs[i].sampling_params);
     }
 
+    // concat acc_logprob here for beam search together
+    if (micro_batches_num > 1) {
+      std::vector<torch::Tensor> acc_logprob_vec;
+      acc_logprob_vec.reserve(micro_batches_num);
+      for (auto i = 0; i < micro_batches_num; ++i) {
+        acc_logprob_vec.push_back(
+            batched_fwd_inputs.micro_inputs[i].acc_logprob);
+      }
+      batched_fwd_inputs.acc_logprob = torch::cat(acc_logprob_vec, /*dim=*/-1);
+    } else {
+      batched_fwd_inputs.acc_logprob =
+          batched_fwd_inputs.micro_inputs[0].acc_logprob;
+    }
+
     // model output
     torch::Tensor next_tokens;
     torch::Tensor logprobs;
@@ -354,6 +368,10 @@ void WorkerService::ExecuteModel(
     torch::Tensor embeddings;
     torch::Tensor expert_load_data;
     int32_t prepared_layer_id = -1;
+    // beam search kernel output
+    torch::Tensor src_seq_idxes;
+    torch::Tensor out_tokens;
+    torch::Tensor out_logprobs;
 
     // execute model
     auto future = worker_->step_async(batched_fwd_inputs);
@@ -364,6 +382,8 @@ void WorkerService::ExecuteModel(
       if (forward_outputs) {
         DCHECK(forward_outputs.has_value()) << "Failed to execute model";
         const auto& sample_output = forward_outputs.value().sample_output;
+        const auto& beam_search_output =
+            forward_outputs.value().beam_search_output;
         expert_load_data = safe_to(
             forward_outputs.value().expert_load_data, torch::kCPU, true);
         prepared_layer_id = forward_outputs.value().prepared_layer_id;
@@ -382,11 +402,32 @@ void WorkerService::ExecuteModel(
           if (next_tokens.defined()) {
             // [num_seq]
             logprobs = safe_to(sample_output.logprobs, torch::kCPU, true);
-            // [num_seq, topk]
-            top_tokens = safe_to(sample_output.top_tokens, torch::kCPU, true);
-            // [num_seq, topk]
-            top_logprobs =
-                safe_to(sample_output.top_logprobs, torch::kCPU, true);
+
+            if (!beam_search_output.src_seq_idxes.defined()) {
+              // beam search kernel will provide final tokens/logprobs in beam
+              // search output, so keep top_tokens/top_logprobs undefined to
+              // avoid returning them.
+              // [num_seq, topk]
+              top_tokens = safe_to(sample_output.top_tokens, torch::kCPU, true);
+              // [num_seq, topk]
+              top_logprobs =
+                  safe_to(sample_output.top_logprobs, torch::kCPU, true);
+            }
+          }
+
+          // beam search output
+          // [num_seq]
+          src_seq_idxes =
+              safe_to(beam_search_output.src_seq_idxes, torch::kCPU, true);
+          if (src_seq_idxes.defined()) {
+            // [num_seq]
+            out_tokens =
+                safe_to(beam_search_output.out_tokens, torch::kCPU, true);
+            // [num_seq]
+            out_logprobs =
+                safe_to(beam_search_output.out_logprobs,
+                        torch::dtype(torch::kFloat32).device(torch::kCPU),
+                        true);
           }
           auto ret = stream_->synchronize();
         }
@@ -419,6 +460,9 @@ void WorkerService::ExecuteModel(
                             embeddings,
                             expert_load_data,
                             prepared_layer_id,
+                            src_seq_idxes,
+                            out_tokens,
+                            out_logprobs,
                             pb_forward_output);
     COUNTER_ADD(worker_service_latency_seconds, timer.elapsed_seconds());
   });
@@ -441,6 +485,8 @@ void WorkerService::GetLastStepResult(
           const auto& expert_load_data = safe_to(
               forward_outputs.value().expert_load_data, torch::kCPU, true);
           int32_t prepared_layer_id = forward_outputs.value().prepared_layer_id;
+          const auto& beam_search_output =
+              forward_outputs.value().beam_search_output;
           c10::StreamGuard streamGuard = stream_->set_stream_guard();
           // [num_seq, ..., embed_dim]
           auto embeddings =
@@ -460,6 +506,17 @@ void WorkerService::GetLastStepResult(
             // [num_seq, topk]
             const auto& top_logprobs =
                 safe_to(sample_output.top_logprobs, torch::kCPU, true);
+            // [num_seq]
+            const auto& src_seq_idxes =
+                safe_to(beam_search_output.src_seq_idxes, torch::kCPU, true);
+            // [num_seq]
+            const auto& out_tokens =
+                safe_to(beam_search_output.out_tokens, torch::kCPU, true);
+            // [num_seq]
+            const auto& out_logprobs =
+                safe_to(beam_search_output.out_logprobs,
+                        torch::dtype(torch::kFloat32).device(torch::kCPU),
+                        true);
             auto ret = stream_->synchronize();
 
             forward_output_to_proto(next_tokens,
@@ -469,6 +526,9 @@ void WorkerService::GetLastStepResult(
                                     embeddings,
                                     expert_load_data,
                                     prepared_layer_id,
+                                    src_seq_idxes,
+                                    out_tokens,
+                                    out_logprobs,
                                     pb_forward_output);
           }
         }
 
@@ -264,4 +264,78 @@ void Batch::process_beam_search() {
     sequence_group->process_beam_search();
   }
 }
+
+void Batch::process_beam_search_output(const RawForwardOutput& raw_output,
+                                       bool replace_fake_token) {
+  const int32_t beam_width = sequences_[0]->sampling_param()->beam_width;
+  if (beam_width <= 1) {
+    return;
+  }
+
+  CHECK_EQ(raw_output.src_seq_idxes.size(), sequences_.size());
+  CHECK_EQ(raw_output.out_tokens.size(), sequences_.size());
+  CHECK_EQ(raw_output.out_logprobs.size(), sequences_.size());
+
+  auto update_for_sequence_group = [&](size_t sequence_group_id) {
+    std::unordered_set<int32_t> seq_idx_set;
+    std::vector<float> src_acc_logprob_vec;
+    std::vector<std::vector<int32_t>> src_token_ids;
+    std::vector<std::vector<std::optional<float>>> src_logprobs;
+    src_acc_logprob_vec.resize(beam_width);
+    src_token_ids.resize(beam_width);
+    src_logprobs.resize(beam_width);
+
+    for (size_t i = 0; i < beam_width; i++) {
+      size_t task_id = sequence_group_id * beam_width + i;
+      int32_t src_seq_idx = raw_output.src_seq_idxes[task_id];
+      CHECK_LE(src_seq_idx, sequences_.size());
+      auto src_seq = sequences_[src_seq_idx];
+      src_acc_logprob_vec[i] =
+          src_seq->get_average_logprob() * src_seq->num_generated_tokens();
+      src_token_ids[i] = std::vector<int32_t>(src_seq->tokens());
+      src_logprobs[i] = src_seq->logprob_state()->get_logprobs();
+    }
+
+    for (size_t i = 0; i < beam_width; i++) {
+      size_t task_id = sequence_group_id * beam_width + i;
+      int32_t src_seq_idx = raw_output.src_seq_idxes[task_id];
+      CHECK_LE(src_seq_idx, sequences_.size());
+      auto& base_seq = sequences_[task_id];
+      auto& src_seq = sequences_[src_seq_idx];
+
+      for (size_t token_idx = base_seq->num_prompt_tokens();
+           token_idx < base_seq->num_tokens();
+           token_idx++) {
+        Token new_token(src_token_ids[i][token_idx]);
+        new_token.logprob = src_logprobs[i][token_idx];
+        base_seq->update_token(token_idx, new_token);
+      }
+
+      Token new_token(raw_output.out_tokens[task_id]);
+      new_token.logprob =
+          raw_output.out_logprobs[task_id] - src_acc_logprob_vec[i];
+      append_token_for_sequence(base_seq, new_token, 0, replace_fake_token);
+
+      base_seq->logprob_state()->set_acc_logprob(
+          raw_output.out_logprobs[task_id]);
+      base_seq->logprob_state()->set_last_acc_token_idx(base_seq->num_tokens());
+
+      bool need_swap = false;
+      if (seq_idx_set.find(src_seq_idx) != seq_idx_set.end()) {
+        need_swap = true;
+      } else {
+        seq_idx_set.insert(src_seq_idx);
+      }
+
+      auto src_blocks = src_seq->kv_state().kv_blocks();
+      base_seq->kv_state().set_src_blocks(src_blocks, need_swap);
+    }
+  };
+
+  for (size_t sequence_group_id = 0;
+       sequence_group_id < sequence_groups_.size();
+       sequence_group_id++) {
+    update_for_sequence_group(sequence_group_id);
+  }
+}
 }  // namespace xllm
@@ -94,6 +94,10 @@ class Batch {
   void process_sample_output(const RawForwardOutput& raw_output,
                              bool replace_fake_token);
 
+  // process output for beam search kernel
+  void process_beam_search_output(const RawForwardOutput& raw_output,
+                                  bool replace_fake_token);
+
   // process the accepted output embedding
   void process_embedding_output(const torch::Tensor& embedding);
 
 
@@ -78,6 +78,7 @@ BatchInputBuilder::BatchInputBuilder(
   state_.flatten_positions_vec.reserve(1000);
   state_.mrope_positions_vec.reserve(sequences.size());
   state_.block_tables_vec.reserve(sequences.size());
+  state_.acc_logprob_vec.reserve(sequences.size());
   if (args_ != nullptr) {
     use_mrope_ = (args_->rope_scaling_rope_type() == "mrope");
   }
@@ -179,6 +180,9 @@ void BatchInputBuilder::process_sequences_multithreaded(uint32_t start_idx,
     state_.block_tables_vec.insert(state_.block_tables_vec.end(),
                                    state.block_tables_vec.begin(),
                                    state.block_tables_vec.end());
+    state_.acc_logprob_vec.insert(state_.acc_logprob_vec.end(),
+                                  state.acc_logprob_vec.begin(),
+                                  state.acc_logprob_vec.end());
     // selected_token_idxes and sample_idxes need offset
     int32_t selected_token_idxes_offset =
         static_cast<int32_t>(state_.flatten_tokens_vec.size()) -
@@ -308,6 +312,13 @@ void BatchInputBuilder::process_single_sequence(
   if (sequence->is_prefill_stage()) {
     state.prefill_seq_len++;
   }
+
+  // Input for beam search kernel
+  if (FLAGS_enable_beam_search_kernel && sequence->check_beam_search() &&
+      sequence->num_generated_tokens() > 0) {
+    state.acc_logprob_vec.push_back(sequence->get_average_logprob() *
+                                    sequence->num_generated_tokens());
+  }
 }
 
 void BatchInputBuilder::extract_tokens_and_positions(Sequence* sequence,
@@ -625,6 +636,10 @@ RawForwardInput BatchInputBuilder::state_to_raw_forward_input() {
 
   raw_forward_input.embedding_ids = std::move(state_.embedding_ids);
   raw_forward_input.extra_token_ids = std::move(state_.extra_token_ids);
+  // beam search kernel input
+  if (state_.acc_logprob_vec.size() > 0) {
+    raw_forward_input.acc_logprob_vec = std::move(state_.acc_logprob_vec);
+  }
 
   if (FLAGS_enable_continuous_kvcache) {
     raw_forward_input.new_cache_slot_offsets =
 
@@ -95,6 +95,9 @@ class BatchInputBuilder {
     std::vector<int32_t> new_token_slot_ids;
     std::vector<std::vector<int32_t>> block_tables_vec;
 
+    // beam search kernel input
+    std::vector<float> acc_logprob_vec;
+
     // Additional data
     std::vector<int32_t> embedding_ids;
     std::vector<int32_t> extra_token_ids;
 
@@ -9,11 +9,13 @@ cc_library(
     logits_utils.h
     rejection_sampler.h
     sampler.h
+    beam_searcher.h
   SRCS
     sampling_params.cpp
     logits_utils.cpp
     rejection_sampler.cpp
     sampler.cpp
+    beam_searcher.cpp
   DEPS
     glog::glog
     torch
 
@@ -0,0 +1,47 @@
+/* Copyright 2025 The xLLM Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    https://github.com/jd-opensource/xllm/blob/main/LICENSE
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+==============================================================================*/
+
+#include "beam_searcher.h"
+
+namespace xllm {
+BeamSearchOutput BeamSearcher::forward(
+    const torch::Tensor& logprobs,
+    const torch::Tensor& top_tokens,
+    const torch::Tensor& top_logprobs) const {
+#if defined(USE_NPU)
+  BeamSearchOutput output;
+
+  int64_t num_seq = logprobs.numel();
+  output.out_tokens =
+      torch::empty({num_seq, 1}, logprobs.options().dtype(torch::kInt32));
+  output.out_logprobs =
+      torch::empty({num_seq, 1}, logprobs.options().dtype(torch::kFloat32));
+  output.src_seq_idxes =
+      torch::empty({num_seq, 1}, logprobs.options().dtype(torch::kInt32));
+  xllm_ops::beam_search(logprobs.reshape({-1, 1}),
+                        top_tokens.to(torch::kInt32),
+                        top_logprobs,
+                        output.src_seq_idxes,
+                        output.out_logprobs,
+                        output.out_tokens);
+  output.src_seq_idxes = output.src_seq_idxes.reshape({-1});
+  output.out_logprobs = output.out_logprobs.reshape({-1});
+  output.out_tokens = output.out_tokens.reshape({-1});
+  return output;
+#else
+  LOG(FATAL) << "BeamSearcher is only implemented for NPU backend.";
+#endif
+}
+}  // namespace xllm