Skip to content

Latest commit

 

History

History
218 lines (135 loc) · 13.8 KB

File metadata and controls

218 lines (135 loc) · 13.8 KB
KrillinAI

ミニマリストAIビデオ翻訳および吹き替えツール

KrillinAI%2FKrillinAI | Trendshift

English简体中文日本語한국어Tiếng ViệtFrançaisDeutschEspañolPortuguêsРусскийاللغة العربية

Twitter QQ 群 Bilibili Ask DeepWiki

プロジェクト紹介 (今すぐオンライン版を試す!)

クイックスタート

KrillinAIは、Krillin AIによって開発された多目的な音声およびビデオのローカリゼーションと強化ソリューションです。このミニマリストでありながら強力なツールは、ビデオ翻訳、吹き替え、音声クローンを統合し、すべての主要プラットフォーム(Bilibili、Xiaohongshu、Douyin、WeChat Video、Kuaishou、YouTube、TikTokなど)で完璧なプレゼンテーションを保証するために、横向きおよび縦向きのフォーマットをサポートしています。エンドツーエンドのワークフローにより、数回のクリックで生素材を美しく使えるクロスプラットフォームコンテンツに変換できます。

主な機能と機能:

🎯 ワンクリックスタート: 複雑な環境設定は不要、自動依存関係のインストール、すぐに使用可能、新しいデスクトップ版でアクセスが簡単!

📥 ビデオ取得: yt-dlpダウンロードまたはローカルファイルのアップロードをサポート

📜 正確な認識: Whisperに基づく高精度の音声認識

🧠 インテリジェントセグメンテーション: LLMを使用した字幕のセグメンテーションと整列

🔄 用語の置き換え: 専門用語のワンクリック置き換え

🌍 プロフェッショナル翻訳: 自然な意味を維持するための文脈を考慮したLLM翻訳

🎙️ 音声クローン: CosyVoiceから選択された音声トーンまたはカスタム音声クローンを提供

🎬 ビデオ合成: 横向きおよび縦向きのビデオと字幕レイアウトを自動的に処理

💻 クロスプラットフォーム: Windows、Linux、macOSをサポートし、デスクトップ版とサーバー版の両方を提供

効果のデモ

以下の画像は、46分のローカルビデオをインポートし、ワンクリックで実行した後に生成された字幕ファイルの効果を示しています。手動調整は一切なく、欠落や重複はなく、セグメンテーションは自然で、翻訳の質は非常に高いです。 整列効果

字幕翻訳


subtitle_translation.mp4

吹き替え


tts.mp4

縦向きモード


agi.mp4

🔍 サポートされている音声認識サービス

以下の表のすべてのローカルモデルは、実行可能ファイルとモデルファイルの自動インストールをサポートしています。選択するだけで、Klicがすべてを準備します。

サービスソース サポートされているプラットフォーム モデルオプション ローカル/クラウド 備考
OpenAI Whisper すべてのプラットフォーム - クラウド 高速で良好な効果
FasterWhisper Windows/Linux tiny/medium/large-v2(推奨medium+) ローカル 高速、クラウドサービスコストなし
WhisperKit macOS(Mシリーズのみ) large-v2 ローカル Appleチップ向けのネイティブ最適化
WhisperCpp すべてのプラットフォーム large-v2 ローカル すべてのプラットフォームをサポート
Alibaba Cloud ASR すべてのプラットフォーム - クラウド 中国本土でのネットワーク問題を回避

🚀 大規模言語モデルサポート

OpenAI API仕様に準拠したすべてのクラウド/ローカル大規模言語モデルサービスと互換性があります。これには以下が含まれますが、これに限定されません:

  • OpenAI
  • Gemini
  • DeepSeek
  • Tongyi Qianwen
  • ローカルに展開されたオープンソースモデル
  • OpenAI形式と互換性のある他のAPIサービス

🎤 TTS テキスト読み上げサポート

  • Alibaba Cloud Voice Service
  • OpenAI TTS

言語サポート

サポートされている入力言語: 中国語、英語、日本語、ドイツ語、トルコ語、韓国語、ロシア語、マレー語(継続的に増加中)

サポートされている翻訳言語: 英語、中国語、ロシア語、スペイン語、フランス語、その他101言語

インターフェースプレビュー

インターフェースプレビュー インターフェースプレビュー

🚀 クイックスタート

Deepwiki of KrillinAIで質問できます。リポジトリ内のファイルをインデックス化しているので、迅速に回答を見つけることができます。

基本ステップ

まず、Releaseからデバイスシステムに合った実行可能ファイルをダウンロードし、以下のチュートリアルに従ってデスクトップ版または非デスクトップ版を選択します。ソフトウェアのダウンロードは空のフォルダーに配置してください。実行するといくつかのディレクトリが生成されるため、空のフォルダーに保管することで管理が容易になります。

【デスクトップ版の場合、「desktop」を含むリリースファイルを参照】 デスクトップ版は、新しいユーザーが設定ファイルを正しく編集するのに苦労する問題に対処するために新たにリリースされており、いくつかのバグが継続的に更新されています。

  1. ファイルをダブルクリックして使用を開始します(デスクトップ版もソフトウェア内での設定が必要です)

【非デスクトップ版の場合、「desktop」を含まないリリースファイルを参照】 非デスクトップ版は初期版で、設定がより複雑ですが、機能は安定しており、サーバー展開に適しており、ウェブ形式のUIを提供します。

  1. フォルダー内にconfigフォルダーを作成し、次にconfigフォルダー内にconfig.tomlファイルを作成します。ソースコードのconfigディレクトリからconfig-example.tomlファイルの内容をconfig.tomlにコピーし、コメントに従って設定情報を記入します。
  2. ダブルクリックするか、ターミナルで実行可能ファイルを実行してサービスを開始します。
  3. ブラウザを開き、http://127.0.0.1:8888にアクセスして使用を開始します(8888は設定ファイルで指定したポートに置き換えてください)。

macOSユーザーへ

【デスクトップ版の場合、「desktop」を含むリリースファイルを参照】 署名の問題により、デスクトップ版は現在ダブルクリックで実行したり、dmg経由でインストールしたりできません。アプリケーションを手動で信頼する必要があります。方法は以下の通りです:

  1. 実行可能ファイル(ファイル名がKrillinAI_1.0.0_desktop_macOS_arm64と仮定)のあるディレクトリでターミナルを開きます。
  2. 以下のコマンドを順番に実行します:
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64 
./KrillinAI_1.0.0_desktop_macOS_arm64

【非デスクトップ版の場合、「desktop」を含まないリリースファイルを参照】 このソフトウェアは署名されていないため、macOSで実行する際には、「基本ステップ」でファイル設定を完了した後、アプリケーションを手動で信頼する必要があります。方法は以下の通りです:

  1. 実行可能ファイル(ファイル名がKrillinAI_1.0.0_macOS_arm64と仮定)のあるディレクトリでターミナルを開きます。

  2. 以下のコマンドを順番に実行します:

    sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
    sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
    ./KrillinAI_1.0.0_macOS_arm64
    

    これでサービスが開始されます。

Docker展開

このプロジェクトはDocker展開をサポートしています。詳細はDocker展開手順を参照してください。

提供された設定ファイルに基づいて、READMEファイルの「設定ヘルプ(必読)」セクションを更新しました:

設定ヘルプ(必読)

設定ファイルは、[app][server][llm][transcribe]、および[tts]のいくつかのセクションに分かれています。タスクは音声認識(transcribe)+大規模モデル翻訳(llm)+オプションの音声サービス(tts)で構成されています。これを理解することで、設定ファイルをよりよく把握できます。

最も簡単で迅速な設定:

字幕翻訳のみの場合:

  • [transcribe]セクションでprovider.nameopenaiに設定します。
  • その後、[llm]ブロックにOpenAI APIキーを記入するだけで、字幕翻訳を開始できます。app.proxymodel、およびopenai.base_urlは必要に応じて記入できます。

コスト、速度、品質のバランス(ローカル音声認識を使用):

  • [transcribe]セクションでprovider.namefasterwhisperに設定します。
  • transcribe.fasterwhisper.modellarge-v2に設定します。
  • [llm]ブロックに大規模言語モデルの設定を記入します。
  • 必要なローカルモデルは自動的にダウンロードおよびインストールされます。

テキスト読み上げ(TTS)設定(オプション):

  • TTS設定はオプションです。
  • まず、[tts]セクションでprovider.nameを設定します(例:aliyunまたはopenai)。
  • 次に、選択したプロバイダーの対応する設定ブロックを記入します。たとえば、aliyunを選択した場合は、[tts.aliyun]セクションを記入する必要があります。
  • ユーザーインターフェースの音声コードは、選択したプロバイダーのドキュメントに基づいて選択する必要があります。
  • 注意: 音声クローン機能を使用する予定がある場合は、TTSプロバイダーとしてaliyunを選択する必要があります。

Alibaba Cloud設定:

  • Alibaba Cloudサービスに必要なAccessKeyBucket、およびAppKeyを取得する方法については、Alibaba Cloud設定手順を参照してください。AccessKeyなどの繰り返しフィールドは、明確な設定構造を維持するために設計されています。

よくある質問

よくある質問をご覧ください。

貢献ガイドライン

  1. .vscode、.ideaなどの無駄なファイルを提出しないでください。これらは.gitignoreを使用してフィルタリングしてください。
  2. config.tomlを提出しないでください。代わりにconfig-example.tomlを提出してください。

お問い合わせ

  1. 質問がある場合は、QQグループに参加してください:754069680
  2. ソーシャルメディアアカウントをフォローしてください。Bilibiliでは、毎日AI技術分野の質の高いコンテンツを共有しています。

スター履歴

スター履歴チャート