DeepSeek-OCRがなぜそんなに大きな意味を持つのか? 既存の LLM は、コンテキスト ウィンドウと呼ばれる固定数のトークンしか処理できず、入力が長くなるにつれてアテンション コストが急速に増加するため、長い入力に苦労しています。 DeepSeek-OCRは新しいアプローチを採用しています。 長いコンテキストを LLM に直接送信する代わりに、それを画像に変換し、その画像をビジュアル トークンに圧縮してから、それらのトークンを LLM に渡します。 トークンが少ないほど、アテンションからの計算コストが低くなり、有効コンテキストウィンドウが大きくなります。これにより、チャットボットとドキュメント モデルの機能と効率が向上します。 DeepSeek-OCRはどのように構築されますか?このシステムには、次の 2 つの主要な部分があります。 1. エンコーダー: テキストの画像を処理し、視覚的特徴を抽出し、少数のビジョン トークンに圧縮します。 2. デコーダー: 標準のデコーダーのみのトランスフォーマーと同様に、これらのトークンを読み取り、一度に 1 つのトークンでテキストを生成する Mixed of Experts 言語モデル。 いつ使用しますか? DeepSeek-OCRは、視覚的表現を使用してテキストを効率的に圧縮できることを示しています。 これは、標準のコンテキスト制限を超える非常に長いドキュメントを処理する場合に特に便利です。コンテキスト圧縮、標準の OCR タスク、またはテーブルや複雑なレイアウトをテキストに変換するなどの詳細な解析に使用できます。 あなたに移る: LLM でロング コンテキストの問題を処理するためにビジュアル トークンを使用することについてどう思いますか?これは大型モデルの次の標準になる可能性がありますか? -- Become an AI Engineer をリリースしたばかりです |実践から学ぶ: コホート 2。コホート 1 を見逃した方は、今がコホート 2 に参加するチャンスです。 ここでチェックしてください: #AI #AIEngineer #MachineLearning...