Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Xây dựng với các tác nhân AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Tôi chia sẻ thông tin chi tiết về cách xây dựng với LLM & AI Agents ⬇️
Khảo sát mới về LLM tác động.
Khảo sát này bao gồm ba danh mục liên kết với nhau: lý luận và truy xuất để đưa ra quyết định tốt hơn, các mô hình hướng hành động để hỗ trợ thực tiễn, và các hệ thống đa tác nhân để hợp tác và nghiên cứu hành vi xã hội phát sinh.
Các ứng dụng chính bao gồm chẩn đoán y tế, logistics, phân tích tài chính, và tăng cường nghiên cứu khoa học thông qua các tác nhân đóng vai trò tự phản ánh.
Đáng chú ý, báo cáo nhấn mạnh rằng LLM tác động cung cấp giải pháp cho sự thiếu hụt dữ liệu huấn luyện bằng cách tạo ra các trạng thái huấn luyện mới trong quá trình suy diễn.
Bài báo:

14,13K
Google vừa công bố một hướng dẫn tuyệt vời về kỹ thuật ngữ cảnh hiệu quả cho các hệ thống đa tác nhân.
Hãy chú ý đến điều này, các nhà phát triển AI! (đánh dấu nó)
Dưới đây là những điểm chính mà tôi rút ra:
Cửa sổ ngữ cảnh không phải là nút thắt. Kỹ thuật ngữ cảnh mới là.
Đối với những vấn đề phức tạp và dài hạn hơn, quản lý ngữ cảnh không thể được coi là một vấn đề "xử lý chuỗi" đơn giản.
Cách tiếp cận mặc định để xử lý ngữ cảnh trong các hệ thống tác nhân ngày nay vẫn là nhồi nhét mọi thứ vào lời nhắc. Nhiều lịch sử hơn, nhiều token hơn, nhiều sự nhầm lẫn hơn. Hầu hết các nhóm coi ngữ cảnh như một vấn đề nối chuỗi.
Nhưng việc đổ ngữ cảnh thô tạo ra ba thất bại nghiêm trọng:
> bùng nổ chi phí từ thông tin lặp lại
> suy giảm hiệu suất từ các hiệu ứng "mất giữa chừng"
> tăng tỷ lệ ảo giác khi các tác nhân gán nhầm hành động trong một hệ thống
Quản lý ngữ cảnh trở thành một mối quan tâm kiến trúc bên cạnh lưu trữ và tính toán. Điều này có nghĩa là các biến đổi rõ ràng thay thế việc nối chuỗi tùy tiện. Các tác nhân nhận ngữ cảnh tối thiểu cần thiết theo mặc định và yêu cầu thông tin bổ sung một cách rõ ràng thông qua các công cụ.
Có vẻ như Bộ Công Cụ Phát Triển Tác Nhân của Google đang suy nghĩ sâu sắc về quản lý ngữ cảnh. Nó giới thiệu một kiến trúc phân tầng mà coi ngữ cảnh như "một cái nhìn biên dịch qua một hệ thống có trạng thái" thay vì một hoạt động nhồi nhét lời nhắc.
Điều này trông như thế nào?
1) Cấu trúc: Mô Hình Phân Tầng
Khung phân tách lưu trữ khỏi trình bày qua bốn lớp khác nhau:
1) Ngữ cảnh làm việc xử lý các cái nhìn tạm thời theo từng lần gọi.
2) Phiên duy trì nhật ký sự kiện bền vững, ghi lại mọi tin nhắn, cuộc gọi công cụ và tín hiệu điều khiển.
3) Bộ nhớ cung cấp kiến thức có thể tìm kiếm, lâu dài hơn các phiên đơn lẻ.
4) Tài liệu quản lý dữ liệu nhị phân lớn thông qua các tham chiếu phiên bản thay vì nhúng trực tiếp.
Quá trình biên dịch ngữ cảnh thực sự hoạt động như thế nào? Nó hoạt động thông qua các Luồng LLM có thứ tự với các bộ xử lý rõ ràng. Một bộ xử lý nội dung thực hiện ba thao tác: bộ lọc lựa chọn các sự kiện không liên quan, biến đổi làm phẳng các sự kiện thành các đối tượng Nội dung có vai trò đúng, và tiêm viết lịch sử đã định dạng vào yêu cầu LLM.
Bộ xử lý nội dung về cơ bản là cầu nối giữa một phiên và ngữ cảnh làm việc.
Kiến trúc thực hiện bộ nhớ đệm tiền tố bằng cách chia ngữ cảnh thành các tiền tố ổn định (hướng dẫn, danh tính, tóm tắt) và các hậu tố biến đổi (các lượt mới nhất, đầu ra công cụ). Trên hết, một nguyên thủy static_instruction đảm bảo tính bất biến cho các lời nhắc hệ thống, bảo tồn tính hợp lệ của bộ nhớ đệm qua các lần gọi.
2) Quản Lý Tác Nhân Của Những Gì Quan Trọng Ngay Bây Giờ
Khi bạn tìm ra cấu trúc, thách thức cốt lõi trở thành sự liên quan.
Bạn cần tìm ra những gì thuộc về cửa sổ hoạt động ngay bây giờ.
ADK trả lời điều này thông qua sự hợp tác giữa kiến trúc do con người định nghĩa và quyết định của tác nhân. Các kỹ sư xác định nơi dữ liệu sống và cách nó được tóm tắt. Các tác nhân quyết định một cách động khi nào "với tay" đến các khối bộ nhớ hoặc tài liệu cụ thể.
Đối với các tải trọng lớn, ADK áp dụng một mẫu tay cầm. Một tệp CSV 5MB hoặc phản hồi JSON khổng lồ sống trong lưu trữ tài liệu, không phải trong lời nhắc. Các tác nhân chỉ thấy các tham chiếu nhẹ nhàng theo mặc định. Khi dữ liệu thô cần thiết, họ gọi LoadArtifactsTool để mở rộng tạm thời. Khi nhiệm vụ hoàn thành, tài liệu sẽ được giải phóng. Điều này biến thuế ngữ cảnh vĩnh viễn thành quyền truy cập chính xác, theo yêu cầu.
Đối với kiến thức lâu dài, MemoryService cung cấp hai mẫu truy xuất:
1) Nhớ phản ứng: các tác nhân nhận ra các khoảng trống kiến thức và tìm kiếm rõ ràng trong tập hợp.
2) Nhớ chủ động: các bộ xử lý trước chạy tìm kiếm tương tự trên đầu vào của người dùng, tiêm các đoạn liên quan trước khi gọi mô hình. Các tác nhân nhớ chính xác các đoạn cần thiết cho bước hiện tại thay vì mang theo mọi cuộc trò chuyện mà họ đã từng có.
Tất cả điều này làm tôi nhớ đến cách tiếp cận phân tầng đối với Kỹ Năng Claude, điều này thực sự cải thiện việc sử dụng ngữ cảnh hiệu quả trong Claude Code.
3) Ngữ Cảnh Đa Tác Nhân
Các hệ thống đơn tác nhân gặp phải tình trạng phình to ngữ cảnh. Khi xây dựng các tác nhân đa, vấn đề này càng trở nên trầm trọng hơn, dễ dẫn đến "bùng nổ ngữ cảnh" khi bạn kết hợp nhiều tác nhân phụ.
Để phối hợp đa tác nhân hoạt động hiệu quả, ADK cung cấp hai mẫu. Tác nhân-như-công cụ coi các tác nhân chuyên biệt như các đối tượng có thể gọi nhận các lời nhắc tập trung mà không có lịch sử tổ tiên. Chuyển giao Tác Nhân, cho phép chuyển giao quyền kiểm soát hoàn toàn nơi các tác nhân phụ thừa hưởng các cái nhìn phiên. Tham số include_contents kiểm soát luồng ngữ cảnh, mặc định là ngữ cảnh làm việc đầy đủ hoặc chỉ cung cấp lời nhắc mới.
Điều gì ngăn chặn ảo giác trong quá trình chuyển giao tác nhân? Giải pháp là dịch cuộc trò chuyện. Các tin nhắn trước của Trợ lý chuyển đổi thành ngữ cảnh kể chuyện với các thẻ gán. Các cuộc gọi công cụ từ các tác nhân khác được đánh dấu rõ ràng. Mỗi tác nhân đảm nhận vai trò Trợ lý mà không gán nhầm lịch sử rộng hơn của hệ thống cho chính nó.
Cuối cùng, bạn không cần phải sử dụng Google ADK để áp dụng những hiểu biết này. Tôi nghĩ rằng những điều này có thể áp dụng trên toàn bộ khi xây dựng các hệ thống đa tác nhân.
(hình ảnh do nano banana pro cung cấp)

1,23K
// LÝ DO CHO VIỆC MỞ RỘNG MÔI TRƯỜNG //
Việc mở rộng môi trường có thể quan trọng như việc mở rộng mô hình đối với AI có khả năng tác động.
Nghiên cứu AI hiện tại cho thấy rằng việc xây dựng một mô hình AI có khả năng tác động mạnh mẽ không chỉ là về lý luận tốt hơn. Nó cũng liên quan đến việc cải thiện môi trường.
Cách tiếp cận mặc định để đào tạo các tác nhân AI có khả năng ngày nay là thu thập các quỹ đạo tĩnh hoặc các minh họa từ con người. Điều này yêu cầu nhiều dữ liệu hơn, nhiều ví dụ hơn và nhiều nỗ lực chú thích hơn.
Nhưng dữ liệu tĩnh không thể dạy ra quyết định động. Các mô hình được đào tạo theo cách này gặp khó khăn với tính chất dài hạn, định hướng mục tiêu của các nhiệm vụ tác động thực sự.
Nghiên cứu mới này giới thiệu Nex-N1, một khung công tác mà hệ thống mở rộng sự đa dạng và độ phức tạp của các môi trường đào tạo tương tác thay vì chỉ mở rộng dữ liệu.
Khả năng của tác nhân phát sinh từ sự tương tác, không phải từ sự bắt chước. Thay vì thu thập thêm các minh họa, họ đã xây dựng cơ sở hạ tầng để tự động tạo ra các kiến trúc và quy trình tác nhân đa dạng từ các đặc tả ngôn ngữ tự nhiên.
Hệ thống có ba thành phần. NexAU (Vũ trụ Tác nhân) cung cấp một khung tác nhân phổ quát tạo ra các hệ thống tác nhân phức tạp từ các cấu hình đơn giản. NexA4A (Tác nhân cho Tác nhân) tự động tổng hợp các kiến trúc tác nhân đa dạng từ ngôn ngữ tự nhiên. NexGAP thu hẹp khoảng cách giữa mô phỏng và thực tế bằng cách tích hợp các công cụ MCP thực tế cho việc tổng hợp quỹ đạo có căn cứ.
Kết quả:
- Trên τ2-bench, Nex-N1 xây dựng trên DeepSeek-V3.1 đạt 80.2, vượt trội hơn so với điểm số 42.8 của mô hình cơ sở.
- Trên SWE-bench Verified, Qwen3-32B-Nex-N1 đạt 50.5% so với 12.9% của mô hình cơ sở.
- Trên BFCL v4 cho việc sử dụng công cụ, Nex-N1 (65.3) vượt trội hơn GPT-5 (61.6).
Trong các đánh giá của con người về phát triển dự án thực tế qua 43 kịch bản lập trình, Nex-N1 thắng hoặc hòa với Claude Sonnet 4.5 trong 64.5% các trường hợp và với GPT-5 trong khoảng 70% các trường hợp.
Họ cũng đã xây dựng một tác nhân nghiên cứu sâu trên Nex-N1, đạt 47.0% trên Thang đo Nghiên cứu Sâu, với khả năng tạo báo cáo trực quan, bao gồm cả slide và poster nghiên cứu.
Bài báo:

9,21K
Hàng đầu
Thứ hạng
Yêu thích

