Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tôi thực sự thích hướng nghiên cứu này!
Trong một thời gian dài, tôi đã nói về phép ẩn dụ "não bộ so với cơ sở dữ liệu" của SSM so với Transformers. Một sự mở rộng của điều này mà tôi đã đề cập một cách thoáng qua vài lần là tôi nghĩ rằng các sự đánh đổi thay đổi khi chúng ta bắt đầu nghĩ về việc xây dựng các *hệ thống* đa thành phần thay vì các mô hình đơn lẻ.
Ví dụ, nếu ai đó đồng ý với trực giác rằng các mô hình lai hiện đại đang sử dụng SSM như là đơn vị xử lý "giống như não bộ" chính trong khi sự chú ý chủ yếu dành cho việc "giống như cơ sở dữ liệu" để hỗ trợ việc truy xuất chính xác, thì tôi đã giả thuyết rằng có thể một hệ thống tối ưu hơn có thể là một mô hình ngôn ngữ SSM thuần túy kết hợp với các cơ sở dữ liệu kiến thức bên ngoài rõ ràng và các bộ nhớ ngữ cảnh. Điều này giống như trí thông minh của con người hơn, chủ yếu được điều khiển bởi não bộ (một SSM) được hỗ trợ bởi các kho kiến thức bên ngoài (sách, internet) và việc sử dụng công cụ.
Bài báo này cho thấy những kết quả khá thú vị rằng SSM dường như có hiệu suất rất thuận lợi so với Transformers trong chế độ các mô hình tác nhân hoạt động với việc sử dụng công cụ tương tác. Rất vui khi thấy trực giác được xác nhận, và tôi hy vọng rằng nhiều nghiên cứu sẽ tiếp tục theo hướng này!
Hàng đầu
Thứ hạng
Yêu thích

