Gần đây tôi đang vibe coding một công cụ điều khiển giọng nói toàn cầu trên mac, chủ yếu là để thuận tiện cho công việc hàng ngày của tôi, không phải liên tục sao chép, dán và chuyển đổi giữa các hộp thoại Agent khác nhau để xử lý các nhiệm vụ khác nhau. Tôi đã mất rất nhiều thời gian để tìm hiểu về Accessibility, tiêm sự kiện và cơ chế sao chép vào clipboard, nhưng sự khác biệt trong việc triển khai hộp văn bản của các ứng dụng khác nhau là rất lớn. Trong quá trình này, tôi luôn tưởng tượng, nếu tôi có thể sử dụng Siri trực tiếp thì tốt biết bao, có thể điều khiển ở cấp hệ thống, có tính liên tục trong ngữ cảnh, nhận thức màn hình và khả năng thực thi giữa các ứng dụng. Tuy nhiên, tin tốt là gần đây sau khi openclaw, agent cục bộ này ra mắt, đã làm cho việc phát triển nhu cầu này dễ dàng hơn rất nhiều, bao gồm việc sắp xếp prompt, gọi mô hình hoặc công cụ, v.v. Nhìn vào tin tức về việc mua lại hôm nay, tôi cũng có thể dự đoán rằng Apple cuối cùng sẽ bắt đầu đầu tư vào lĩnh vực điều khiển giọng nói.