Ai đã phát minh ra mạng nơ-ron tích chập (CNN)? 1969: Fukushima đã có ReLU liên quan đến CNN [2]. 1979: Fukushima đã có kiến trúc CNN cơ bản với các lớp tích chập và các lớp giảm mẫu [1]. Chi phí tính toán cao gấp 100 lần so với năm 1989, và gấp một tỷ lần so với ngày nay. 1987: Waibel đã áp dụng thuật toán lan truyền ngược của Linnainmaa năm 1970 [3] cho TDNN chia sẻ trọng số với các tích chập 1 chiều [4]. 1988: Wei Zhang và các cộng sự đã áp dụng CNN 2 chiều được huấn luyện bằng lan truyền ngược "hiện đại" cho nhận diện ký tự [5]. Tất cả những điều trên đã được công bố tại Nhật Bản từ 1979-1988. 1989: LeCun và các cộng sự đã áp dụng lại CNN cho nhận diện ký tự (mã bưu điện) [6,10]. 1990-93: Phương pháp giảm mẫu của Fukushima dựa trên trung bình không gian [1] đã được thay thế bằng max-pooling cho TDNN 1-D (Yamaguchi và các cộng sự) [7] và CNN 2-D (Weng và các cộng sự) [8]. 2011: Muộn hơn, nhóm của tôi với Dan Ciresan đã làm cho CNN max-pooling thực sự nhanh trên GPU NVIDIA. Năm 2011, DanNet đã đạt được kết quả nhận diện mẫu siêu nhân đầu tiên [9]. Trong một thời gian, nó đã có độc quyền: từ tháng 5 năm 2011 đến tháng 9 năm 2012, DanNet đã thắng mọi thử thách nhận diện hình ảnh mà nó tham gia, 4 lần liên tiếp. Tuy nhiên, điều này chủ yếu liên quan đến kỹ thuật và mở rộng những hiểu biết cơ bản từ thiên niên kỷ trước, tận dụng phần cứng nhanh hơn rất nhiều. Một số "chuyên gia AI" tuyên bố rằng "làm cho CNN hoạt động" (ví dụ, [5,6,9]) quan trọng như việc phát minh ra chúng. Nhưng "làm cho chúng hoạt động" phần lớn phụ thuộc vào việc phòng thí nghiệm của bạn có đủ tiền để mua những máy tính mới nhất cần thiết để mở rộng công việc ban đầu. Điều này cũng giống như ngày nay. Nghiên cứu cơ bản so với kỹ thuật/phát triển - R so với D trong R&D. TÀI LIỆU THAM KHẢO [1] K. Fukushima (1979). Mô hình mạng nơ-ron cho cơ chế nhận diện mẫu không bị ảnh hưởng bởi sự dịch chuyển vị trí — Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979. [2] K. Fukushima (1969). Trích xuất đặc trưng hình ảnh bằng một mạng nhiều lớp các phần tử ngưỡng tương tự. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Công trình này đã giới thiệu các đơn vị tuyến tính đã được điều chỉnh (ReLUs), hiện đang được sử dụng trong nhiều CNN. [3] S. Linnainmaa (1970). Luận văn Thạc sĩ, ĐH Helsinki, 1970. Ấn phẩm đầu tiên về "lan truyền ngược hiện đại", còn được gọi là chế độ ngược của phân biệt tự động. (Xem tổng quan về lan truyền ngược nổi tiếng của Schmidhuber: "Ai đã phát minh ra lan truyền ngược?") [4] A. Waibel. Nhận diện âm vị sử dụng Mạng nơ-ron độ trễ thời gian. Cuộc họp của IEICE, Tokyo, Nhật Bản, 1987. Lan truyền ngược cho TDNN chia sẻ trọng số với các tích chập 1 chiều. [5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Mạng nơ-ron nhận diện mẫu không thay đổi và kiến trúc quang học của nó. Proc. Hội nghị thường niên của Hiệp hội Vật lý ứng dụng Nhật Bản, 1988. CNN 2 chiều đầu tiên được huấn luyện bằng lan truyền ngược, với ứng dụng cho nhận diện ký tự tiếng Anh. [6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Lan truyền ngược áp dụng cho nhận diện mã bưu điện viết tay, Neural Computation, 1(4):541-551, 1989. Xem thêm Sec. 3 của [10]. [7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Một mạng nơ-ron cho nhận diện từ độc lập không phụ thuộc vào người nói. Hội nghị quốc tế lần thứ nhất về xử lý ngôn ngữ nói (ICSLP 90), Kobe, Nhật Bản, tháng 11 năm 1990. Một TDNN tích chập 1 chiều sử dụng Max-Pooling thay vì trung bình không gian của Fukushima [1]. [8] Weng, J., Ahuja, N., và Huang, T. S. (1993). Học nhận diện và phân đoạn các đối tượng 3-D từ hình ảnh 2-D. Proc. Hội nghị quốc tế lần thứ 4 về thị giác máy tính, Berlin, pp. 121-128. Một CNN 2 chiều mà các lớp giảm mẫu của nó sử dụng Max-Pooling (đã trở nên rất phổ biến) thay vì trung bình không gian của Fukushima [1]. [9] Năm 2011, CNN nhanh và sâu dựa trên GPU gọi là DanNet (7+ lớp) đã đạt được hiệu suất siêu nhân đầu tiên trong một cuộc thi thị giác máy tính. Xem tổng quan: "2011: DanNet kích hoạt cuộc cách mạng CNN sâu." [10] Cách 3 người đoạt giải Turing đã công bố lại các phương pháp và ý tưởng chính mà những người sáng tạo của chúng không được ghi nhận. Báo cáo kỹ thuật IDSIA-23-23, Phòng thí nghiệm AI Thụy Sĩ IDSIA, 14 tháng 12 năm 2023. Xem thêm video YouTube cho Lễ trao giải Bower 2021: J. Schmidhuber ca ngợi Kunihiko Fukushima.
346,77K