Khoa học công nghệ ngành Công Thương

Thứ hai, 06/05/2024 | 13:28

Thứ hai, 06/05/2024 | 13:28

Kết quả nhiệm vụ KHCN

Cập nhật lúc 09:15 ngày 24/04/2024

Vấn đề vanishing gradient và các phương pháp xử lý khi lan truyền ngược trong huấn luyện mô hình học sâu

TÓM TẮT:
Trong học sâu có giám sát, gradient là thông tin quan trọng để cập nhật các trọng số(weights) trong quá trình huấn luyện. Nếu gradient quá nhỏ hoặc bằng 0, trọng số sẽ gần như không thay đổi, khiến mô hình không thể học hỏi từ dữ liệu. Bài báo đưa ra các biện pháp khắc phục vấn đề suy giảm đạo hàm (vanishing gradient) trong mạng nơron Multi Layer Perceptrons (MLP) khi thực hiện huấn luyện mô hình quá sâu (có nhiều hidden layer). Có sáu phương pháp khác nhau tác động vào model, chiến thuật train,... để giúp giảm thiểu vanishing gradients được giới thiệu trong bài viết trên bộ dữ liệu FashionMNIST. Ngoài ra, chúng tôi cũng giới thiệu và xây dựng hàm MyNormalization(), một hàm tuỳ chỉnh tương tự như BatchNorm của Pytorch. Mục đích của hàm này là kiểm soát phương sai và giảm biến động của đặc trưng qua các lớp. Mục tiêu cuối cùng là tối ưu hoá mô hình MLP sâu để nó có thể học hiệu quả từ dữ liệu mà không bị ảnh hưởng bởi vấn đề vanishing gradient.
Từ khóa: Mạng nơron, MLP, vanishing gradients
Xem chi tiết: tại đây
Phạm Ngọc Giàu, Tống Lê Thanh Hải (Trường Đại học Tiền Giang)
Nguồn: Tạp chí Khoa học và Công nghệ Đại học Công nghiệp Hà Nội T59 - S6C (12/2023)
lên đầu trang