Vấn đề vanishing gradient và các phương pháp xử lý khi lan truyền ngược trong huấn luyện mô hình học sâu

Thứ hai, 06/05/2024 | 13:28

Tin xem nhiều

Xây dựng công nghệ tiên tiến - nâng tầm giá trị hải sản Việt Nam

Ứng dụng các giải pháp công nghệ trong thu gom, xử lý và sử dụng khí đồng hành
Thực trạng ngành Dệt May Việt Nam hiện nay và những thách thức trước cuộc cách mạng công nghiệp 4.0
Hiệu quả của mô hình lò sấy thuốc lá vàng theo nguyên lý thoát ẩm qua đường ống khói
Sử dụng các tính chất của hàm Beta để tính một số tích phân suy rộng
Nghiên cứu ứng dụng trí tuệ nhân tạo (AI) tích hợp hệ thống CNTT hợp nhất trong quản lý và điều hành tại dự án dầu khí - PVEP Algeria, sa mạc Sahara
Mô hình nghiên cứu tác động của quản trị nhân lực xanh tới kết quả hoạt động của doanh nghiệp Việt Nam
Nghiên cứu, thiết kế và chế tạo bộ sấy không khí hồi nhiệt kiểu quay trong lò hơi đốt than Nhà máy nhiệt điện

Kết quả nhiệm vụ KHCN

Cập nhật lúc 09:15 ngày 24/04/2024

Vấn đề vanishing gradient và các phương pháp xử lý khi lan truyền ngược trong huấn luyện mô hình học sâu

TÓM TẮT:

Trong học sâu có giám sát, gradient là thông tin quan trọng để cập nhật các trọng số(weights) trong quá trình huấn luyện. Nếu gradient quá nhỏ hoặc bằng 0, trọng số sẽ gần như không thay đổi, khiến mô hình không thể học hỏi từ dữ liệu. Bài báo đưa ra các biện pháp khắc phục vấn đề suy giảm đạo hàm (vanishing gradient) trong mạng nơron Multi Layer Perceptrons (MLP) khi thực hiện huấn luyện mô hình quá sâu (có nhiều hidden layer). Có sáu phương pháp khác nhau tác động vào model, chiến thuật train,... để giúp giảm thiểu vanishing gradients được giới thiệu trong bài viết trên bộ dữ liệu FashionMNIST. Ngoài ra, chúng tôi cũng giới thiệu và xây dựng hàm MyNormalization(), một hàm tuỳ chỉnh tương tự như BatchNorm của Pytorch. Mục đích của hàm này là kiểm soát phương sai và giảm biến động của đặc trưng qua các lớp. Mục tiêu cuối cùng là tối ưu hoá mô hình MLP sâu để nó có thể học hiệu quả từ dữ liệu mà không bị ảnh hưởng bởi vấn đề vanishing gradient.

Từ khóa: Mạng nơron, MLP, vanishing gradients

Xem chi tiết: tại đây

Phạm Ngọc Giàu, Tống Lê Thanh Hải (Trường Đại học Tiền Giang)

Nguồn: Tạp chí Khoa học và Công nghệ Đại học Công nghiệp Hà Nội T59 - S6C (12/2023)

Tag:

CÁC TIN KHÁC

Tổng số lượt truy cập :

Bản quyền thuộc Vụ Khoa học và Công nghệ - Bộ Công Thương
Địa chỉ: 54 Hai Bà Trưng, Hoàn Kiếm, Hà Nội, Việt Nam
Điện thoại: 84-24-2.2202.438
Cơ quan chủ quản: Bộ Công Thương
Chịu trách nhiệm nội dung: Vụ Khoa học và Công nghệ
Giấy phép hoạt động số 178/GP-TTĐT của Bộ Thông tin và Truyền thông cấp ngày 27 tháng 12 năm 2022
Ghi rõ nguồn: https://khcncongthuong.vn/ khi sử dụng thông tin từ website này.

Tin xem nhiều

Xây dựng công nghệ tiên tiến - nâng tầm giá trị hải sản Việt Nam

Kết quả nhiệm vụ KHCN

Vấn đề vanishing gradient và các phương pháp xử lý khi lan truyền ngược trong huấn luyện mô hình học sâu

CÁC TIN KHÁC

Tin mới

VĂN BẢN ĐIỀU HÀNH

TÀI LIỆU HỖ TRỢ