Khoa học công nghệ ngành Công Thương

Thứ sáu, 29/03/2024 | 18:05

Thứ sáu, 29/03/2024 | 18:05

Tin KHCN

Cập nhật lúc 08:07 ngày 18/09/2019

AI có thể vượt qua các kỳ thi chuẩn hóa, nhưng lại không thể đạt được các kỹ năng của trẻ học mẫu giáo

Từ rất lâu, các nhà nghiên cứu trí tuệ nhân tạo đã mơ ước xây dựng một cỗ máy có trí tuệ và khả năng tương tác tự nhiên như con người giống trong phim Star Trek. Mới đây, giấc mơ đó dường như đã chạm được đến khi đội ngũ nghiên cứu của Viện Trí tuệ Nhân tạo Allen (AI2) công bố chương trình nghiên cứu mới nhất của họ. Aristo, chương trình được tạp chí New York Times ca ngợi là “một cột mốc quan trọng trong lịch sử phát triển AI”, đã xuất sắc vượt qua bài test khoa học chuẩn hoá lớp 8 và được đánh giá là “sẵn sàng tiếp nhận các kiến thức đại học”.
Thực tế, Aristo không phải là hệ thống AI đầu tiên chứng minh được năng lực tiếp thu kiến thức và có khả năng suy luận. Năm 2015, một thệ thống tương tự đã làm một bài test IQ và cho ra kết quả tương đương với một đứa trẻ 4 tuổi. Một nhóm khoa học gia khác phát triển một hệ thống giải được các bài hình học SAT với trình độ tương đương học sinh lớp 11. Gần đây, các nhà nghiên cứu đại học Stanford phát triển một chương trình hỏi – đáp được tờ New York Post miêu tả là “hệ thống AI đánh bại con người trong lĩnh vực đọc hiểu”. Nhưng thực tế là những hệ thống này chỉ thể hiện tốt với những bài test xử lý ngôn ngữ cụ thể. Không có hệ thống nào tiệm cận với khả năng đọc hiểu của con người hay những kỹ năng tổng hợp khác mà bài test được thiết kế để đo lường. 
Vấn đề của những cỗ máy đương đại là dù chúng rất xuất sắc trong một nhiệm vụ cụ thể nhưng lại thiếu cái mà chúng ta gọi là trí khôn cơ bản. Đó là sự hiểu biết xã hội thường được thu nhận một cách vô thức và được sử dụng để xử lý các tình huống chúng ta phải đối mặt và ngôn ngữ dùng khi giao tiếp, thông tin. 
Mục tiêu chế tạo ra những cỗ máy kế thừa được trí khôn nhân loại là vấn đề hóc búa nhất tồn tại trong lĩnh vực này. Bắt đầu từ thập niên 90, nghiên cứu về trí khôn chỉ chiếm một phần khiêm tốn so với nghiên cứu AI dựa trên phương pháp thống kê và dữ liệu, đặc biệt là trong ngạch nghiên cứu mạng lưới thần kinh và học sâu. Gần đây các nhà nghiên cứu đã phát hiện ra những hệ thống học sâu thiếu sự tinh tế và tính tổng hợp cần thiết trong kỹ năng học. Chủ yếu bởi chúng không có kiến thức rộng và khả năng suy luận linh hoạt như con người. Do đó việc trang bị cho những cỗ máy học trí khôn của con người đang trở thành mối quan tâm hàng đầu của ngành trí tuệ nhân tạo. 
Để đến gần hơn tới mục tiêu đó, các nhà nghiên cứu xây dựng những chương trình giải quyết được những vấn đề “tiêu chuẩn”, một nhóm dữ liệu hướng đến một nhiệm vụ cụ thể. Dữ liệu tiêu chuẩn của Aristo bao gồm một cụm các câu hỏi trắc nghiệm khoa học trong Kỳ thi chung Tiểu Bang New York. 
Ví dụ, với câu hỏi “Thiết bị nào sẽ phân tách tốt nhất một hỗn hợp hạt tiêu đen và sắt?”, nhóm câu trả lời: a) nam châm, b) giấy lọc, c) cân (dùng trong thí nghiệm), d) volt kế. 
Những nhà khoa học chế tạo Aristo tin rằng việc phát triển hệ thống AI có thể trả lời những  câu hỏi trên là cách thúc đẩy lĩnh vực này tốt nhất. “Mặc dù đây không phải là một bài kiểm tra đầy đủ về trí tuệ máy nhưng có thể khám phá một số khả năng liên quan mật thiết đến trí thông minh, bao gồm hiểu ngôn ngữ, lý luận và sử dụng những kiến thức thông thường”, họ nhấn mạnh. 
Aristo là một hệ thống tinh vi kết hợp nhiều phương pháp AI khác nhau. Hệ thống chính tạo nên sự khác biệt của chương trình này là mạng lưới thần kinh sâu đã được luyện tập gọi là mẫu ngôn ngữ. Đây là một cơ chế có khả năng phán đoán từ tiếp theo dựa trên một chuỗi từ được cấp. Ví dụ, nhập vào hệ thống “Tôi đang lái xe rất nhanh thì bị dừng lại bởi …” và máy sẽ trả ra kết quả là “cảnh sát”. 
Mẫu ngôn ngữ Aristo đã được rèn luyện với hàng triệu tổ hợp văn bản, bao gồm cả Wikipedia Tiếng Anh, qua đó nó có thể học được một số cấu trúc ngôn ngữ khá hữu ích. Tại thời điểm này, hệ thống có thể làm bài test Regents rất tốt. Hệ thống trả lời đúng hơn 90% trong số 119 câu hỏi khoa học của kỳ thi lớp 8, một kết quả khá ấn tượng. Nó cũng trả lời đúng trên 83% câu hỏi của kỳ thi lớp 12. Tờ Times đánh giá kết quả này là “hoàn thành xuất sắc”, tuy vậy nhóm phát triển AI2 cho biết chương trình không thể xử lý được các câu liên quan tới biểu đồ cũng như những câu hỏi trực tiếp. 
Nhưng một cỗ máy học xuất sắc vượt qua kỳ thi với bộ dữ liệu đặc thù không phải là điều các nhà phát triển hướng đến. Đôi khi các dữ liệu được sử dụng để huấn luyện và kiểm tra chứa những mẫu thống kê mơ hồ cho phép hệ thống trả lời dễ dàng ngay cả khi không thực sự hiểu hay cần suy luận nhiều. 
Minh hoạ cho điều này là vào năm 2019, một mẫu ngôn ngữ mạng thần kinh, tương tự hệ thống Aristo sử dụng, có khả năng xác định liệu một mệnh đề có ngụ ý khác hay không. Tuy nhiên, hệ thống làm được điều này không nhờ vào khả năng hiểu ngữ nghĩa hay liên kết logic giữa các mệnh đề, mà qua nhận dạng thuộc tính cú pháp rời rạc như bao nhiêu từ bị lặp lại trong câu tiếp theo. Nếu hệ thống không thể sử dụng chức năng này với các văn bản được cung cấp, nó sẽ cho ra kết quả rất ngớ ngẩn. 
Hàng tá các nghiên cứu đã được xuất bản trong vài năm trở lại đây đều tiết lộ sự tồn tại những điểm mù (subtle giveaways) trong các cụm dữ liệu chuẩn được sử dụng để đánh giá các hệ thống máy học. Điều này dẫn các nhà khoa học đến câu hỏi về mức độ các hệ thống máy học thực sự hiểu hay chỉ phản ứng với các tín hiệu hời hợt trong dữ liệu.
Nhóm phát triển Aristo đã phản bác rằng các câu hỏi trong kỳ thi Regents không mơ hồ như trong bộ dữ liệu câu hỏi-đáp thông thường mà mọi người thường sử dụng. Họ lưu ý rằng “rất nhiều câu hỏi phải suy luận mới có thể trả lời” và sự thể hiện xuất sắc của Aristo “cho thấy sự học hỏi thực sự về ngôn ngữ và thế giới, cũng như là khả năng vận dụng các kiến thức đó.”
Nghiên cứu các mạng lưới thần kinh cũng giống như đi vào mê cung, bởi không thể thực sự biết chúng đã học được điều gì. Aristo có thể thể hiện xuất sắc khi làm bài test khoa học. Nhưng khi phải xử lý các bộ dữ liệu hỏi-đáp mà trong đó mỗi câu hỏi được thêm vào 4 câu trả lời sai được đặc biệt lựa chọn để làm cho hệ thống dễ bị nhầm lẫn, tỷ lệ trả lời đúng của nó chưa đến 60%. Điểm yếu cơ bản của nó nằm ở quá trình xử lý các vấn đề này. 
Thấu hiểu ngôn ngữ yêu cầu một kiến thức nền rộng lớn và sự suy luận linh hoạt. Phát triển một hệ thống AI đạt được những yêu cầu đó là vấn đề khó nhất trong lĩnh vực này. Gần đây Cơ quan Các Dự án nghiên cứu công nghệ cao Quốc phòng Hoa Kỳ (Darpa) đã bắt đầu đổ tiền vào nghiên cứu trí khôn nhân tạo. Một trong những vấn đề thách thức của Darpa là phát triển một hệ thống AI có trí tuệ của một đứa trẻ 18 tháng. Mục tiêu này vẫn còn khá xa vời chứ chưa nói đến một AI có trí tuệ của trẻ mẫu giáo. Và còn rất lâu chúng ta mới có một AI có thể đi học cao trung hay đại học. 
Ngọc Diệp (Theo https://www.wired.com)
lên đầu trang