Cuộc chiến không điểm dừng của các siêu AI

GPT-3 khởi động một cuộc chiến mới trong việc phát triển các siêu AI với mô hình, tham số ngày càng lớn và năng lực vượt trội.

GPT-3 được OpenAI tung ra hồi tháng 6/2020 và lập tức thu hút chú ý khi biết cách vận dụng ngôn ngữ con người, tạo văn bản và phản hồi trôi chảy và tự nhiên bằng tiếng Anh. Nó tiên tiến hơn những trợ lý ảo như Siri của Apple hay Alexa của Amazon vì có thể bắt chước nhiều phong cách viết chỉ với một click chuột.

GPT-3 được coi là một siêu AI và tạo ra những ảnh hưởng lớn trong năm 2021, khi nhiều tập đoàn công nghệ và phòng thí nghiệm công bố những mô hình AI có kích thước và năng lực vượt trội GPT-3.

Năng lực của GPT-3 không đến từ thuật toán, mà bởi kích thước mô hình của chính nó. Kích thước mô hình đào tạo AI được đo bằng lượng tham số sở hữu. Đây là những biến số có thể điều chỉnh liên tục trong quá trình huấn luyện AI, giúp xây dựng năng lực dự đoán. AI càng nhiều tham số sẽ càng tiếp nhận được nhiều thông tin từ dữ liệu đào tạo, cho phép nó dự đoán và phản ứng chính xác hơn với những dữ liệu mới.

“Chúng tôi nghĩ mình cần ý tưởng mới, nhưng thành tựu đạt được chính là nhờ quy mô”, Jared Kaplan, nhà nghiên cứu tại OpenAI và là một trong những người thiết kế dự án GPT-3, cho biết trong hội thảo NeurIPS tháng trước.

GPT-3 có 175 tỷ tham số cấu thành, gấp 10 lần hệ thống tiền nhiệm GPT-2. Tuy nhiên, niềm tự hào này đã liên tục bị vượt mặt vào cuối 2021.

GPT-3 thu hút nhờ kích thước mô hình khổng lồ hồi năm 2020. Ảnh: December Labs

Startup Mỹ AI21 Labs hồi tháng 9 năm ngoái công bố Jurassic-1, mô hình ngôn ngữ đã được thương mại hóa, với 178 tỷ tham số. Gopher, mô hình đào tạo được DeepMind cho ra mắt sau đó ba tháng, có 280 tỷ tham số. Còn Megatron-Turing NLG, dự án hợp tác của Microsoft và Nvidia, có 530 tỷ tham số. Google cũng tung ra Switch-Transformer và GLaM với con số lần lượt là 1.000 và 1.200 tỷ.

“Chúng ta đang tiếp tục chứng kiến tỷ lệ thuận giữa kích thước mô hình AI với hiệu năng, và điều này chưa có điểm dừng”, hai nhà nghiên cứu của Microsoft cũng đưa ra nhận định hồi tháng 10.

Xu hướng này không chỉ giới hạn tại Mỹ. Tập đoàn Huawei của Trung Quốc đã xây dựng mô hình ngôn ngữ PanGu với 200 tỷ tham số, trong khi Inspur ra mắt Yuan 1.0 có 245 tỷ tham số. Baidu và Phòng thí nghiệm Peng Cheng ở Thẩm Quyến công bố mô hình PCL-BAIDU Wenxin 280 tỷ tham số. Trong lúc đó, Học viện AI Bắc Kinh ra mắt Wu Dao 2.0 lên tới 1.750 tỷ tham số.

Tại Hàn Quốc, tập đoàn Naver cuối năm ngoái giới thiệu HyperCLOVA có 204 tỷ tham số.

Tất cả những sản phẩm này đều được giới công nghệ coi là thành tựu kỹ thuật. Xây dựng mô hình đào tạo trên 100 tỷ tham số là quá trình rất phức tạp. Hàng trăm bộ xử lý đồ họa GPU – phần cứng được ưa thích để đào tạo mạng neuron sâu – cần được kết nối và đồng bộ. Dữ liệu huấn luyện cũng phải được chia nhỏ thành từng khối, phân bổ cho các GPU theo đúng thứ tự và thời điểm.

Mô hình ngôn ngữ quy mô lớn, tạo nên siêu AI, đã trở thành những dự án danh giá, phô diễn sức mạnh công nghệ của một doanh nghiệp. Tuy nhiên, bất chấp những kết quả đáng kinh ngạc, giới nghiên cứu vẫn chưa hiểu tại sao số lượng tham số lại tỷ lệ thuận với năng lực xử lý của AI. Họ cũng chưa tìm ra cách xử lý vấn đề ngôn ngữ độc hại và phát tán tin giả mà các mô hình này “học” được trong quá trình đào tạo.

“Huấn luyện nhờ Internet sẽ đi kèm những thiên kiến của Internet”, nhóm phát triển GPT-3 thừa nhận.

“Mô hình quy mô lớn sẽ trở thành điều bình thường trong 10-20 năm tới. Nếu điều đó diễn ra, giới nghiên cứu sẽ phải tập trung vào phương án tận dụng kích thước khổng lồ của mô hình, thay vì chỉ đơn giản tìm cách mở rộng nó”, Kaplan nhận xét.

(theo Technology Review)