OpenAI bối rối, không hiểu sao mô hình mới o3 và o4 "ảo giác" nhiều hơn cả mô hình AI cũ

#ai

Các mô hình AI o3 và o4-mini mới được ra mắt gần đây của OpenAI là những bước tiến đáng kể trong nhiều lĩnh vực. Tuy nhiên, các mô hình mới này vẫn còn hiện tượng “ảo giác”, bịa đặt thông tin, thậm chí tần suất xảy ra tình trạng này đối với o3 và o4-mini còn nhiều hơn so với một số mô hình cũ của OpenAI.

Hiện tượng ảo giác của các mô hình AI, trên cả các LLM lẫn mô hình suy luận logic, đã trở thành một trong những vấn đề lớn nhất và khó giải quyết nhất trong lĩnh vực AI, ảnh hưởng đến ngay cả các hệ thống hiện đại tốt nhất. Theo truyền thống, mỗi mô hình mới được phát triển thường cải thiện khả năng giảm thiểu ảo giác so với phiên bản trước đó. Nhưng điều này dường như không đúng với o3 và o4-mini.

Theo kết quả kiểm tra nội bộ của OpenAI, o3 và o4-mini, các mô hình suy luận khác biệt với GPT-3 hay 4 của họ, có xu hướng bịa đặt thông tin thường xuyên hơn so với các mô hình suy luận trước đây của họ, cụ thể hơn là o1, o1-mini và o3-mini, cũng như các mô hình ngôn ngữ truyền thống, không có khả năng suy luận như GPT-4o.

Điều đáng lo ngại hơn cả, là nhà phát triển ChatGPT thực sự không rõ nguyên nhân gây ra hiện tượng này.

Cùng lúc, thông tin này được OpenAI công bố ngay sau khi họ tuyên bố rằng, khoảng thời gian thử nghiệm an toàn vận hành AI đối với những mô hình mới được họ phát triển giờ sẽ chỉ kéo dài vài tuần, thay vì khoảng 6 tháng như trước đây:

Để đẩy nhanh tốc độ phát triển, OpenAI giảm mạnh thời gian kiểm tra an toàn của AI

Theo những nguồn tin của Financial Times, OpenAI đã mạnh tay cắt giảm thời gian và nguồn lực dành cho việc kiểm tra an toàn của các mô hình ngôn ngữ AI mạnh nhất của họ. Thông tin này đang làm dấy lên những lo ngại rằng công nghệ này đang được...

tinhte.vn

OpenAI ra mắt mô hình GPT-4.1 với khả năng xử lý vượt trội, cải thiện lập trình và tối ưu chi phí

OpenAI vừa chính thức ra mắt mô hình AI mới nhất của mình mang tên GPT-4.1, đánh dấu một bước tiến lớn trong lĩnh vực trí tuệ nhân tạo. Sự kiện này mở ra nhiều tiềm năng ứng dụng mới trong các ngành công nghiệp. Điều đặc biệt là OpenAI quyết định...

tinhte.vn

Trong báo cáo kỹ thuật mới được công bố về o3 và o4-mini, OpenAI viết rằng "cần có thêm thời gian nghiên cứu" để hiểu tại sao tình trạng ảo giác lại trở nên tồi tệ hơn, khi họ mở rộng quy mô tham số của các mô hình lý luận. o3 và o4-mini hoạt động tốt hơn trong một số lĩnh vực nhất định, bao gồm các tác vụ liên quan đến lập trình và toán học. Tuy nhiên, vì chúng "đưa ra nhiều tuyên bố mang tính tổng thể" hơn, nên thường xảy ra tình trạng mô hình đưa ra “cả những tuyên bố chính xác lẫn những tuyên bố không chính xác/ảo giác”.

OpenAI nhận thấy rằng, o3 bịa đặt thông tin trong 33% số câu hỏi trên PersonQA, một công cụ kiểm tra nội bộ của công ty, với mục đích đo lường độ chính xác của mô hình về kiến thức chung của con người. Con số này cao hơn gần gấp đôi tỷ lệ tạo sinh nội dung ảo giác của các mô hình lý luận trước đây của OpenAI, o1 và o3-mini, với tỷ lệ lần lượt “chỉ” là 16% và 14.8%. o4-mini còn hoạt động tệ hơn trên PersonQA. Nó bịa đặt thông tin trong 48% số câu hỏi được người thử nghiệm đặt ra.

Các thử nghiệm độc lập của Transluce, một phòng thí nghiệm nghiên cứu AI phi lợi nhuận, cũng tìm thấy bằng chứng cho thấy o3 có xu hướng bịa đặt các hành động mà nó đã thực hiện để đưa ra câu trả lời. Trong một ví dụ, Transluce quan sát thấy o3 tuyên bố rằng, nó đã chạy mã trên một chiếc MacBook Pro 2021 "bên ngoài ChatGPT", sau đó sao chép các số vào câu trả lời của mình. Điều này hoàn toàn bất khả thi, mô hình của OpenAI không phải mã nguồn mở, chỉ chạy được trên máy chủ của họ hoặc các bên đã mua thương quyền API, chứ không phải MacBook Pro.

“Giả thuyết của chúng tôi là loại học tăng cường (reinforcement learning) được sử dụng cho các mô hình suy luận dòng o có thể khuếch đại những vấn đề thường được giảm thiểu (nhưng chưa bị xóa hoàn toàn) bởi quy trình đào tạo sau này,” Neil Chowdhury, một nhà nghiên cứu của Transluce và cựu nhân viên OpenAI, nói trong email gửi TechCrunch.

Sarah Schwettmann, đồng sáng lập Transluce, cho biết thêm rằng tỷ lệ ảo giác của o3 có thể khiến nó ít hữu ích hơn so với tiềm năng của nó.

Kian Katanforoosh, giáo sư thỉnh giảng tại Stanford và CEO của startup nâng cao kỹ năng Workera, nói với TechCrunch rằng nhóm của ông hiện đang thử nghiệm o3 trong quy trình làm việc lập trình của họ và nhận thấy nó vượt trội hơn các đối thủ cạnh tranh. Tuy nhiên, Katanforoosh cho biết o3 có xu hướng bịa đặt các liên kết trang web bị hỏng – mô hình sẽ cung cấp một liên kết mà khi nhấp vào thì không hoạt động.

Ảo giác của AI tạo sinh, ở khía cạnh tích cực có thể giúp các mô hình đưa ra những ý tưởng thú vị và sáng tạo trong "tư duy" của hệ thống máy móc. Điều này rất có ích nếu AI hỗ trợ mọi người sáng tạo, làm nhạc, sáng tác thơ ca hay tạo sinh hình ảnh. Nhưng ở những môi trường khác, chẳng hạn đối với các doanh nghiệp, nghiên cứu khoa học, hay những thị trường ứng dụng nơi độ chính xác là tối quan trọng, nó là thứ không thể chấp nhận được. Ví dụ, một công ty luật có lẽ sẽ không hài lòng với một mô hình đưa nhiều lỗi sai ngớ ngẩn vào hợp đồng của khách hàng.

Một cách tiếp cận đầy hứa hẹn để tăng độ chính xác của các mô hình, là cung cấp cho chúng khả năng tìm kiếm trên web. GPT-4o của OpenAI, với tính năng tìm kiếm trên web, đã đạt được 90% độ chính xác khi thử nghiệm với SimpleQA, một trong những tiêu chuẩn đánh giá độ chính xác khác của OpenAI. Tiềm năng là tìm kiếm trực tuyến cũng có thể cải thiện tỷ lệ ảo giác của các mô hình lý luận, ít nhất là trong trường hợp người dùng sẵn sàng cho phép chia sẻ các lệnh prompt, gửi chúng đến nhà cung cấp dịch vụ tìm kiếm của bên thứ ba.

Nếu việc mở rộng quy mô tham số của các mô hình suy luận tiếp tục làm trầm trọng thêm tình trạng ảo giác, điều đó sẽ khiến cuộc săn lùng giải pháp an toàn AI trở nên cấp bách hơn.

“Giải quyết vấn đề ảo giác trên tất cả các mô hình của chúng tôi là một lĩnh vực nghiên cứu diễn ra liên tục, và chúng tôi đang không ngừng nỗ lực để cải thiện độ chính xác và độ tin cậy của các mô hình,” Niko Felix, đại diện truyền thông của OpenAI cho biết.

Trong năm vừa qua, ngành công nghiệp AI rộng lớn đã chuyển trọng tâm sang các mô hình suy luận, sau khi các kỹ thuật để cải thiện các mô hình AI truyền thống bắt đầu cho thấy lợi ích tăng trưởng ít hơn so với chi phí để nghiên cứu và hoàn thiện. Tính năng suy luận cải thiện hiệu suất của mô hình trên nhiều tác vụ mà không cần đến khối lượng công suất điện toán và dữ liệu khổng lồ trong quá trình đào tạo. Tuy nhiên, có vẻ như lý luận cũng có thể dẫn đến ảo giác nhiều hơn, và rõ ràng nó đang đặt ra một thách thức cho tất cả mọi đơn vị và tập đoàn.

Theo Techcrunch

Nguồn:tinhte.vn/thread/openai-boi-roi-khong-hieu-sao-mo-hinh-moi-o3-va-o4-ao-giac-nhieu-hon-ca-mo-hinh-ai-cu.4011732/