Bất chấp những lợi ích đáng kể mà các LLM mang lại cho người dùng, thay đổi cách họ tương tác với thế giới máy tính, các nhà phát triển model LLM đang đối mặt với nhiều vấn đề, bao gồm cả nguồn vốn khổng lồ để vận hành nó, đồng thời tìm cách để kiếm tiền từ nó. Mặt khác, ở góc độ kỹ thuật, vấn đề lớn mà họ đang đối mặt chính là nguồn dữ liệu đào cho mô hình. Gần đây người ta đã dấy lên vấn đề nguồn dừ liệu huấn luyện cho các model đang dần cạn kiệt nhanh chóng. Đồng thời, việc sử dụng các nguồn dữ liệu trên internet mà chưa có sự đồng thuận cũng là vấn đề người ta tranh cãi. Một thách thức khác phát sinh chính là các nguồn dữ liệu mà AI đã tạo ra có thể sẽ vô tình được dùng để huấn luyện AI trong tương lai. Các nhà nghiên cứu gọi đây là "sụp đổ mô hình", khi mà trên lý thuyết, lượng dữ liệu mà AI tạo ra quá tràn lan, khi đó AI sẽ bắt đầu "giao phối" với các dữ liệu đào tạo do AI tạo ra, còn dữ liệu chất lượng cao do con người tạo ra lại ngày càng trở nên khan hiếm. Trong nghiên cứu đăng tải trên Nature mới đây, các nhà khoa học đã chỉ ra các trường hợp diễn ra hiện tượng này, cụ thể là các khu vực dùng một ngôn ngữ ít phổ biến. Nhóm nghiên cứu nói rằng nếu các đơn vị phát triển LLM cứ đi cào dữ liệu trên web một cách bừa bãi, chất lượng của tập data huấn luyện sẽ ngày càng kém đi, dẫn tới những hư hỏng không thể đảo ngược trong mô hình LLM. Bởi thế, trong thời đại mà các nội dung AI đang tràn lan, những nội dung gốc mà con người tạo ra tiếp tục có vai trò ngày càng quan trọng hơn, không chỉ đối với con người mà cả đối với sự tiến bộ của công nghệ AI hiện tại. Xa hơn một chút, mặc dù AI đã chứng minh được những tiềm năng cực kỳ thiết thực chứ không mông lung như Metaverse hay Blockchain, tuy nhiên các hãng công nghệ lớn vẫn đang tiếp tục tìm cách tiếp cận đúng đắn để áp dụng công nghệ này vào trong các sản phẩm dành cho người dùng cuối lẫn doanh nghiệp. Hiện tại, các big tech đang có trách nhiệm lớn hơn trong việc định hình sự phát triển của AI trong tương lai, thông qua việc giải quyết các vấn đề hiện tại, cả về mặt kỹ thuật, lý luận và đạo đức. Và sớm thôi, có thể câu trả lời sẽ nằm ở 1 năm tới.