Apple mới đây đã miêu tả chi tiết cách họ phân tích dữ liệu riêng tư của người dùng với sự hỗ trợ của dữ liệu tổng hợp nhằm cải thiện các model AI của công ty. Tất nhiên, cách tiếp cận ở đây rất độc đáo, vẫn đảm bảo không vi phạm quyền riêng tư của người dùng. Cụ thể, họ sử dụng cái gọi là "quyền riêng tư vi phân", chính xác là một dự án của các nhà khoa học của Harvard thực hiện nhằm bảo vệ thông tin cá nhân của người dùng nhưng vẫn thực hiện được những phép phân tích và chia sẻ dữ liệu tổng hợp. Nó hoạt động bằng cách thêm những noise toán học vào trong dữ liệu gốc của người dùng để che giấu thông tin nhạy cảm của từng cá nhân nhưng vẫn giữ được tính hữu ích của dữ liệu tổng thể. Trong tình huống của Apple, khi người dùng đồng ý tham gia chia sẻ thông tin để cải thiện chất lượng sử dụng thiết bị với Apple, dữ liệu đó sẽ được censor bằng kỹ thuật quyền riêng tư vi phân nói trên, tạo ra những dữ liệu dùng để đưa vào model, so sánh với độ chính xác của model và từ đó có hướng cải thiện. Apple nói rằng "Dữ liệu tổng hợp sẽ được tạo ra để mô phỏng lại định dạng và các đặc tính quan trọng từ dữ liệu của người dùng, tuy nhiên lại không chứa bất cứ nội dung thực nào do người dùng sinh ra. Để quản lý một bộ dữ liệu tổng hợp những email, chúng tôi sẽ gắt đầu tạo ra một bộ dữ liệu lớn với những tin nhắn ở các chủ đề khác nhau, sau đó sẽ chúng tôi sẽ rút ra một đại diện gọi là embedding của mỗi tin nhắn, trong đó sẽ cung cấp các đặc tính của tin nhắn như ngôn ngữ, chủ đề hay độ dài." Apple nói rằng các embedding này sẽ được gởi tới thiết bị của một số nhỏ người dùng có tham gia chương trình Device Analytics. Lúc đó các thiết bị này sẽ so sánh chúng với dữ liệu thật và cho Apple biết rằng embedding nào có độ chính xác cao. Bằng cách này, Apple nói rằng họ sẽ cải thiện khả năng của Genmoji và trong tương lai là cả các tính năng như Image Playground, Image Wand, Memories Creation, Writing Tools và cả Visual Intelligence. Apple cũng cho biết rằng họ sẽ thăm dò ý kiến những người dùng có tham gia chương trình chia sẻ phân tích thiết bị với dữ liệu tổng hợp để cải thiện khả năng tóm tắt email.