Tại CES năm nay, AMD đồng loạt tung ra nhiều sản phẩm mới, nhưng cái tên nổi bật và được giới công nghệ chú ý nhất là Strix Halo hoặc Ryzen AI Max (tên thương mại). Với sức mạnh ngang ngửa Apple M4 Pro, con chip APU mới nhất của AMD được quảng cáo là "riêng mình một cõi" (a class of its own). Không con chip nào mà cả AMD lẫn Intel hiện có "cùng đẳng cấp" với Strix Halo. Nhà khổng lồ x86 cho biết họ phải thiết kế đi thiết kế lại 4 lần mới ra được phiên bản cuối cùng ưng ý nhất.
Trong cuộc phỏng vấn riêng với trang Chips and Cheese, Mahesh Subramony, một kỹ sư kỳ cựu của AMD, đã chia sẻ một số thông tin thú vị về con "quái vật" x86 này.
Chi tiết bài phỏng vấn của Chips and Cheese
Nhưng trước hết, hãy điểm qua những điểm nổi bật chính ở con chip thiết kế 4 lần mới đạt này. 16 nhân Zen 5 tương đương chip Ryzen 9 9950X. 40 nhân CU RDNA 3.5 có sức mạnh nằm giữa Radeon RX 7600 XT và 7700 XT (2 chiếc card này vẫn là RDNA 3 nên không nói chắc được hơn thua thế nào), NPU XDNA 2 50 TOPS cùng loại với Strix Point (hoặc Ryzen AI). Ngoài ra nó còn được trang bị giao tiếp nhớ LPDDR5X 256-bit rộng gấp đôi Strix Point. Với các yếu tố trên, Strix Halo thực sự là con chip x86 chạy trên di động có cấu hình "khủng" nhất từ trước tới giờ.
Để làm ra một con chip "tất cả trong một" như thế không phải điều dễ dàng. Ngay cả "cây cổ thụ" x86 là Intel cũng chưa bao giờ làm ra một sản phẩm nào tương tự. Trên thực tế, những con chip x86 dành cho laptop mạnh mẽ nhất xưa nay hầu như là bản "cưa sừng làm nghé" từ phiên bản desktop, ví dụ như Ryzen 9 9955HX3D thực chất là Ryzen 9 9950X được đưa vào "hình hài" laptop. Hẳn bạn cũng biết, 9950X tuy CPU rất mạnh (16 nhân Zen 5) nhưng IGP chỉ đủ để... lên hình. Nếu muốn chơi game 3D ngon lành, bạn phải trang bị thêm card đồ hoạ rời cho nó. 9950X cũng không có NPU nên muốn chạy AI thì mọi thứ phải "nhờ" GPU "gánh" hộ.
Strix Halo được thiết kế với tư tưởng "tất cả trong một" nhưng phải "cực kỳ mạnh mẽ" về hầu hết mọi phương diện…
Về lịch sử mà nói, đấy là "giấc mộng" mà AMD đã "nằm mơ" từ rất lâu. Từ khi công ty này vẫn còn tự chủ sản xuất chip bán dẫn. 2006, AMD mua lại ATI, một công ty chuyên card đồ hoạ như NVIDIA. Tận 5 năm sau đó, con chip APU (Accelerated Processing Unit) đầu tiên mới ra đời, là sự kết hợp của cả CPU và GPU vào cùng một die silicon (Fusion). Song so với 1 chip CPU hay GPU thuần tuý, APU có nhược điểm nếu dùng thiết kế monolithic thì rất khó để có cấu hình cao cấp - mạnh CPU thì yếu GPU và ngược lại. Nôm na là bạn chỉ có tiền lương đủ cho 1 người nhưng phải nuôi tới 2 người. Vì thế chip APU đa số có cấu hình CPU "vừa đủ" và GPU cũng "vừa đủ".
Thực tế thì mẫu APU mới nhất (cho tới trước Strix Halo) là Strix Point vẫn đi theo motif "mạnh vừa đủ" này. Dù có tới 12 nhân x86 nhưng chỉ có 4 nhân là "full" Zen 5, 8 nhân còn lại là Zen 5c. GPU Radeon 890M với 16 CU RDNA 3.5 tuy không yếu nhưng vẫn chưa thể sánh ngang card đồ hoạ rời "sinh cùng thời". Nói cách khác về cơ bản APU là giải pháp tích hợp, có tất cả nhưng đều không bằng từng con chip chuyên biệt cho từng nhiệm vụ.
Strix Halo được tạo ra từ 2 CCD Zen 5 đi kèm với 1 IOD cùng sản xuất trên tiến trình TSMC N4
Tất nhiên đây là chuyện "đánh đổi" giữa chi phí sản xuất vs. lợi ích. Nếu muốn sản xuất được nhiều APU với giá thành "phải chăng" thì kích thước die chip aka số silicon bỏ ra không thể quá nhiều. Ngoài ra, tốn nhiều silicon thường đồng nghĩa với tiêu thụ nhiều điện và toả nhiều nhiệt. Do đó trong suốt thời gian qua, AMD vẫn chọn hướng "phù hợp số đông" để sản xuất APU. Nhưng như thế không có nghĩa là AMD không thể làm được con chip APU "mạnh áp đảo"…
Song để "giấc mộng" thành hiện thực cần nhiều thứ hơn là "nằm mơ". Trước hết bạn cần một tiến trình bán dẫn đủ tốt để "nhồi nhét" được thật nhiều transistor. Nếu mẫu APU đầu tiên Llano sản xuất trên tiến trình 32 nm chỉ có 1.178 tỷ transistor thì tới Strix Point 4 nm ra mắt gần đây cần tới 34 tỷ! Với Strix Halo tuy con số chính xác chưa có song chắc chắn số lượng sẽ rất nhiều. Tiếp theo là trình độ thiết kế chip phải rất cao để có thể "ép" tất cả các thành phần trên vào cùng 1 thiết kế mà mức tiêu thụ điện lẫn toả nhiệt phải hợp lý (trong phạm vi cho phép).
Mahesh ví von:
"Con chip này là một trạm làm việc (workstation). Tôi gần như đùa khi nói rằng nó là 1 chip Threadripper nằm gọn trong lòng bàn tay bạn. Chúng tôi không bỏ bớt đi gì cả. Nó có những mạch tín hiệu 512-bit. Nó có kiến trúc hoàn chỉnh của desktop. Nhưng chúng tôi chọn theo hướng hiệu suất cao. Do vậy nó có thể không đạt xung nhịp tối đa như trên desktop. Chúng mát hơn, nên bạn có mức hiệu suất mà bạn muốn trên con chip này khi bạn xử lý đa tác vụ, bạn vẫn có được mức xung tối ưu trên chúng".
Nhưng Strix Halo không thuần tuý chỉ là việc đem 2 die CCD Zen 5 của Granite Ridge (Ryzen 9000) hay Fire Range (Ryzen 9000 Mobile) rồi gắn chung với die IOD là xong. Vì như thế thì nó giống như "nhét" 9955HX vào cùng chiếc card RX 7600 XT. Sức mạnh chắc chắn rất mạnh nhưng lại cũng rất ngốn điện và toả nhiều nhiệt. Để hiệu năng vừa cao mà mức tiêu thụ điện cũng phải hợp lý, các kỹ sư AMD cần một số thay đổi mang tính cơ bản.
Một trong những nhược điểm cố hữu của thiết kế chiplet là các nhân xử lý nằm khác die khi cần liên lạc với nhau, sẽ mất thêm nhiều thời gian hơn (độ trễ cao). AMD sử dụng liên kết SERDES (serializer/deserializer) để thực hiện việc này. Bản chất SERDES là quá trình biến đổi các tín hiệu song song (trong 1 die chip) sang tuần tự. Khi sang die chip cần đến, sẽ có quá trình ngược lại là tách tuần tự thành song song. Hiểu nôm na nó giống việc bạn ship hàng từ thành phố A sang B. Ở cùng thành phố thì các đơn hàng độc lập được ship riêng lẻ bằng xe máy hoặc xe tải nhỏ tới trạm trung chuyển. Tại trạm trung chuyển hàng hoá được gom lại để dồn vô một xe tải lớn hoặc tàu biển (nếu là cảng vụ). Số hàng khổng lồ nói trên sẽ được chuyển đi cùng lúc một lần bằng quốc lộ, cao tốc hoặc đường biển để tiết kiệm chi phí. Khi tới trạm đích chúng mới được bốc dỡ rồi sau đó mới chia ra các đơn hàng lẻ để chuyển tiếp tới từng khách hàng qua các shipper độc lập.
Cách thức làm việc của SERDES
Nhưng cách làm trên có nhược điểm là độ trễ cao (luôn phát sinh một khoảng thời gian tối thiểu để bốc dỡ hàng). Để rút bớt hạn chế trên, với Strix Halo, AMD không dùng SERDES nữa mà thay bằng fan out (hoặc sea of wires, theo cách Mahesh mô tả) để liên kết 2 die Zen 5.
"Cái khác biệt lớn đầu tiên giữa 1 chip Granite hay 9950X3D và Strix Halo này là cách liên kết 2 die. Tiết kiệm điện, băng thông cao, 32 byte/chu kỳ trên cả 2 hướng, độ trễ thấp. Mọi thứ gần như chuyển trạng thái tắt/mở ngay lập tức vì chúng tôi có cả chùm dây liên kết. Dĩ nhiên là vẫn phải có chút đánh đổi, chi phí gia công bán dẫn đắt đỏ hơn 9950X3D, nhưng lợi ích là nó đáp ứng được yêu cầu của người dùng và nó là một liên kết tiết kiệm điện".
Hiểu cho đơn giản là thay cho ship hàng giữa 2 thành phố nằm cách xa nhau (ví dụ Sài Gòn và Biên Hoà), nay AMD chuyển nơi đến và nơi đi ở lại gần sát nhau (ví dụ Bình Thạnh và Thủ Đức cách nhau mỗi con sông Sài Gòn). Như thế bạn không cần phải tập trung hàng tại trạm trung chuyển để chờ xe tải nữa mà từng shipper lẻ có thể giao hàng trực tiếp qua bên kia sông chỉ bằng xe máy là được. Tất nhiên yêu cầu cần có là giữa 2 bờ sông phải có nhiều cầu liên kết để quãng đường ship là ngắn nhất. Và trên quan điểm bán dẫn, không rõ 2 CCD Zen 5 này được sản xuất như thế nào, nhưng có khả năng chúng xài chung 1 die silicon duy nhất (Bình Thạnh hay Thủ Đức nói cho cùng vẫn chung 1 thành phố). Cụ thể như nào thì phải chờ tới cái bài teardown sau này chúng ta mới rõ.
Liên kết CCD trên Strix Halo giống với 2 quận chỉ cách nhau con sông nhưng có rất nhiều cầu
Không rõ Strix Halo là thiết kế đơn chip duy nhất hay đa chiplet được gắn kết hết sức chặt chẽ
Cuối cùng bạn chỉ cần hiểu là liên kết CCD trên Strix Halo hoàn toàn khác với liên kết CCD trên các mẫu Ryzen phổ thông khác. Nó tiết kiệm điện hơn và độ trễ thấp hơn.
Mahesh đồng thời tiết lộ thêm một số thông tin về sức mạnh của Strix Halo mà các slide của AMD không đề cập đến. Cụ thể GPU của con chip còn được trang bị thêm 32 MB Infinity cache, giúp nó tiết kiệm thêm băng thông nhớ cần thiết khi chơi game 3D hoặc các ứng dụng tận dụng được video encoder có sẵn. Mặc dù giao tiếp nhớ LPDDR5X 256-bit là rất nhiều cho 1 con chip di động nhưng nó xài chung cho cả CPU lẫn GPU. Ngoài ra vì LPDDR là loại bộ nhớ tiết kiệm điện, chúng sẽ không mạnh mẽ bằng GDDR dùng trên desktop. Vì thế một bộ cache riêng tuy không quá lớn nhưng cũng giúp cải thiện đáng kể tình hình.
ROG Flow Z13 đời 2025 của ASUS được tối ưu cho gaming
Khi được hỏi các nhân Zen 5 có thể sử dụng Infinity cache này không, Mahesh cho biết hiện tại thì chưa, nhưng AMD hoàn toàn có thể thay đổi được khi cần. "Chúng không truy cập được. Infinity cache tồn tại để tăng cường băng thông đồ hoạ. Tôi nghĩ đó là mục đích chính của nó. Chúng ta nên bắt đầu như thế. Các lệnh ghi của CPU không áp dụng lên Infinity cache được. Chúng tôi có thể thay đổi điều này chỉ bằng nhảy 1 bit lệnh nhưng trước mắt chúng tôi không thấy ứng dụng nào cần phải tăng cường băng thông CPU cả".
Một chi tiết thú vị là mới đây, chúng ta có tin đồn về các sản phẩm tương lai của AMD. Trong đó có thông tin 3D V-cache (hay X3D) sẽ được triển khai trên nhiều model, trong đó có thế hệ tiếp theo của Strix Halo. Về bản chất, X3D hay Infinity cache đều là SRAM cache, nên chúng sẽ không khác nhau từ góc nhìn của CPU/GPU. Nếu tin đồn này đúng, thì Strix Halo 2 (tạm gọi là vậy) có thể là sản phẩm đầu tiên của công ty này áp dụng một bộ cache đồng nhất (Unified cache) xài chung cho cả CPU lẫn GPU. Tất nhiên vấn đề nằm ở chỗ công ty này thấy "cần thiết" hay chưa.
Máy trạm HP Z2 Mini G1a với 96 GB RAM trong hình hài tương đương Mac mini
Dù có nhiều điểm mạnh là thế, song Strix Halo không phải không có nhược điểm. Chip mạnh thì hay tốn nhiều điện, xe to đốt nhiều xăng/pin. Với TDP tối thiểu 45 W và tối đa 120 W, Strix Halo rõ ràng không mát mẻ. Song cần nhìn nhận là một giải pháp CPU rời, GPU rời có thể mang lại sức mạnh ngang Strix Halo chắc chắn sẽ đốt điện nhiều hơn. Thêm vào đó, thiết kế đơn chip cũng sẽ chiếm ít diện tích PCB hơn, cho phép các hãng OEM hoặc thu nhỏ kích thước thiết bị hơn, hoặc trang bị thêm các tính năng khác như nhiều ổ SSD, Wi-Fi, Thunderbolt…
Tuy vậy với kích thước khổng lồ (so với các chip di động khác), chi phí sản xuất Strix Halo chắc chắn không rẻ và giá thành cũng không "thân thiện" với đa số người dùng. Sản lượng của nó cũng sẽ thấp hơn các chip khác và do đó, sẽ không có nhiều lựa chọn bằng Strix Point/Hawk Point. Tất nhiên khi đã được định vị là sản phẩm "workstation", thì giá thành thường không bao giờ rẻ. Nguồn:tinhte.vn/thread/amd-strix-halo-duoc-thiet-ke-nhu-chip-threadripper-di-dong.3953610/