[Volume2 Amazon 출판 예고] NPU 설계의 정점, 실전 13x10 Systolic Array를 만나다
"이론으로만 배우던 시스톨릭 어레이, 이제 실제 하드웨어로 구동하십시오."
Volume 1에서 NPU의 전체 시스템 구조와 브로드캐스팅(Broadcasting) 방식을 마스터했다면, 이제 Volume 2에서 고성능 연산의 핵심인 Systolic Array의 진수를 경험할 차례입니다.
🚀 Volume 2의 핵심: 13x10 Systolic Array 실전 구현
이번 v2에서는 단순히 개념을 설명하는 수준을 넘어, 실제 FCL(Fully Connected Layer) 연산을 수행하는 13x10 Systolic Array를 Verilog RTL로 완벽히 구현하고 CIFAR10 인식을 FPGA로 확인합니다.
- 실전적 스케일: MNIST/CIFAAR10과 같은 실무 데이터 처리에 최적화된 13x10 크기의 PE(Processing Element) 어레이 설계.
- 오차 없는 검증: 첨부된 엑셀 골든 모델의 연산 트레이스와 RTL 시뮬레이션 결과가 100% 일치하는 'Bit-True Verification' 달성.
- 성능의 시각화: 데이터가 각 PE 사이를 흐르는 웨이브프런트(Wavefront) 현상과 실시간 하드웨어 활용률(Utilization)을 수치로 확인.
🎬 심장이 박동하는 'Systolic Simulation'을 확인하세요!
하드웨어가 살아 움직이는 것을 직접 목격하십시오. 엑셀에서 설계한 수식이 어떻게 하드웨어 로직으로 치환되어 박동하는지, 아래 영상을 통해 확인하실 수 있습니다.
- Systolic Excel Simulation: 데이터의 흐름을 시뮬레이션한 '심장이 뛰는 듯한' 엑셀 트레이스 영상
- Vivado Simulation: 실제 FPGA 환경에서의 정밀한 웨이브폼과 연산 결과 매칭 영상
- 데모 영상 (3x3 GEMM):본 영상은 엑셀 골든 모델(Excel Golden Model)에 정의된 3x3 행렬 연산 사례를 활용하여 시스톨릭의 핵심 원리를 설명합니다. 학습자가 데이터 비트 하나하나가 PE를 거쳐 맥동(Pulse)하며 전달되는 과정을 정밀하게 추적할 수 있도록 단순화된 규모로 제작되었습니다.
- 도서 실전 구현 (13x10 어레이): 시각적 이해를 돕기 위해 데모 영상은 3x3 규모를 채택했지만, Volume 2 본서에서는 실제 연산 부하가 높은 전결합층(Fully Connected Layer, FCL) 처리에 최적화된 13x10 시스톨릭 어레이의 전체 RTL 구현 소스를 제공합니다.
💡 왜 Volume 1이 먼저인가요?
v2에서 구현한 13x10 Systolic Array는 매우 강력한 '엔진'입니다. 하지만 v2의 고성능 아키텍처를 진정으로 이해하고 활용하기 위해서는, 전체 시스템 설계의 기초를 다룬 Volume 1의 학습이 반드시 선행되어야 합니다.
[시리즈의 시작: Volume 1 바로가기]
아직 첫 번째 발걸음을 떼지 않으셨다면, 아마존 베스트셀러로 검증된 Volume 1 "AI NPU System Design with Python and Verilog"을 확인하세요. 모든 소스코드는 책구매와 관계없이 공개됩니다.
Amazon Microprocessor Design #1 New Release
Amazon Compiler Design #3 Best Seller
Amazon Microprocessor Design #4 Best Seller
🔗 아마존 링크: https://www.amazon.com/dp/B0GLQVJWMK
📂 Volume 1 무료제공 소스코드 GitHub URL: https://github.com/estlit/AI_NPU_System_Design_v1
Roger Kim - AI NPU System Design
숭실대학교 교수이자 아마존 #1 베스트셀러 저자입니다. AI NPU 설계의 대중화를 위해 Python과 Verilog를 활용한 실전 가이드를 공유합니다. 글로벌 엔지니어들과 함께 하드웨어와 소프트웨어의 경계를 넓혀가고 있습니다.
24/02/2026
🏆 Amazon Best Seller #2 달성!
Global Top-Tier Recognition for AI Hardware Design!
반갑습니다. 숭실대학교 김효섭(Roger Kim)입니다.
최근 출간한 'AI NPU System Design with Python and Verilog'가 여러분의 뜨거운 성원 덕분에 아마존 주요 설계 부문(Microprocessor Design 등)에서 전체 2위에 올랐습니다.
하드웨어 설계의 본질은 결국 '동작하는 실리콘(Working Silicon)'에 있습니다. 이론에 매몰되지 않고 Python 모델링부터 Verilog RTL 설계, 그리고 Xilinx FPGA 보드에서의 실제 구현까지의 전 과정을 상세히 담았습니다.
특히, 독자분들이 책상 위에서 직접 실습하실 수 있도록 실전 매뉴얼과 모든 소스 코드를 공개한 점이 전 세계 엔지니어들과 연구자들에게 깊은 공감을 얻은 것 같습니다.
[Project Highlights: 핵심 성과 요약]
🎨 60,000개 손글씨 숫자 이미지(MNIST) 인식 시스템 구현
✅ Python 기반의 정밀 비트(Bit-Exact) 모델링
✅ 효율적인 하드웨어 가속을 위한 Verilog RTL 설계 및 검증
✅ 자이링스(Xilinx) FPGA 보드 실전 구현 가이드
보내주신 과분한 응원에 힘입어, 앞으로도 대한민국 반도체 설계 기술의 저력을 세계 시장에 널리 알리는 데 정진하겠습니다. 🇰🇷✨
아직 확인하지 못하셨다면 지금 바로 아마존과 깃허브에서 확인해 보세요!
감사합니다.
💻 GitHub (Full Source Code): https://github.com/estlit
🛒 Amazon: https://www.amazon.com/dp/B0GLQVJWMK
22/02/2026
"저는 '속도(Speed)'가 아닌 '밀도(Density)'로 승부합니다."
반도체 세계에서 우리는 흔히 '클럭 속도가 얼마나 빠른가?'라는 단면적인 수치에 매몰되곤 합니다. 하지만 자원이 극도로 제한된 임베디드 및 모바일 환경에서 시스템 반도체 설계의 진짜 실력은 '정해진 실리콘 면적 안에 얼마나 효율적인 지능을 응축하느냐' 하는 연산 밀도(Density)에서 결정됩니다.
[골리앗(Goliath) vs 다윗(David)]
범용성을 위해 비대해진 상용 칩들은 때로 불필요한 '군살'을 가진 채 높은 전력을 소모합니다. 이번 신간에서 제가 선보일 1.Ensemble Quad-core Quad-cycle NPU 아키텍처는 다릅니다.
1. Hardward Folding: 4개의 물리적 코어를 4번 재사용하여 16개의 논리적 레이어를 구현합니다.
2. Efficient Intelligence: 실리콘 면적은 75% 절감하면서도, 앙상블 학습 기법을 통해 추론 정확도는 극대화했습니다.
3. Engineering Verdict: 이것은 단순한 성능 향상이 아닌, "목적에 최적화된 설계가 가장 강력하다"는 시스템 반도체의 불변의 진리를 입증하는 과정입니다.
[아키텍트로 향하는 로드맵]
이 새로운 아키텍처의 혁신을 온전히 내 것으로 만들기 위해서는 기초 체력이 중요합니다. 현재 아마존에서 Best Seller로 많은 사랑을 받고 있는 Volume 1에서 다룬 MNIST 이미지 인식용 Verilog RTL 설계와 파이썬 검증의 기초를 탄탄히 다지셨다면, 이번 신간에서 다룰 고도의 시스템 설계 기법들을 훨씬 더 깊이 있고 수월하게 이해하실 수 있습니다.
단순히 칩을 사용하는 엔지니어를 넘어, 칩의 구조를 결정하고 한계를 돌파하는 '아키텍트(Architect)'를 꿈꾸는 분들을 위한 이 여정에 여러분을 초대합니다.
[시리즈의 시작: Volume 1 바로가기]
아직 첫 번째 발걸음을 떼지 않으셨다면, 아마존 베스트셀러로 검증된 Volume 1 "AI NPU System Design with Python and Verilog"을 확인하세요. 모든 소스코드는 책구매와 관계없이 공개됩니다.
🏆Amazon Microprocessor Design #1 New Release
🏆Amazon Compiler Design #3 Best Seller
🏆Amazon Microprocessor Design #4 Best Seller
👉아마존링크: https://www.amazon.com/dp/B0GLQVJWMK
* Volume1 무료제공 소스코드 GitHub URL:
https://github.com/estlit/AI_NPU_System_Design_v1
#시스템반도체 #반도체설계 #연산밀도 #아키텍트 #아마존베스트셀러 #신간예고
20/02/2026
'AI NPU Design System Volume2'를 준비하고 있습니다.
개발완료는 했고, 책으로 정리해서 Amazon출판할 예정인데, 미리 소개글과 책표지 드립니다^^.
간단히 설명드리자면 거대신경망 모델은 수백개의 신경망Layer를 사용합니다. 나의 미니 NPU는 단1개의 Layer를 사용하는데, 컬러이미지 인식을 위해서 1개의 NPU를 같은것 4개쓰서 확장하고, 1path가 아닌 4 path(cycle) loop을 돌려서 결국 다중 layer의 효과를 내고 앙상블 로직이 각각의 추론결과를 종합판정하여(표지그림 중앙에 있는EDU) 최종 추론결과를 결정한다는겁니다. 추론결과는 차, 고양이, 트럭, 새 등등 컬러이미지 입니다.
중요한것은 NPU내에 있는 모든 로직을 내가(독자가) 들여다보고 컨트롤할수 있고, 그 source code와 TB 학습방법을 모두 무료로 제공해서 실습할수 있습니다. 100개의 이미지에 대해서 추론한 32bit의 파이썬과 Verilog 결과가 단 1bit의 오차도 없이 Testbench를 이용하여 물결처럼 지나가면서 100% bit accuracy가 이미지마다 쏟아나오는 감동적인 메세지의 장관을 목격 할 수 있습니다.(이것은 volume1도 마찬가지입니다)
책제목: Advanced AI NPU System Design with Python and Verilog
부제: A Comprehensive Guide to Multi-Core Parallelism, Ensemble Decision Units, Bit-Accurate Optimization, and FPGA Implementation
책주제: 검증된 단일 NPU 코어의 재사용과 시스템 레벨 확장을 통한 복합 이미지 데이터셋(CIFAR-10)의 하드웨어적 정복
[소개] 지능의 확장, 한계를 넘는 NPU 아키텍처
"전작인 Volume 1에서 구축한 실질적인 NPU 설계 자산과 실무적 통찰력을 바탕으로, 이제 아키텍처의 확장성과 지능의 극대화를 향한 새로운 여정을 시작합니다."
본 도서는 v1에서 완성한 NPU의 핵심 메커니즘을 계승하고 심화하여, 100% 비트 정합성이라는 무결한 설계를 통해 하드웨어의 신뢰성을 극한으로 끌어올렸습니다. 특히 'No CPU, No GPU'라는 순수 RTL 설계 철학을 고수하면서도, FPGA의 제한된 자원을 효율적으로 활용하는 4-NPU, 4-Cycle 자원 재사용(Reuse) 전략을 제시합니다. 파이썬 학습 전략과 Verilog 구현이 완벽하게 동기화되는 이 과정을 통해, 독자들은 v1의 기초 위에서 실질적인 고성능 AI 반도체를 완성하는 진정한 전문가의 길로 들어서게 될 것입니다.
[핵심 기술 특장점]
• CIFAR-10 컬러 인식 및 100% Bit-Accuracy 달성: 32x32 컬러 이미지 인식을 지원하며, 파이썬 골든 모델과 Verilog RTL 간의 100% 비트 정합성을 구현했습니다. 이는 하드웨어 설계의 불확실성을 완전히 제거하며, 파이썬 학습 전략이 실리콘 위에서 그대로 재현됨을 의미합니다.
• 자원 재사용(Reuse)을 통한 Scalable 아키텍처: 최적화된 소형 NPU 코어를 4-NPU, 4-Cycle 전략으로 재사용하여 최소한의 실리콘 면적으로 최대의 추론 성능을 이끌어냅니다. 검증된 로직을 반복 사용함으로써 하드웨어 안정성을 확보하고 개발 기간(TAT)을 획기적으로 단축하는 실전적 설계 기법을 다룹니다.
• Pure RTL 기반의 'No CPU, No GPU' 시스템: 외부 CPU/GPU나 기존 NPU 하드 매크로를 전혀 사용하지 않고 오직 순수 RTL Logic으로만 전체 시스템을 구축했습니다. 이를 통해 'Memory Wall' 문제를 근본적으로 극복하고, 초저전력·초고속 추론 성능을 달성하는 과정을 상세히 공개합니다.
• FPGA 기반의 실전 구현: 보급형이자 강력한 성능을 가진 AMD사 Zynq-7020 FPGA를 타겟 플랫폼으로 선정하여, 독자들이 실제 환경에서 고성능 NPU를 직접 설계 및 구동하여 성능을 체감할 수 있도록 구성했습니다.
• 전 과정 Full Source Code 제공: 학습을 위한 파이썬 코드부터 설계의 핵심인 Verilog RTL, 그리고 비트 정합성을 검증하는 Testbench까지 모든 소스 코드를 아낌없이 제공하여 독자들이 즉시 프로젝트에 활용할 수 있도록 했습니다.
“작지만 완전한 신경망 모델을 하드웨어로 직접 구현하고 그 데이터의 흐름을 완벽히 장악해 보는 경험, 그것이야말로 복잡성의 미로를 단번에 관통하는 가장 정직하고 확실한 지름길입니다. 이 작은 설계의 발걸음이, 어느덧 당신 앞에 거대한 시스템 반도체의 세계로 향하는 문을 활짝 열어줄 것입니다. 본질을 이해한 당신에게, 더 이상의 복잡함은 장벽이 아니라 새로운 설계의 즐거움이 될 것입니다.”
09/02/2026
반갑습니다! AI NPU System Design의 저자, 숭실대학교 김효섭(Roger Kim)입니다.
오늘 저의 연구와 고민이 담긴 신간이 아마존(Amazon)에서 뜻깊은 성과를 거두었다는 소식을 전하게 되어 매우 기쁩니다.
🏆 Amazon Hot New Release #1 (Microprocessor Design 분야) 🏆 Amazon Best Seller Rank #6
대학 시절부터 교과서로 보며 존경해 마지않던 David Patterson, John Hennessy 교수님 같은 거장들의 저서들 사이에 제 이름이 나란히 걸려 있는 것을 보니 연구자로서 참으로 감개무량합니다.
AI 하드웨어 설계는 더 이상 소수 전문가만의 영역이 아니어야 합니다. 이 책과 페이지를 통해 Python과 Verilog를 활용한 실전 NPU 설계의 즐거움을 더 많은 엔지니어, 학생분들과 나누고 싶습니다.
이론에 그치지 않고 실제 작동하는 하드웨어를 만드는 기쁨을 함께 느껴보시길 바랍니다. 아래 깃허브에서 전체 소스 코드를 확인하실 수 있습니다.
💻공식 GitHub (소스 코드 공개): https://github.com/estlit
🛒 Amazon 도서 상세페이지: https://www.amazon.com/dp/B0GLQVJWMK
앞으로 이곳에서 NPU 아키텍처, 컴파일러, FPGA 구현에 관한 깊이 있는 인사이트를 꾸준히 공유하겠습니다. 많은 응원과 팔로우 부탁드립니다!
#숭실대학교 #반도체설계 #신간1위
GitHub · Change is constant. GitHub keeps you ahead. Join the world's most widely adopted, AI-powered developer platform where millions of developers, businesses, and the largest open source community build software that advances humanity.
Click here to claim your Sponsored Listing.
Location
Category
Website
Address
Seoul
06978