언어마다 스택(Stack)과 힙(Heap) 영역을 다루는 기준은 메모리 관리 방식과 언어 설계 철학에 따라 다릅니다.


1. 스택(Stack) 영역

스택은 함수 호출지역 변수를 위한 메모리를 관리하는 영역입니다.

특징

  • 자동 메모리 관리: 함수가 호출될 때 스택에 메모리가 할당되고, 함수가 종료되면 자동으로 해제됩니다.
  • 고정된 크기: 스택의 크기는 프로그램이 시작될 때 미리 정해지며, 크기를 초과하면 **스택 오버플로우(Stack Overflow)**가 발생합니다.
  • 빠른 접근: 스택은 LIFO(Last In, First Out) 방식으로 작동하며, 메모리 할당과 해제가 매우 빠릅니다.
  • 주요 용도:
    • 함수 호출 시 매개변수와 반환 주소 저장.
    • 함수 내부의 지역 변수 저장.

예시

 
void func() { int a = 10; // 지역 변수 (스택에 저장) int b = 20; // 지역 변수 (스택에 저장) } // 함수 종료 시 a와 b가 자동으로 해제됨

2. 힙(Heap) 영역

힙은 동적 메모리 할당을 위해 사용되는 메모리 영역입니다.

특징

  • 수동 메모리 관리: 개발자가 직접 메모리를 할당하고(malloc, calloc, realloc), 필요 없을 때 해제(free)해야 합니다.
  • 크기와 수명: 힙의 크기는 운영 체제에 의해 제한되며, 동적으로 필요한 만큼 할당할 수 있습니다. 메모리 해제를 명시적으로 하지 않으면 메모리 누수(Memory Leak)가 발생할 수 있습니다.
  • 느린 접근 속도: 스택보다 메모리 접근 속도가 느립니다.
  • 주요 용도: 프로그램 실행 중 메모리 크기를 동적으로 조절해야 하는 경우.

예시

 
#include <stdlib.h> // malloc, free 사용을 위한 헤더 void func() { int* ptr = (int*)malloc(sizeof(int)); // 힙에 메모리 할당 *ptr = 100; // 할당된 메모리에 값 저장 free(ptr); // 메모리 해제 }

스택과 힙의 비교

특성스택(Stack)힙(Heap)
메모리 관리 자동 관리 수동 관리 (malloc/free)
속도 빠름 느림
메모리 크기 고정 크기 가변 크기
사용 용도 지역 변수, 함수 호출 스택 등 동적 메모리 할당
수명 함수 실행 중 명시적으로 해제될 때까지

요약:
스택은 짧고 빠른 메모리 할당에 유리하며 지역 변수 및 함수 호출에 사용됩니다. 힙은 동적 메모리 할당을 위해 사용되며, 관리가 어렵지만 유연성이 높습니다. 프로그램의 목적과 요구사항에 따라 적절히 활용해야 합니다.

C 언어에서 **배열(array)**은 선언 방식과 사용 방법에 따라 스택(Stack) 또는 힙(Heap) 영역 중 하나에 저장될 수 있습니다.


1. 스택 영역에 할당되는 배열

  • 정적 배열 또는 지역 배열로 선언된 경우, 배열은 스택 영역에 저장됩니다.
  • 배열의 크기가 컴파일 시점에 고정되어야 하며, 함수가 종료되면 배열도 자동으로 해제됩니다.

예시

void func() { int arr[10]; // 크기가 고정된 정적 배열 (스택에 할당) arr[0] = 1; // 스택에 있는 배열에 접근 }
  • 배열 arr는 함수 func이 실행되는 동안만 유효합니다. 함수가 종료되면 arr는 사라집니다.

2. 힙 영역에 할당되는 배열

  • 배열의 크기를 동적으로 할당하는 경우, 배열은 힙 영역에 저장됩니다.
  • 동적 메모리 할당 함수(malloc, calloc, realloc)를 사용하며, 사용 후 free를 통해 명시적으로 해제해야 합니다.

예시

 
#include <stdlib.h> void func() { int* arr = (int*)malloc(10 * sizeof(int)); // 힙에 배열 동적 할당 arr[0] = 1; // 힙에 있는 배열에 접근 free(arr); // 메모리 해제 }
  • 배열 arr는 명시적으로 free를 호출하기 전까지 힙에 남아있습니다.

3. 전역 또는 정적 배열

  • 전역 배열이나 static 키워드로 선언된 배열은 **데이터 영역(Data Segment)**에 저장됩니다.
  • 프로그램 시작부터 종료 시까지 메모리에 유지됩니다.

예시

 
int arr[10]; // 전역 배열 (데이터 영역에 저장) void func() { static int arr2[10]; // 정적 배열 (데이터 영역에 저장) }

요약

배열 선언 방식메모리 영역특징
지역 배열 스택 함수 실행 중에만 유효, 자동 해제
동적 배열 동적 크기, 명시적 해제 필요 (free)
전역/정적 배열 데이터 영역 프로그램 종료 시까지 유지

배열이 스택 또는 에 할당되는지는 선언 방식에 따라 다릅니다. 크기가 고정된 지역 배열은 스택에, 동적으로 할당된 배열은 힙에 저장된다고 기억하면 됩니다.

 

C# 언어는 동적 할당이 없는 것이 아니며, **스택(Stack)**과 힙(Heap) 영역을 모두 사용합니다. 하지만 C#은 **가비지 컬렉션(Garbage Collection)**을 통해 메모리를 자동으로 관리하므로, 개발자가 명시적으로 메모리를 할당하거나 해제할 필요가 없습니다.


1. C#에서 스택과 힙의 역할

스택(Stack)

  • 값 타입(Value Type) 데이터가 저장되는 영역입니다.
    • 예: int, float, double, bool, struct 등.
  • 함수 호출 시 지역 변수와 매개변수도 스택에 저장됩니다.
  • 스택에 저장된 데이터는 함수가 종료되면 자동으로 해제됩니다.
  • 고정 크기 데이터를 저장하며, 할당 및 해제가 매우 빠릅니다.

힙(Heap)

  • 참조 타입(Reference Type) 데이터가 저장되는 영역입니다.
    • 예: class, string, array, object 등.
  • 힙에 저장된 객체는 프로그램이 실행되는 동안 가비지 컬렉터가 메모리를 관리합니다.
  • 힙은 가변 크기 데이터를 저장할 수 있으며, 스택보다 접근 속도가 느립니다.

2. C#에서 동적 할당

C#에서도 힙 메모리에서 동적 할당이 가능합니다. 다만, 동적 메모리 관리는 가비지 컬렉션을 통해 이루어지며, 개발자가 직접 해제하지 않아도 됩니다.

예시: 동적 할당

 
class Program { static void Main() { int[] arr = new int[10]; // 힙에 동적 할당된 배열 arr[0] = 1; string str = "Hello, World!"; // 힙에 동적 할당된 문자열 } // 가비지 컬렉터가 필요하지 않은 메모리를 자동 해제 }
  • 배열 arr와 문자열 str은 힙에 저장되며, 가비지 컬렉터가 필요 없어진 시점에 메모리를 자동 해제합니다.

3. 값 타입과 참조 타입의 차이

값 타입 (Value Type)

  • 값 자체가 스택에 저장됩니다.
  • 크기가 작고 고정된 데이터에 적합합니다.

참조 타입 (Reference Type)

  • 힙에 저장된 객체를 참조합니다.
  • 객체가 복잡하거나 크기가 가변적인 경우 적합합니다.
 
class Program { struct MyStruct { public int x; } class MyClass { public int x; } static void Main() { MyStruct structObj = new MyStruct { x = 10 }; // 스택에 저장 MyClass classObj = new MyClass { x = 10 }; // 힙에 저장 } }
  • structObj는 값 타입이므로 스택에 저장됩니다.
  • classObj는 참조 타입이므로 힙에 저장되고, 스택에는 힙 객체의 참조만 저장됩니다.

4. 가비지 컬렉션의 역할

C#에서는 동적 할당된 메모리(힙 메모리)는 **가비지 컬렉션(Garbage Collection)**이 자동으로 관리합니다.

  • 메모리를 명시적으로 해제(free)할 필요가 없습니다.
  • 객체가 더 이상 사용되지 않으면 가비지 컬렉터가 힙에서 메모리를 해제합니다.

결론

C#은 스택만 사용하는 것이 아닙니다.

  • 값 타입은 주로 스택에 저장되고, 참조 타입은 힙에 저장됩니다.
  • 동적 메모리 할당은 힙에서 이루어지며, 가비지 컬렉션이 자동으로 관리합니다.
    따라서 개발자는 스택과 힙을 직접 관리할 필요 없이, 언어의 메모리 관리 기능을 믿고 사용할 수 있습니다.

 

언어마다 **스택(Stack)**과 힙(Heap) 영역을 다루는 기준은 메모리 관리 방식언어 설계 철학에 따라 다릅니다. 핵심적인 차이점은 **값의 종류(값 타입 vs 참조 타입)**와 **메모리 관리 방식(자동 관리 vs 수동 관리)**입니다. 아래는 이를 기준으로 한 설명입니다.


1. 스택과 힙을 다루는 기준

(1) 데이터의 성격

  • 값 타입 (Value Type):
    • 크기가 고정되고 비교적 작은 데이터를 저장합니다.
    • 주로 스택에 저장됩니다.
    • 예: 기본 데이터 타입(정수, 실수, Boolean 등), 구조체 등.
    • 언어 예시: C, C++, C#, Java (기본 타입).
  • 참조 타입 (Reference Type):
    • 크기가 가변적이거나 복잡한 데이터를 저장합니다.
    • 데이터는 에 저장되고, 스택에는 해당 데이터를 가리키는 참조만 저장됩니다.
    • 예: 객체, 배열, 문자열 등.
    • 언어 예시: C#, Java, Python.

(2) 메모리 관리 방식

  • 자동 메모리 관리 (가비지 컬렉션):
    • 메모리 할당과 해제를 런타임에 자동으로 처리합니다.
    • 주로 을 적극적으로 활용하며, 필요 없어진 메모리는 가비지 컬렉터가 해제합니다.
    • 언어 예시: C#, Java, Python, JavaScript.
  • 수동 메모리 관리:
    • 개발자가 직접 메모리를 할당(malloc)하고 해제(free)합니다.
    • 스택은 자동으로 관리되지만, 은 명시적으로 관리해야 합니다.
    • 언어 예시: C, C++.

(3) 성능과 용도

  • 스택:
    • 빠른 속도, 고정된 크기의 데이터에 적합.
    • 지역 변수, 함수 호출 스택, 값 타입 데이터 등에 사용.
  • 힙:
    • 느리지만 유연한 크기의 데이터에 적합.
    • 동적 메모리 할당, 참조 타입 데이터 등에 사용.

2. 언어별 스택과 힙 사용 기준

C 언어

  • 스택: 지역 변수, 함수 매개변수 등 고정 크기 데이터.
  • 힙: 동적 할당(malloc, calloc, realloc)된 데이터.
  • 메모리 관리: 스택은 자동, 힙은 수동(free 필요).

C++

  • 스택: 지역 변수, 기본 타입 데이터.
  • 힙: 동적 할당 (new, delete).
  • 메모리 관리: 스택은 자동, 힙은 수동 또는 스마트 포인터로 자동 관리 가능.

Java

  • 스택: 기본 데이터 타입(int, float 등), 참조 변수의 주소.
  • 힙: 객체(new로 생성), 배열, 문자열.
  • 메모리 관리: 가비지 컬렉터가 힙 메모리를 자동 관리.

C#

  • 스택: 값 타입 데이터(int, struct 등), 참조 변수의 주소.
  • 힙: 참조 타입 데이터(클래스, 배열, 문자열).
  • 메모리 관리: 가비지 컬렉터로 힙 메모리를 자동 관리.

Python

  • 스택: 함수 호출 스택.
  • 힙: 모든 객체(정수, 문자열, 리스트 등).
  • 메모리 관리: 가비지 컬렉터로 힙 메모리를 자동 관리.

JavaScript

  • 스택: 원시 타입 데이터(Number, String, Boolean 등).
  • 힙: 객체(Object, Array, Function 등).
  • 메모리 관리: 가비지 컬렉터로 힙 메모리를 자동 관리.

3. 스택과 힙 사용에 영향을 주는 요소

  1. 언어의 메모리 관리 철학:
    • C, C++: 개발자가 세밀하게 관리.
    • Java, C#, Python: 자동 메모리 관리(가비지 컬렉터).
  2. 값의 생명 주기:
    • 짧은 생명 주기의 데이터 → 스택.
    • 긴 생명 주기 또는 크기가 가변적인 데이터 → 힙.
  3. 데이터 크기와 유연성:
    • 고정 크기 → 스택.
    • 가변 크기 또는 동적 크기 → 힙.

결론

언어마다 스택의 사용 기준은 데이터의 성격(값 타입 vs 참조 타입)과 메모리 관리 방식(수동 vs 자동)에 따라 결정됩니다. **저수준 언어(C, C++)**에서는 개발자가 직접 메모리를 관리해야 하지만, **고수준 언어(Java, Python)**에서는 자동 관리 기능이 강화되어 사용자가 스택과 힙의 구분을 신경 쓰지 않아도 되는 구조로 설계됩니다.

변형적인 file recv/send(windows)

1. 파일이름을 보낸다.(서버에서 파일중복검사를 하지 않고, YYYYMMDDHHMISS_FILENAME으로 처리)

2. 파일내용을 읽어서 보낸다.

windows_send_byte.c
0.00MB
windows_recv_byte.cs
0.00MB

 

 

문의)xterm92@naver.com

일반적인 file send/recv(windows src)

1. 클라이언트에서 파일사이즈를 보내고

2. 클라이언트에서 파일이름을 보내고

3. 파일을 읽어서 전송

 

 

 

dirent.h
0.01MB
windows_file_recv.c
0.01MB
windows_file_send.c
0.00MB

Compute Unified Device Architecture

NVIDIA가 만든 GPGPU 플랫폼 및 API 모델이다.

CUDA 플랫폼은 GPU의 가상 명령어셋을 사용할 수 있도록 만들어주는 소프트웨어 레이어이며, NVIDIA가 만든 CUDA 코어가 장착된 GPU에서 작동한다. 발빠른 출시 덕분에 수 많은 개발자들을 유입시켜, 사실상 엔비디아 생태계의 핵심으로 불린다. 물론 GPU 성능 차이도 있지만, 딥러닝이 각각 2012년[2]과 2016년[3]에 제대로 터지기 전부터 빠른 선구안을 취하여 업계 개발자들을 해당 플랫폼에 락인시킨 것이 매우 크다.[4]

2006년 11월에 G80 마이크로아키텍처와 함께 처음 발표된 후, 2007년 6월 23일에 CUDA SDK가 처음 배포되었다. 초기에는 C, C++만 지원했지만 10여 년이 지난 지금은 포트란이나 C#등 다양한 언어에서 사용이 가능하다. 그러나 기본적인 구조 자체는 CUDA를 설치할 때 설치되는 전용 CUDA 컴파일러가 cuda 코드 파일을 컴파일하고, 그 다음에 C++나 C# 같은 기존 언어 컴파일러에 결과물을 투입하는 방식. 버전 정보는 이곳에서 확인할 수 있다.

새로운 마이크로아키텍처 혹은 새로운 GPU가 나올 때마다 CUDA Compute Capability가 올라갔기 때문에 오래된 GPU의 경우 CUDA Compute Capability가 낮아서 일부 CUDA 기반 응용프로그램과 호환이 안될 수 있으나, 과거에 개발된 CUDA 기반 응용프로그램은 최신 GPU에서도 잘 작동한다. 또한, CUDA가 대두되면서 2007년에 GPGPU 전용인 TESLA[5] 제품군이 나왔는데, TESLA 제품군은 ECC 메모리를 탑재하여 메모리 오류를 정정하며, GeForce에서 쓰이는 같은 아키텍처 칩셋이라도 추가 명령어 몇 개를 더 지원한다. 다만 차세대 아키텍처의 GeForce에선 이전 세대의 CUDA 명령어를 전부 흡수하여 지원하는 경향이 있으므로 최신 GeForce 제품을 써도 이전 세대의 Tesla 전용 명령어를 쓸 수 있다.

GPU에 따른 CUDA Compute Capability는 이 링크를 참고하면 되며, 아래는 아키텍처 또는 GPU별로 대략적으로 정돈하였다. CUDA SDK 버전과는 다르므로 구분할 때 주의할 것.
G80 : 1.0
G84, G86, G92, G94, G96, G98 : 1.1
GT215, GT216, GT218 : 1.2
GT200 : 1.3
Fermi : 2.0~2.1
Kepler 1.0 : 3.0~3.7
Kepler 2.0 : 3.5~3.7
Maxwell 1.0 : 5.0~5.3
Maxwell 2.0 : 5.2~5.3
Pascal : 6.0~6.2
Volta : 7.0
Turing : 7.5
Ampere: 8.0

CUDA와 비슷한 GPGPU 기술로 OpenCL과 DirectCompute가 있지만 이들은 표준을 기준으로 만들어졌기 때문에 로우 레벨 API의 하드웨어에 있는 고급 기능까지 사용하여 한계까지 성능을 끌어내긴 어렵다. 즉, 다른 기술은 D3D API 등을 경유하기 때문에 시간이 걸리지만 쿠다는 바로 하드웨어에 엑세스하여 컨트롤할 수 있다.

하지만 이는 쿠다의 단점으로 이어지는데, 그래픽 기능과의 연동을 전제로 만들어진 DirectCompute에 비해 그래픽 출력 용도로 사용시 오버헤드가 커진다.

그래픽 카드의 GPU는 대량의 데이터에 한 가지 연산을 적용하는 경우가 많기 때문에 단순화된 연산 유닛(코어)을 천여 개씩 탑재하고 있다.[6] 따라서 SIMD(Single Instruction Multiple Data) 형태의 병렬화가 가능한 연산에 GPU를 활용해서 속도를 올리려는 시도는 예전부터 있어 왔다. 그러나 원래 그래픽을 처리하라고 설계된 그래픽스 파이프라인을 가지고 일반적인 병렬 연산을 수행하는 것은 매우 골치아픈 일이었다. 프로그래머가 일일이 GPU의 세부 사항을 다 신경써야 했기 때문이다.

CUDA 프로그램은 스트림 프로세싱[7]에 기반하며, 그 작성에는 C/C++ 언어에 동시에 실행할 쓰레드 개수 등을 선언하는데 사용되는 CUDA 전용 문법을 추가한 언어를 사용한다. CUDA 코드는 대략 GPU 안에서만 돌아가는 함수(커널이라고 부른다)를 호스트(CPU)에서 호출하는 형태로 되어 있다.

CUDA는 GPU의 메모리 모델을 추상화해서 좀 더 편하게 GPU를 이용할 수 있도록 했다. 하지만 여전히 CUDA로 최대한의 속도 증가를 얻으려면 GPU의 메모리 구조에 대해서 잘 알아야 한다. 윈도우 한정으로 CUDA 프로그래밍의 귀찮음을 덜어 주기 위해서 만들어진 BSGP(Bulk-Synchronous GPU Programming)라는 녀석이 존재한다. BSGP는 CUDA의 기계어 명령번역을 사용한 별도 언어다. 레이 트레이싱 류의 coherence가 낮은 작업에선 CUDA보다 성능향상이 있다. 다만 BSGP가 만능은 아니다. 반대로 메모리 참조 연속성이 강한 작업에선 CUDA보다 성능이 낮아진다.

최근에 CUDA를 더 보완한 OpenACC라는 게 나왔다. 좀 더 추상화가 돼있어서 코딩하기 더 편하다고 한다. 마이크로소프트에서는 C++ AMP라는 걸 만들었는데 OpenACC의 DirectCompute 버전 정도라 볼 수 있다. 그래도 아직은 일반 프로그래머가 사전지식 없이 덤빌 만한 난이도는 아니다. 단지 전에 비해 진입장벽이 많이 낮아졌을 뿐.

R337 드라이버 이후부터는 Geforce 제품군에서의 CUDA 기반 비디오 인코딩/디코딩 라이브러리가 삭제되었다. NVENC[8]를 밀기 위해서라는데(이전의 쿠다 인코더를 대체) Tesla나 Quadro 제품군은 정상적으로 사용이 가능하다. 이에 CUDA 가속을 사용하는 코덱의 사용이 불가능해지거나, 이전의 라이브러리 파일을 따로 넣지 않으면 미디어 편집 프로그램들에서의 호환성에 문제가 생겼다. 황사장: 꼬우면 쿼드로 사시든가

딥러닝을 도와주는 여러 라이브러리도 CUDA와 함께 제공된다. cuDNN, Convolution 연산을 더 빠르게 만들어주는 cuFFT[9], 선형대수 모듈인 cuBLAS 등 사실상 필요한 라이브러리들은 대부분 구현되어 있다. 하지만 그래도 사용은 어렵다. TensorFlow나 PyTorch 프레임워크가 이와 같은 라이브러리들을 사용한다.

인공지능을 위한 GPU(CUDA 설치)

 인공지능, 블록체인, GPU
"인공지능 코드를 테스트해보려면 GPU가 좋아야 해.', '인공지능을 위해 개발된 GPU'
'비트코인으로 인한 GPU 대란' 등의 이야기를 심심찮게 들어봤을 것이다. 인공지능와 블록체인에는 왜 GPU로 연산을 하는 것일까?

인공지능과 블록체인은  '쉬운 연산을 엄청나게 많이' 해야 하기 때문이다.
다음 영상을 보면 아주 쉽게 이해될 것이다.

인공지능은 행렬 연산을 엄청나게 많이 해야 하고 블록 체인은 엄청나게 많은 무작위 숫자(난수)를 대입해야 한다. 따라서 좋은 GPU는 연산 시간을 줄이는데 매우 유용하다.
 GPGPU(General-Purpose computing on Grphics Processing Unit)
원래 GPU의 목적은 CPU의 보조 장치로써 그래픽 처리만 담당했다. 하지만 이후 GPU가 행렬과 벡터 연산에 유용하게 쓰일 수 있다는 점에서 착안해 CPU 대신 GPU로 그래픽 처리 뿐만 아니라 행렬, 벡터 처리까지 가능하도록 만든 것이다. 이렇게 일반적인 목적의 연산(General-Purpose computing)도 처리하는 GPU를 GPGPU 라고 부른다.
그 덕분에 인공지능 학습 속도가 과거에 비해 크게 향상되었다.
필자도 인공지능 공부를 위해 좋은 GPU를 구입해서 파이토치를 구동시켜봤다.
GPU가 일을 하고 있나 확인하기 위해 작업관리자로 확인을 해봤다.

사실 GPU를 사용하기 위해서는 GPU를 사용하기 위한 프로그램을 설치해야 한다.
우리가 GPU를 사용하자고 컴퓨터에 알려주지 않았기 때문에 러닝을 돌리면 컴퓨터는 CPU로 연산을 한다.
아래부터는 CUDA라는 프로그램을 설치하는 방법에 대한 글입니다. 현재 설치할 계획이 없으시다면 건너뛰어도 괜찮습니다! 단순 호기심에 설치하다가는 하루를 그냥 날려버릴 수도 있어요!


CUDA
GPU로 러닝을 돌리기 위해 사용하는 프로그램이 바로 이 CUDA이다.
CUDA는 GPU 제조회사로 유명한 'NVIDIA' 회사용 프로그램이다. (GPU가 NVIDIA 외 다른 회사라면 다른 프로그램을 사용해야 함.)
아래는 설치방법이다. 그 외에도 설치방법은 인터넷에 검색하면 쉽게 찾을 수 있다.

꼭 드라이버 설치 → CUDA 설치 → cuDNN 설치 순서로 진행하자.
설치 전에 설치할 tensorflow 버전, 파이썬 버전, CUDA버전, cuDNN버전이 서로 호환되는지 꼭 확인하고 설치하자!! (정말 매우매우 중요하다. 이거 잘못하면 삽질의 늪에 빠진다.)

GPU 드라이버 호환 확인
GPU 드라이버 설치 후 cmd 창에 nvidia-smi 라고 쳤을 때 Driver Version 값이 높을 수록 좋다. (여기서 (Driver Version에 나오는 숫자는 최대로 설치할 수 있는 버전을 의미한다.
텐서플로우와 호환성을 따져보고 더 낮은 버전을 설치해도 괜찮다.)
예를들어 CUDA11.4.0GA 버전의 툴킷은 Driver Version 값이 471.11(윈도우 기준) 이상이어야 설치해도 문제 없다는 의미이다.

나머지 버전 호환
본인이 설치할 수 있는 CUDA 버전을 확인한 후 그에 맞게 텐서플로우, 파이썬, cuDNN 버전을 맞추면 된다. 
(가능하면 conda 가상환경에서 사용하는 것을 추천한다.)
설치가 잘 되었다면 nvcc -V 명령어로 잘 설치되었는지 확인할 수 있다. 
이 명령어가 실행되지 않으면 잘못 설치한 것이다.

정리
개발환경을 세팅하는 것은 귀찮고 어렵다. 특히 CUDA같은 경우 인공지능 프레임워크와 GPU간의 호환이 전부 맞아 떨어져야 사용이 가능하다. 
필자도 다시 지우고 깔기를 엄청 반복했다.
좋은 GPU를 사놓고 CUDA 설정을 못해서 CPU로 인공지능 공부하는 사람이 없어야 한다.

[DirectX 12] 기본지식 - CPU / GPU 동기화


한 시스템에 CPU와 GPU가 병렬로 실행되다 보니 동기화 문제가 발생한다. 
예를 들어 그리고자 하는 어떤 기하구조의 위치를 R이라는 자원에 담는다고 하자. 
그 기하구조를 위치 p1에 그리려는 목적으로 CPU는 위치 p1을 R에 추가하고, R을 참조하는 그리기 명령 C를 명령 대기열에 추가한다.

명령 대기열에 명령을 추가하는 연산은 CPU의 실행을 차단하지 않으므로, CPU는 계속해서 다음 단계로 넘어간다. 
만약 GPU가 그리기 명령 C를 실행하기 전에 CPU가 새 위치 p2를 R에 추가해서 R에 있던 기존 p1을 덮어쓰면, 기하구조는 의도했던 위치에 그려지지 않게 된다.

이런 문제의 해결책은 GPU가 명령 대기열의 명령들 중 특정 지점까지의 모든 명령을 다 처리할 때까지 CPU를 기다리게 하는 것이다. 
대기열의 특정 지점까지의 명령을 처리하는 것을 가리켜 명령 대기열을 비운다 또는 방출한다(Flush)라고 말한다.

이때 필요한 것이 바로 울타리(Fence)이다. 
울타리(펜스)는 ID3D12Fence 인터페이스로 대표되며, GPU와 CPU의 동기화를 위한 수단으로 쓰인다. 
다음은 펜스 객체를 생성하는 메서드이다.


사용 예)
m_pd3dDevice->CreateFence(0, D3D12_FENCE_FLAG_NONE, 
__uuidof(ID3D12Fence), (void**)&m_pd3dFence);

펜스 객체는 UINT64 값 하나를 관리한다. 이 값은 시간상의 특정 펜스 지점을 식별하는 정수이다. 이 값을 0으로 두고, 새 펜스 지점을 만들 때마다 이 값을 1씩 증가시킨다. UINT64의 최대값은 엄청나게 큰 값이기 때문에(약 1.8천경 정도 된다) 아무리 많은 시간동안 게임을 실행하며 이 값을 1씩 증가시킨다고 해도 이 값이 최대 값을 넘어간다는 걱정은 하지 않아도 된다.

다음은 펜스를 이용해서 명령 대기열을 비우는 방법을 보여주는 코드이다.
// 현재 펜스 지점까지의 명령들을 표시하도록 펜스 값을 전진
m_nFenceValue++;

// 새 펜스 지점을 설정하는 명령을 명령 대기열에 추가한다.
m_pd3dCommandQueue->Signal(m_pd3dFence, m_nFenceValue);

// GPU가 이 펜스 지점까지의 명령들을 완료할 때까지 기다린다.
if(m_pd3dFence->GetCompletedValue() < m_nFenceValue)
{
// GPU가 현재 펜스 지점에 도달했으면 이벤트를 발동시킨다.
m_pd3dFence->SetEventOnCompletion(m_nFenceValue, m_hFenceEvent);

// GPU가 현재 펜스 지점에 도달했음을 뜻하는 이벤트를 기다린다.
::WaitForSignalObject(m_hFenceEvent, INFINITE);
}
이 코드를 도식화하면 다음과 같다.(생략)


위 숫자 순으로 보면 어떤 순서로 돌아가는지 알 수 있을것이다. 
GPU는 현재 프레임에서 필요한 명령들을 완료하면 펜스 객체의 값을 하나 증가시키는 명령을 실행하게 된다. 
CPU는 그 작업을 하기 전까지 대기하는 것이다.

반응형

(adsbygoogle = window.adsbygoogle || []).push({});

window.ReactionButtonType = 'reaction';
window.ReactionApiUrl = '//lipcoder.tistory.com/reaction';
window.ReactionReqBody = {
entryId: 54
}

case1)
gcc -c send.c
gcc -o send send.o -lws2_32

case2)
gcc -o send send.o -lwsock32

/*
C:\Users\Downloads>gcc -c a12.c
a12.c: In function 'main':
a12.c:8:2: warning: implicit declaration of function 'scanf_s' [-Wimplicit-function-declaration] scanf_s("%s", NN, sizeof(NN));

*/

해당 오류는 VSCode에서 scanf_s 함수를 사용했을 때 발생한다.
scanf_s는 기존 scanf 함수에 비해 보안이 강화된 함수로 Visual Studio에만 내장되어 있는 함수이다.
따라서 사용하기 위해선 해당 헤더를 따로 추가해주어야 한다.

/*
소스
*/
#include <stdio.h>

int main(int argc, char *argv[])
{
    char NN[5];

    printf(">>");
    scanf_s("%s", NN, sizeof(NN));
    printf(">>[%s]\n",NN);

    return 0;
}

 

+ Recent posts