변형적인 file recv/send(windows)

1. 파일이름을 보낸다.(서버에서 파일중복검사를 하지 않고, YYYYMMDDHHMISS_FILENAME으로 처리)

2. 파일내용을 읽어서 보낸다.

windows_send_byte.c
0.00MB
windows_recv_byte.cs
0.00MB

 

 

문의)xterm92@naver.com

일반적인 file send/recv(windows src)

1. 클라이언트에서 파일사이즈를 보내고

2. 클라이언트에서 파일이름을 보내고

3. 파일을 읽어서 전송

 

 

 

dirent.h
0.01MB
windows_file_recv.c
0.01MB
windows_file_send.c
0.00MB

Compute Unified Device Architecture

NVIDIA가 만든 GPGPU 플랫폼 및 API 모델이다.

CUDA 플랫폼은 GPU의 가상 명령어셋을 사용할 수 있도록 만들어주는 소프트웨어 레이어이며, NVIDIA가 만든 CUDA 코어가 장착된 GPU에서 작동한다. 발빠른 출시 덕분에 수 많은 개발자들을 유입시켜, 사실상 엔비디아 생태계의 핵심으로 불린다. 물론 GPU 성능 차이도 있지만, 딥러닝이 각각 2012년[2]과 2016년[3]에 제대로 터지기 전부터 빠른 선구안을 취하여 업계 개발자들을 해당 플랫폼에 락인시킨 것이 매우 크다.[4]

2006년 11월에 G80 마이크로아키텍처와 함께 처음 발표된 후, 2007년 6월 23일에 CUDA SDK가 처음 배포되었다. 초기에는 C, C++만 지원했지만 10여 년이 지난 지금은 포트란이나 C#등 다양한 언어에서 사용이 가능하다. 그러나 기본적인 구조 자체는 CUDA를 설치할 때 설치되는 전용 CUDA 컴파일러가 cuda 코드 파일을 컴파일하고, 그 다음에 C++나 C# 같은 기존 언어 컴파일러에 결과물을 투입하는 방식. 버전 정보는 이곳에서 확인할 수 있다.

새로운 마이크로아키텍처 혹은 새로운 GPU가 나올 때마다 CUDA Compute Capability가 올라갔기 때문에 오래된 GPU의 경우 CUDA Compute Capability가 낮아서 일부 CUDA 기반 응용프로그램과 호환이 안될 수 있으나, 과거에 개발된 CUDA 기반 응용프로그램은 최신 GPU에서도 잘 작동한다. 또한, CUDA가 대두되면서 2007년에 GPGPU 전용인 TESLA[5] 제품군이 나왔는데, TESLA 제품군은 ECC 메모리를 탑재하여 메모리 오류를 정정하며, GeForce에서 쓰이는 같은 아키텍처 칩셋이라도 추가 명령어 몇 개를 더 지원한다. 다만 차세대 아키텍처의 GeForce에선 이전 세대의 CUDA 명령어를 전부 흡수하여 지원하는 경향이 있으므로 최신 GeForce 제품을 써도 이전 세대의 Tesla 전용 명령어를 쓸 수 있다.

GPU에 따른 CUDA Compute Capability는 이 링크를 참고하면 되며, 아래는 아키텍처 또는 GPU별로 대략적으로 정돈하였다. CUDA SDK 버전과는 다르므로 구분할 때 주의할 것.
G80 : 1.0
G84, G86, G92, G94, G96, G98 : 1.1
GT215, GT216, GT218 : 1.2
GT200 : 1.3
Fermi : 2.0~2.1
Kepler 1.0 : 3.0~3.7
Kepler 2.0 : 3.5~3.7
Maxwell 1.0 : 5.0~5.3
Maxwell 2.0 : 5.2~5.3
Pascal : 6.0~6.2
Volta : 7.0
Turing : 7.5
Ampere: 8.0

CUDA와 비슷한 GPGPU 기술로 OpenCL과 DirectCompute가 있지만 이들은 표준을 기준으로 만들어졌기 때문에 로우 레벨 API의 하드웨어에 있는 고급 기능까지 사용하여 한계까지 성능을 끌어내긴 어렵다. 즉, 다른 기술은 D3D API 등을 경유하기 때문에 시간이 걸리지만 쿠다는 바로 하드웨어에 엑세스하여 컨트롤할 수 있다.

하지만 이는 쿠다의 단점으로 이어지는데, 그래픽 기능과의 연동을 전제로 만들어진 DirectCompute에 비해 그래픽 출력 용도로 사용시 오버헤드가 커진다.

그래픽 카드의 GPU는 대량의 데이터에 한 가지 연산을 적용하는 경우가 많기 때문에 단순화된 연산 유닛(코어)을 천여 개씩 탑재하고 있다.[6] 따라서 SIMD(Single Instruction Multiple Data) 형태의 병렬화가 가능한 연산에 GPU를 활용해서 속도를 올리려는 시도는 예전부터 있어 왔다. 그러나 원래 그래픽을 처리하라고 설계된 그래픽스 파이프라인을 가지고 일반적인 병렬 연산을 수행하는 것은 매우 골치아픈 일이었다. 프로그래머가 일일이 GPU의 세부 사항을 다 신경써야 했기 때문이다.

CUDA 프로그램은 스트림 프로세싱[7]에 기반하며, 그 작성에는 C/C++ 언어에 동시에 실행할 쓰레드 개수 등을 선언하는데 사용되는 CUDA 전용 문법을 추가한 언어를 사용한다. CUDA 코드는 대략 GPU 안에서만 돌아가는 함수(커널이라고 부른다)를 호스트(CPU)에서 호출하는 형태로 되어 있다.

CUDA는 GPU의 메모리 모델을 추상화해서 좀 더 편하게 GPU를 이용할 수 있도록 했다. 하지만 여전히 CUDA로 최대한의 속도 증가를 얻으려면 GPU의 메모리 구조에 대해서 잘 알아야 한다. 윈도우 한정으로 CUDA 프로그래밍의 귀찮음을 덜어 주기 위해서 만들어진 BSGP(Bulk-Synchronous GPU Programming)라는 녀석이 존재한다. BSGP는 CUDA의 기계어 명령번역을 사용한 별도 언어다. 레이 트레이싱 류의 coherence가 낮은 작업에선 CUDA보다 성능향상이 있다. 다만 BSGP가 만능은 아니다. 반대로 메모리 참조 연속성이 강한 작업에선 CUDA보다 성능이 낮아진다.

최근에 CUDA를 더 보완한 OpenACC라는 게 나왔다. 좀 더 추상화가 돼있어서 코딩하기 더 편하다고 한다. 마이크로소프트에서는 C++ AMP라는 걸 만들었는데 OpenACC의 DirectCompute 버전 정도라 볼 수 있다. 그래도 아직은 일반 프로그래머가 사전지식 없이 덤빌 만한 난이도는 아니다. 단지 전에 비해 진입장벽이 많이 낮아졌을 뿐.

R337 드라이버 이후부터는 Geforce 제품군에서의 CUDA 기반 비디오 인코딩/디코딩 라이브러리가 삭제되었다. NVENC[8]를 밀기 위해서라는데(이전의 쿠다 인코더를 대체) Tesla나 Quadro 제품군은 정상적으로 사용이 가능하다. 이에 CUDA 가속을 사용하는 코덱의 사용이 불가능해지거나, 이전의 라이브러리 파일을 따로 넣지 않으면 미디어 편집 프로그램들에서의 호환성에 문제가 생겼다. 황사장: 꼬우면 쿼드로 사시든가

딥러닝을 도와주는 여러 라이브러리도 CUDA와 함께 제공된다. cuDNN, Convolution 연산을 더 빠르게 만들어주는 cuFFT[9], 선형대수 모듈인 cuBLAS 등 사실상 필요한 라이브러리들은 대부분 구현되어 있다. 하지만 그래도 사용은 어렵다. TensorFlow나 PyTorch 프레임워크가 이와 같은 라이브러리들을 사용한다.

인공지능을 위한 GPU(CUDA 설치)

 인공지능, 블록체인, GPU
"인공지능 코드를 테스트해보려면 GPU가 좋아야 해.', '인공지능을 위해 개발된 GPU'
'비트코인으로 인한 GPU 대란' 등의 이야기를 심심찮게 들어봤을 것이다. 인공지능와 블록체인에는 왜 GPU로 연산을 하는 것일까?

인공지능과 블록체인은  '쉬운 연산을 엄청나게 많이' 해야 하기 때문이다.
다음 영상을 보면 아주 쉽게 이해될 것이다.

인공지능은 행렬 연산을 엄청나게 많이 해야 하고 블록 체인은 엄청나게 많은 무작위 숫자(난수)를 대입해야 한다. 따라서 좋은 GPU는 연산 시간을 줄이는데 매우 유용하다.
 GPGPU(General-Purpose computing on Grphics Processing Unit)
원래 GPU의 목적은 CPU의 보조 장치로써 그래픽 처리만 담당했다. 하지만 이후 GPU가 행렬과 벡터 연산에 유용하게 쓰일 수 있다는 점에서 착안해 CPU 대신 GPU로 그래픽 처리 뿐만 아니라 행렬, 벡터 처리까지 가능하도록 만든 것이다. 이렇게 일반적인 목적의 연산(General-Purpose computing)도 처리하는 GPU를 GPGPU 라고 부른다.
그 덕분에 인공지능 학습 속도가 과거에 비해 크게 향상되었다.
필자도 인공지능 공부를 위해 좋은 GPU를 구입해서 파이토치를 구동시켜봤다.
GPU가 일을 하고 있나 확인하기 위해 작업관리자로 확인을 해봤다.

사실 GPU를 사용하기 위해서는 GPU를 사용하기 위한 프로그램을 설치해야 한다.
우리가 GPU를 사용하자고 컴퓨터에 알려주지 않았기 때문에 러닝을 돌리면 컴퓨터는 CPU로 연산을 한다.
아래부터는 CUDA라는 프로그램을 설치하는 방법에 대한 글입니다. 현재 설치할 계획이 없으시다면 건너뛰어도 괜찮습니다! 단순 호기심에 설치하다가는 하루를 그냥 날려버릴 수도 있어요!


CUDA
GPU로 러닝을 돌리기 위해 사용하는 프로그램이 바로 이 CUDA이다.
CUDA는 GPU 제조회사로 유명한 'NVIDIA' 회사용 프로그램이다. (GPU가 NVIDIA 외 다른 회사라면 다른 프로그램을 사용해야 함.)
아래는 설치방법이다. 그 외에도 설치방법은 인터넷에 검색하면 쉽게 찾을 수 있다.

꼭 드라이버 설치 → CUDA 설치 → cuDNN 설치 순서로 진행하자.
설치 전에 설치할 tensorflow 버전, 파이썬 버전, CUDA버전, cuDNN버전이 서로 호환되는지 꼭 확인하고 설치하자!! (정말 매우매우 중요하다. 이거 잘못하면 삽질의 늪에 빠진다.)

GPU 드라이버 호환 확인
GPU 드라이버 설치 후 cmd 창에 nvidia-smi 라고 쳤을 때 Driver Version 값이 높을 수록 좋다. (여기서 (Driver Version에 나오는 숫자는 최대로 설치할 수 있는 버전을 의미한다.
텐서플로우와 호환성을 따져보고 더 낮은 버전을 설치해도 괜찮다.)
예를들어 CUDA11.4.0GA 버전의 툴킷은 Driver Version 값이 471.11(윈도우 기준) 이상이어야 설치해도 문제 없다는 의미이다.

나머지 버전 호환
본인이 설치할 수 있는 CUDA 버전을 확인한 후 그에 맞게 텐서플로우, 파이썬, cuDNN 버전을 맞추면 된다. 
(가능하면 conda 가상환경에서 사용하는 것을 추천한다.)
설치가 잘 되었다면 nvcc -V 명령어로 잘 설치되었는지 확인할 수 있다. 
이 명령어가 실행되지 않으면 잘못 설치한 것이다.

정리
개발환경을 세팅하는 것은 귀찮고 어렵다. 특히 CUDA같은 경우 인공지능 프레임워크와 GPU간의 호환이 전부 맞아 떨어져야 사용이 가능하다. 
필자도 다시 지우고 깔기를 엄청 반복했다.
좋은 GPU를 사놓고 CUDA 설정을 못해서 CPU로 인공지능 공부하는 사람이 없어야 한다.

[DirectX 12] 기본지식 - CPU / GPU 동기화


한 시스템에 CPU와 GPU가 병렬로 실행되다 보니 동기화 문제가 발생한다. 
예를 들어 그리고자 하는 어떤 기하구조의 위치를 R이라는 자원에 담는다고 하자. 
그 기하구조를 위치 p1에 그리려는 목적으로 CPU는 위치 p1을 R에 추가하고, R을 참조하는 그리기 명령 C를 명령 대기열에 추가한다.

명령 대기열에 명령을 추가하는 연산은 CPU의 실행을 차단하지 않으므로, CPU는 계속해서 다음 단계로 넘어간다. 
만약 GPU가 그리기 명령 C를 실행하기 전에 CPU가 새 위치 p2를 R에 추가해서 R에 있던 기존 p1을 덮어쓰면, 기하구조는 의도했던 위치에 그려지지 않게 된다.

이런 문제의 해결책은 GPU가 명령 대기열의 명령들 중 특정 지점까지의 모든 명령을 다 처리할 때까지 CPU를 기다리게 하는 것이다. 
대기열의 특정 지점까지의 명령을 처리하는 것을 가리켜 명령 대기열을 비운다 또는 방출한다(Flush)라고 말한다.

이때 필요한 것이 바로 울타리(Fence)이다. 
울타리(펜스)는 ID3D12Fence 인터페이스로 대표되며, GPU와 CPU의 동기화를 위한 수단으로 쓰인다. 
다음은 펜스 객체를 생성하는 메서드이다.


사용 예)
m_pd3dDevice->CreateFence(0, D3D12_FENCE_FLAG_NONE, 
__uuidof(ID3D12Fence), (void**)&m_pd3dFence);

펜스 객체는 UINT64 값 하나를 관리한다. 이 값은 시간상의 특정 펜스 지점을 식별하는 정수이다. 이 값을 0으로 두고, 새 펜스 지점을 만들 때마다 이 값을 1씩 증가시킨다. UINT64의 최대값은 엄청나게 큰 값이기 때문에(약 1.8천경 정도 된다) 아무리 많은 시간동안 게임을 실행하며 이 값을 1씩 증가시킨다고 해도 이 값이 최대 값을 넘어간다는 걱정은 하지 않아도 된다.

다음은 펜스를 이용해서 명령 대기열을 비우는 방법을 보여주는 코드이다.
// 현재 펜스 지점까지의 명령들을 표시하도록 펜스 값을 전진
m_nFenceValue++;

// 새 펜스 지점을 설정하는 명령을 명령 대기열에 추가한다.
m_pd3dCommandQueue->Signal(m_pd3dFence, m_nFenceValue);

// GPU가 이 펜스 지점까지의 명령들을 완료할 때까지 기다린다.
if(m_pd3dFence->GetCompletedValue() < m_nFenceValue)
{
// GPU가 현재 펜스 지점에 도달했으면 이벤트를 발동시킨다.
m_pd3dFence->SetEventOnCompletion(m_nFenceValue, m_hFenceEvent);

// GPU가 현재 펜스 지점에 도달했음을 뜻하는 이벤트를 기다린다.
::WaitForSignalObject(m_hFenceEvent, INFINITE);
}
이 코드를 도식화하면 다음과 같다.(생략)


위 숫자 순으로 보면 어떤 순서로 돌아가는지 알 수 있을것이다. 
GPU는 현재 프레임에서 필요한 명령들을 완료하면 펜스 객체의 값을 하나 증가시키는 명령을 실행하게 된다. 
CPU는 그 작업을 하기 전까지 대기하는 것이다.

반응형

(adsbygoogle = window.adsbygoogle || []).push({});

window.ReactionButtonType = 'reaction';
window.ReactionApiUrl = '//lipcoder.tistory.com/reaction';
window.ReactionReqBody = {
entryId: 54
}

case1)
gcc -c send.c
gcc -o send send.o -lws2_32

case2)
gcc -o send send.o -lwsock32

/*
C:\Users\Downloads>gcc -c a12.c
a12.c: In function 'main':
a12.c:8:2: warning: implicit declaration of function 'scanf_s' [-Wimplicit-function-declaration] scanf_s("%s", NN, sizeof(NN));

*/

해당 오류는 VSCode에서 scanf_s 함수를 사용했을 때 발생한다.
scanf_s는 기존 scanf 함수에 비해 보안이 강화된 함수로 Visual Studio에만 내장되어 있는 함수이다.
따라서 사용하기 위해선 해당 헤더를 따로 추가해주어야 한다.

/*
소스
*/
#include <stdio.h>

int main(int argc, char *argv[])
{
    char NN[5];

    printf(">>");
    scanf_s("%s", NN, sizeof(NN));
    printf(">>[%s]\n",NN);

    return 0;
}

 

[C언어] 변수 단위 파일 읽기 함수 - fscanf


※요약
fscanf : 개방된 파일에서 변수 단위로 입력을 받는다.

※특징
변수 간의 구분은 공백, 탭, 개행 문자로 한다.
*는 값을 읽지 않고 건너뛸 때 사용한다.
파일 포인터는 자동으로 증가한다.

※함수 원형 및 설명
int fscanf( FILE *stream, const char *format [, argument].. );
----- stream : 개방된 FILE 구조체의 포인터
----- format : 형식 제어 문자열
----- argument : 가변적인 매개변수
----- 반환값 : 읽혀진 필드의 수. 파일 끝 또는 에러 시 EOF(-1)

#include <stdio.h>

int main( )
{
FILE *pFile = NULL;

pFile = fopen( "d:\\Text.txt", "r" );
if( pFile == NULL )
{
//에러 처리
}
else
{
int nCount;
float fRatio;
char strDesc[255];

while( !feof( pFile ) )
{
//공백으로 분리된 파일 읽기
fscanf( pFile, "%d %f %s", &nCount, &fRatio, strDesc );
printf( "공백으로 분리 : %d %f %s\n", nCount, fRatio, strDesc );

//,로 분리된 파일 읽기
fscanf( pFile, "%d, %f, %s", &nCount, &fRatio, strDesc );
printf( ",로 분리 : %d, %f, %s\n", nCount, fRatio, strDesc );

//탭으로 분리된 파일 읽기
fscanf( pFile, "%d\t%f\t%s", &nCount, &fRatio, strDesc );
printf( "탭으로 분리 : %d\t%f\t%s\n", nCount, fRatio, strDesc );

//선별적으로 읽기 - [%*]을 사용하면 값을 읽지 않는다.
fscanf( pFile, "%*d %*f %s\n", strDesc );
printf( "선별적으로 읽기 : %s\n", strDesc );
}

fclose( pFile );
}

return 0;
}

+ Recent posts