아직 끼우지 못한 단추가 남았습니다.

박한범 2010.11.30 01:31 조회 수 : 8218 추천:1

안녕하세요 ^^

여러가지 과정을 거쳐 어느정도 프로세서 초기화에 대한 감을 잡았습니다.

요즘에는 오히려 윈도우보다 리눅스 소스를 보고 있는데 아직 찾지 못하겠는 부분이 있어 질문드리고자 합니다.

전 질답에서는 전원이 인가되고 부터 CPU 초기화가 이뤄지고 BSP가 부트코드를 실행한다는 것을 알게 되었고,

또한 프로세서 구조체를 세팅하고 윈도우 같은 경우는 FS레지스터에 이 값을 저장해서 스케쥴러와 같은 코드에서

이용한다는 것을 알게 되었는데, 아직 윈도우에서 FS레지스터를 세팅하는 부분을 못 찾은 것 처럼

리눅스에서도 각 프로세서 구조체를 세팅하는 것과 스케쥴링시에 각 프로세서의 Run Queue 를 얻어오는 부분은 알아냈습니다.

그런데 알지 못하겠는건, 각 프로세서에 어떻게 자신의 Unique 한 RunQueue 를 얻어내냐는 것입니다.

#define this_rq() (&__get_cpu_var(runqueues))

#define __get_cpu_var(var)

(*SHIFT_PERCPU_PTR(&per_cpu_var(var), my_cpu_offset))

#define SHIFT_PERCPU_PTR(__p, __offset) RELOC_HIDE((__p), (__offset))

#define RELOC_HIDE(ptr, off)

( { unsigned long __ptr;

__asm__ ("" : "=r"(__ptr) : ""(ptr)); (typeof(ptr)) (__ptr + (off)); })

#define per_cpu(var, cpu)

(*SHIFT_PERCPU_PTR(&per_cpu_var(var), per_cpu_offset(cpu)))

#define per_cpu_var(var) per_cpu__##var

#define per_cpu_offset(x) (__per_cpu_offset[x])

위 매크로들은 sched_init() 에서 this_rq() 를 통해 current rq 를 얻어내는 부분이라고 생각하는 코드입니다.

런큐든 PCR 이든 참 특이하게 메모리를 chunk 로 얻어와 cpu 아키텍쳐에 맞는 offset으로 나누고,

memcpy 를 통해서 초기화 데이터를 복사하는 과정은 재밌있더군요.

어쨌든 결과적으로 얘기해서 각자 자신의 런큐를 얻거나, 혹은 수 많은 런큐 중에 프로세서에서 실행될 런큐를 선택하든지 제 생각에 리눅스 커널에서는 setup_per_cpu_areas() 를 통해서 만들어놓은 CPU 공간을 각 프로세서에 배정을 해줄거라고 생각했는데, 그런 로직은 보지 못했습니다.

343 for (i = 0; i < NR_CPUS; i++, ptr += size) {

344 __per_cpu_offset[i] = ptr - __per_cpu_start;

345 memcpy(ptr, __per_cpu_start, __per_cpu_end - __per_cpu_start);

346 }

어느 코드를 보던 -_- 제 눈에는 메모리에 값을 대입하는 걸로 밖에 안보이는데요.

리눅스에서는 프로세서 를 도대체 어떻게 관리하는건지 혼란스러워지네요 @_@;;

답변 부탁드립니다.

이 게시물을

수정 삭제 목록

노서영

2010.11.30 13:11
질문하신 내용에 답이 될지 모르겠지만, 참고하세요 ^^;

질문은 두가지로 보여집니다.

1. "각 프로세서에 어떻게 자신의 Unique 한 RunQueue 를 얻어내냐는 것입니다"

2. "리눅스에서는 프로세서 를 도대체 어떻게 관리하는건지 혼란스러워지네요"

1번의 경우는 sched_init() 함수의 코드를 보면 다음과 같은 코드가 있습니다.
```
 for_each_possible_cpu(i) {
        struct rq *rq;   
        // 해당 CPU의 런큐주소를 리턴   
        rq = cpu_rq(i);  
       .......
       init_cfs_rq(&rq->cfs, rq);
```
프로세서 i의 런큐들은 cpu_rq(i)를 통해 얻어올 수 있습니다. cpu_rq()는 다음과 같이 정의되어 있습니다.
```
 #define cpu_rq(cpu)     (&per_cpu(runqueues, (cpu))) 
```
2번째 질문은 너무 브로드하게 보이는데 제가 이해한 선에서 설명을 드리면, 각 프로세서는 큐들을 가지고 있습니다. 제가 큐들이라고 표현한 것은 per-CPU runqueue 데이터 구조체인 struct rq안에 다음 구조체가 있기 때문입니다.
```
struct cfs_rq cfs;
struct rt_rq rt;
```
cfs는 Completely Fair Scheduler이고 rt는 Real Time을 의미합니다. CFS Run Queue의 경우는 Red Black Tree로 Task를 관리합니다. 따라서 가장 왼쪽에 있는 Task가 다음에 스케쥴링 대상이될 Task를 의미합니다. Linux는 이렇게 스케쥴링될 대상을 관리합니다.

제가 이해한 선에서 간략하게 답변을 했는데....오류가 있으면 잡아주시고 보충하실 내용이 있으시면 추가해주시면 감사하겠습니다.
댓글 수정 삭제
노서영

2010.11.30 15:30
제가 조금 포인틀 잘못잡은 듯 하군요. 여러가지 말씀을 하셨는데, 죄송합니다만..다 이해는 못했습니다 ^^;

질문이 "각 프로세서에 자신의 rq 주소를 어떻게 세팅해줘서 사용되냐는 겁니다" 로 귀결되는 것 같네요? 맞나요?

kernel/sched.c에 보시면 다음과 같은 코드가 있습니다.
```
  static DEFINE_PER_CPU_SHARED_ALIGNED(struct rq, runqueues);
```
짐작하시겠지만, struct rq type의구조체 변수를 정적으로 선언하고 있습니다. 이 때 cacheline align을 시킵니다 (사족: 이부분은 SMP에서 false sharing과 연관이 있습니다.) DEFINE_PER_CPU_SHARED_ALIGNED는 include/linux/percpu-defs.h 에 정의되어 있습니다.
```
 #define DEFINE_PER_CPU_SHARED_ALIGNED(type, name)           
     DEFINE_PER_CPU_SECTION(type, name, PER_CPU_SHARED_ALIGNED_SECTION) 
    ____cacheline_aligned_in_smp

......

#define DEFINE_PER_CPU_SECTION(type, name, section)        
     __attribute__((__section__(PER_CPU_BASE_SECTION section)))  
     PER_CPU_ATTRIBUTES PER_CPU_DEF_ATTRIBUTES           
     __typeof__(type) per_cpu__##name     
```
섹션 애트리뷰트를 이용해서 struct rt 타입의 구조체 per_cpu__runqueues가 ".data.percpu" section에 위치하도록 하고 있습니다.

이 섹션은 setup_per_cpu_areas() 함수내에서 각 프로세서 개수만큼 복사되고 프로세서별로 사용됩니다.
```
 for_each_possible_cpu(i) {
         __per_cpu_offset[i] = ptr - __per_cpu_start; 
         memcpy(ptr, __per_cpu_start, __per_cpu_end - __per_cpu_start); 
        ptr += size;  
 }   
```
cpu_rq(cpu) -----> (&per_cpu(runqueues, (cpu))) 를 통해서 해당 cpu가 가지고 있는 .data.percup 섹션의 복사본에서 strut rt 구조체 변수인 per_cpu__runqueues의 주소를 참조하여 자신의 runqueue를 접근한다고 보면 되겠습니다.

역시 오류가 있으시면 잡아주시고, 도움이 되었길 바랍니다.
댓글 수정 삭제
박한범

2010.11.30 13:37

답변 감사드립니다.

/////////////////////////

2번째 질문은 너무 브로드하게 보이는데 제가 이해한 선에서 설명을 드리면, 각 프로세서는 큐들을 가지고 있습니다. 제가 큐들이라고 표현한 것은 per-CPU runqueue 데이터 구조체인 struct rq안에 다음 구조체가 있기 때문입니다.
//////////////////////////

맞습니다. 조금 더 윗 부분을 설명해주시면 제가 원한 답변이 될 것 같아요.

rq 가 DLL이든 LL이든 연결되어 관리되고 있는 것은 맞는데, 각 프로세서에 자신의 rq 주소를 어떻게 세팅해줘서 사용되냐는 겁니다 ^^.

예를 들면, 윈도우를 보면 rq 와 비슷한 개념의 구조체를 세팅하고,

이 rq 리스트의 head를 PCR 구조체가 가지고 있습니다. 고로 프로세서가 만약 비선점이라면 이 rq들을 순차적으로 실행할 것입니다. 하지만 특정 경우에 분명히 인터럽트가 발생하며 선점이 되야됩니다. 이럴 경우 선점을 위한 코드가 각 프로세서마다 존재하냐? 그건 아니죠. 그렇기 때문에 인터럽트가 걸렸을 때

자신의 프로세서 관리 구조체의 주소를 불러와, current thread의 컨텍스트 스위칭이 이뤄져야 합니다.

^^ 이 부분을 어디서 찾을 수 있는지 설명해주셨으면 좋겠습니다.

윈도우의 흐름은 제 생각에 이렇습니다.

1. 동일한 프로세서 메모리 할당과 초기화

2. 각 CPU 의 FS 레지스트리 세팅

3. start_kernel() 의 윈도우 버전 함수가 종료되며 BKL 과 같은 것을 풀어

4. 각 프로세서가 idle 상태에 들어갑니다.

5. Windows에서는 이제 어느 프로세서가 인터럽트를 처리하든 신경쓰지 않고 쓰레드 디스패칭만 각 코어 구조체마다 잘 해주면 됩니다.

6. 인터럽트가 걸리면, 인터럽트를 처리하는 코드는 FS레지스터를 참조해 자신의 PCR 주소를 얻어 자신의 RQ에서 task 를 가져와 처리를 합니다.

- 끗 -

댓글 수정 삭제
조태문

2010.11.30 23:51

박한범님! 연락주세요.

whxoans@nate.com

댓글
김남형

2010.12.01 01:02

어느 버전의 커널을 보셨는지 모르겠지만
최신 커널에서는 말씀하신 setup_per_cpu_areas() 내에서 setup_percpu_segment()를 호출하여
각 CPU 별 percpu 영역에 대한 segment descriptor를 GDT에 설정해 둔 뒤
AP가 부팅되어 cpu_init() 함수를 실행할 때 switch_to_new_gdt() -> load_percpu_segment()를 호출하여
FS에 해당 segment descriptor의 index를 저장하는 것을 찾을 수 있습니다.

댓글
박한범

2010.12.01 07:09

저는 웹에서 검색했는데, 아마 찾아본 웹 페이지나 소스를 웹에서 볼 수 있게 해주는 웹페이지가 구형 버전인가 봅니다.
하지만 구형 버전이라도 SMP를 지원하는 커널 버전이기 때문에 알려주신 함수들이 없이도 SMP를 구현할 수 있는 방법이 있다고 보입니다.

어쨌든 알려주셔서 정말 감사합니다.
기회가 된다면 이 부분의 차이점을 정리해서 올려보도록 하겠습니다. 행복한 하루 되세요~ :D

댓글 수정 삭제

번호	제목	글쓴이	날짜	조회 수
공지	[공지] 프로그래밍 관련 Q&A 게시판 입니다.	woos	2016.04.09	22245
118	C 문법을 위반하는 경우가 생긴건지도 모르겠네요...뭐가 이러지?.. [6]	김영일	2010.12.06	7738
117	모듈오류가 나는데 이유가 뭔지 안잡히네요.. [5]	김영일	2010.11.30	14557
»	아직 끼우지 못한 단추가 남았습니다. [6]	박한범	2010.11.30	8218
115	HVM 실험 좀 부탁합니다. [6]	백창우	2010.11.17	6454
114	리눅스에서 armulator 구동하는 방법	김성오	2010.11.08	7660
113	arm에서 mmu 설정 문제... [1]	유대철	2010.11.03	9741
112	멀티프로세서+멀티코어에 대해 궁금한게 있습니다. [14]	박한범	2010.11.01	8789
111	멀티프로세서+멀티코어에 대해 궁금한게 있습니다!? [8]	박한범	2010.10.30	7672
110	리눅스 인터럽트 금지 해제 관련 [9]	홍문화	2010.09.30	11634
109	gcc 디버깅방법 [1]	피승현	2010.09.27	8820
108	컴파일러 최적화 부분에서... [2]	김국진이	2010.09.04	8666
107	특정 라이브러리만 정적링킹하도록... [3]	김경태	2010.08.17	9812
106	8차 스터디 인원 모집에 대해 문의 드립니다. [1]	신창호	2010.08.17	4837
105	address_space 구조체에 대한 질문 [9]	송원준	2010.07.27	9948
104	S3c2440의 USB host 기능 실현에 대한 질문입니다.	이죽송	2010.07.16	9451
103	커널 스터디에 관해 질문드립니다.	김진수	2010.07.16	5119
102	pgd_offset_K() 커널함수에 대한 질문입니다. [2]	백철민	2010.06.23	9942
101	커널 스터디에 참여하고 싶은데요.. [1]	박영현	2010.06.22	5516
100	dd명령어 써서 디스크 카피 할 시	신재욱	2010.06.16	7362
99	linux에서partition분할하지 않고 포멧한 경우	신재욱	2010.06.16	6379

쓰기 태그

첫 페이지 16 17 18 19 20 21 22 23 24 25 끝 페이지

아직 끼우지 못한 단추가 남았습니다.

댓글 6

노서영

노서영

박한범

조태문

김남형

박한범