top of page

머신러닝 융합 과학교육의 교육적 의미 탐색

최정인 | 인천당산초등학교, cji0724@gmail.com



서 론

빅데이터와 결합한 인공지능이 사회 전 분야에서 활용되고 있으며 예전과는 다른 사회의 광범위한 변화를 이끌어 내고 있다. 이러한 변화의 물결 속에서 교육은 새로운 도전에 직면해있다. 일상 속 깊이 자리 잡은 인공지능의 기술을 비롯한 과학기술의 발전은 사람들의 정보 접근 및 활용에 대한 진입 장벽을 낮추고 있으며, 학령인구 감소 등 현시대의 문제가 더해져 학생들은 이전과는 전혀 다른 종류의 학습을 해야 하는 상황이기 때문이다. 교육 현장에서도 이러한 사회 변화에 대응하여 머신러닝, 생성형 인공지능 등을 과학교육의 내용과 접목하려는 시도가 이루어지고 있다. 이러한 시도들은 과학교육의 외연 확장이라는 측면에서 긍정적이라 볼 수 있다. 하지만 과학 수업에서 인공지능 기술을 마치 마술처럼 신기한 볼거리로 도입하는 식의 접근은 경계하여야 한다. 또한 인공지능이 마치 정답을 알려주는 기계처럼 신격화되어서도 안 될 것이다. 인공지능과 융합한 과학 수업은 학생들이 인공지능 기술을 체험하고 인공 지능의 메커니즘을 이해할 수 있어야 하며, 예상치 못한 시행착오나 오류를 겪게 되었을 때 그것의 의미를 파악하거나 수정할 수 있는 탐구적인 수업으로 전개되어야 한다. 그리고 테크놀로지 발전의 속도가 빠르기에 교사들이 그러한 기술들을 모두 완벽하게 활용하기를 바라여서도 안 된다. 그보다는 교사로서 과학이라는 교과 내용의 특성을 살리면서 동시에 인공지능의 기술을 탐구의 방법으로 융합시킬 수 있는 방법에 대한 깊이 있는 고민이 필요하다. 이는 새로운 시대에 요구되는 역량 신장을 위해 이전과는 다른 새 본고에서는 초·중등학교 화학 교육의 내용 중 물질의 세 가지 상태 분류 수업에서 인공지능의 하위 분야인 머신 러닝을 과학적 탐구의 방법으로 융합할 수 있는 수업 사례를 제안하고, 그 교육적 의미를 고찰하고자 한다.


본 론


1. 머신러닝(Machine learning)


머신러닝은 기계학습이라고 번역되기도 하는데, [그림 1]과 같이 데이터를 기반으로 패턴을 학습하여 모델을 구축한 후 결과를 예측하는 알고리즘 기법을 통칭한다.

머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해 낸다는 점에서 전통적인 프로그램과는 차이가 있으며[권철민, 2020], 데이터를 학습하는 유형에 따라 지도 학습과 비지도학습, 강화학습으로 나눈다. 그중 지도학습은 사용자가 데이터의 속성(Feature)과 레이블(Label)의 값을 쌍으로 입력한 데이터 세트를 제공하고, 컴퓨터가 관련 변수들 간의 관계를 찾는 것을 말한다. 쉽게 말하여 문제와 정답이 있는 다수의 샘플 문항을 컴퓨터에게 알려주고, 컴퓨터가 문제와 정답 간의 패턴을 파악하여 새로운 문제가 제공되었을 때 정답을 찾는 식이다. 정답을 찾는 것은 앞서 말한 예측이며, 이러한 예측에는 크게 분류(Classification)과 회귀(Regression)라는 두 가지 주요 유형이 있다. 이 둘을 구분할 수 있는 방법은 레이블의 속성이 연속적인지 이산적인지 살펴보는 것이다. 물질의 상태 분류의 경우 예측 값이 고체, 액체, 기체라는 레이블로 연속성이 없는 분류 문제에 해당한다. 반면 기온 변화 예측과 같이 레이블이 연속적인 숫자로 표현된다면 회귀 문제에 해당한다.









분류를 위한 머신러닝 알고리즘으로는 서포트 벡터 머신 (Support vector machine, SVM), K-최근접 이웃 알고리즘(K-nearest neighbor, K-NN) 등 다양하게 있으나 본 융합교육 사례에서는 의사결정트리(Decision tree) 알고리즘을 사용하였다. 의사결정트리 알고리즘의 경우 시각화를 통해 비전문가들도 직관적으로 이해하기 쉽다는 장점이 있기 때문이다. [그림 2]는 파이썬(Python)의 대표적 라이브러리인 사이킷런에 내장된 붓꽃의 분류에 대한 데이터를 의사결정트리로 시각화한 것이다. 최상단의 루트 노드 (Root node)에서 시작하여 마치 스무고개 질문 놀이처럼 꽃잎의 길이를 기준으로 분할을 하고, 다시 꽃잎의 너비를 기준으로 분할을 이어나가는 방식으로 진행이 되며, 분류의 결과가 최대한 균일하게 되도록 하는 것이 의사결정 트리 알고리즘의 작동 방식이다.


데이터의 균일도를 측정하는 대표적인 방법으로는 지니 계수(Gini index, Gini impurity)와 엔트로피(Entropy) 불순도 등이 있다[G´eron, 2019]. 지니 계수는 불순도를 측정하는 지표로써 분류의 결과에 대한 통계적 분산 정도를 정량화한 수치이다. 머신러닝에서 지니 계수는 아래의 공식과 같이 구해진다.








어떤 노드에서 모든 샘플이 한 클래스로 분류가 되었다면 지니 계수의 값이 0이 되어 순수하게 분류되었다고 할 수 있다. 따라서 머신러닝에서는 지니 계수가 낮을수록 데이터의 균일도가 높은 것이므로 지니 계수가 낮은 속성을 기준으로 분할하게 된다. 지니 계수 이외에도 엔트로피 불순도 개념을 사용하기도 한다. 열역학에서 분자의 무질서 함을 엔트로피로 논하듯이 머신러닝에서도 이와 유사하게 분류의 결과가 얼마나 무질서한가를 측정하는 개념으로 적용된다. 한 노드의 데이터가 한 레이블만을 담고 있다면 무질서함이 없는 엔트로피가 0인 상태이다. 그러나 한 노드 안에서 데이터들이 두 가지 이상의 레이블을 포함하고 있다면 엔트로피의 값은 0보다 커지게 될 것이다. 지니 계수와 마찬가지로 엔트로피의 값이 작은 속성을 기준으로 분할하게 된다.








머신러닝은 단점이 존재하는데 그것은 데이터에 매우 의존적이라는 사실이다[Hurwitz & Kirsch, 2018]. 데이터의 결측치가 너무 많다거나 혹은 훈련 데이터와 테스트 데이터 사이에 동일한 특성이 존재하지 않는 경우처럼 데이터의 품질이 좋지 못하면 예측 결과의 신뢰도 또한 떨어지는 것 이다. 따라서 데이터 전처리를 엄격하게 하거나 파라미터를 조정하고, 가능한 많은 데이터를 확보하여 예측의 신뢰도 문제를 해결한다. 그럼에도 불구하고 새로운 데이터에 대해 정확한 예측을 할 수 없는 경우가 발생할 수 있다. 새로운 데이터에 대해 정확한 예측을 하는 것이 머신러닝의 본연의 목적이라고 봤을 때 기술적 측면에서는 실패라고 볼 수도 있겠으나 과학교육의 측면에서는 오히려 성공을 위한 시작이라고 볼 수 있다. 왜냐하면 나의 생각과 다른 컴퓨터의 예측은‘왜?’라는 질문을 던질 수 있는 시작 지점이기 때문이다.


2. 물질의 상태 분류와 머신러닝의 융합교육 사례



머신러닝의 과정은 데이터 확보, 데이터의 학습 및 모델 구축, 새로운 데이터에 대한 예측이다. 본 사례에서는 초등 학교 교사 및 중·고등학교 과학 교사들이 응답한 물질의 상태 분류 데이터를 가지고 모델을 구축하였다. 그 과정은 다음과 같다. 먼저, 밀가루, 안개, 연기 등 28가지의 물질의 사례를 제시하고, 각 물질들을 분류 기준(속성)에 입각 하여 원핫인코딩(One-hot encoding)을 한 후 고체, 액체, 기체의 분류 결과(레이블)를 쌍으로 스프레드시트 프로그램에 입력한다. 원핫인코딩이라는 것은 예를 들어 제시된 사례가 분류 기준(예: 부피가 일정함, 흐르는 성질 등)에 해당하면 1, 해당하지 않으면 0을 입력하는 방식을 말한다 [G´eron, 2019]. 데이터를 생성하는 단계에서 분류 기준을 어떻게 정할 것인가가 가장 중요한 문제인데 이 과정에서 학생들끼리 의사소통과 협력을 기반으로 하여 분류 기준을 합의할 수 있도록 한다면 과학 교육과정에서 추구하는 과학적 의사결정능력 신장[교육부, 2022]을 위한 유익한 경험을 제공할 수 있을 것이다. 다음으로 데이터 입력이 완료되면 csv 파일 형식으로 저장하고 오렌지(Orange)에서 로드하여 의사결정트리 알고리즘 모델을 구축한다. 오렌지는 잘 알려진 머신러닝 프로그램으로 오픈소스이기 때문에 비용의 부담이 없으며, 캔버스에 데이터 세트를 로드하고, 위젯을 배치 및 연결하는 방식의 비주얼 프로그래밍을 지원하기 때문에 비전문가들도 어렵지 않게 사용할 수 있다.

데이터 생성 및 모델 구축의 단계에서 중요한 것은 자신의 데이터만으로 머신러닝 모델을 구축할 수 있지만 나와 동료들의 데이터를 모두 합하여 머신러닝 모델을 구축하는 것이 더 의미 있다는 사실이다. 이것은 빅데이터를 만들어 데이터의 편향성을 제거하는데 도움을 주어 예측의 신뢰도를 높일 뿐 아니라 경우에 따라 나의 생각과 동료들의 생각에 차이가 있을 수 있음을 알 수 있기 때문이다. 이러한 생각의 차이는 앞서 말한 공통성이 적은 속성과 레이블의 데이터 쌍들을 만들어 내어 이를 학습한 알고리즘이 정확한 분류를 못하게 되는 결과를 가져온다. [그림 3, 4]는 물질의 상태 분류에 대해 초등학교 교사 및 중등학교 과학교사 들이 생성한 데이터를 가지고 의사결정트리 알고리즘으로 학습시켜 구축한 모델을 시각화한 것이다.



원래의 트리의 깊이는 9레벨이었으나 지면의 한계로 인해 트리의 깊이를 6레벨로 조정하여 시각화하였으며, 또한 가로 방향으로 분할하여 제시하였다. 나와 동료들이 만든 데이터로 구축한 모델의 시각화를 통해 같은 현상을 보더라도 관찰하는 관점 및 분류 기준을 적용하는 방식이 서로 다를 수 있음을 알 수 있다. 관찰은 기초적 탐구 과정이지만 충분한 관찰 경험을 통한 훈련이 되어 있지 않다면 그 결과가 주관성을 띨 수 있기 때문이다. 예를 들어, 한 학생이 밀가루가 나타내는 거시적인 특성으로 인해‘흐르는 성질’이 있다고 응답한다면 머신러닝모델은 위의 트리처럼 액체라고 판단한다. 그 학생이 밀가루를 고체라고 생각하지만 거시적 관찰 현상으로 인해 흐르는 성질이 있다고 응답하면 나의 생각과는 다른 머신러닝 모델의 예측이 산출 되는 것이다. 이와 같이 나의 생각과는 다른 예측을 산출하는 머신러닝 모델을 통해 시행착오나 오류의 지점을 파악 하고 이를 수정·보완하는데 도움을 줄 수 있다. 과학의 탐구 과정이라는 것은 탐구의 정의만 알면 수행할 수 있는 것이 아니기 때문에 분명하게 경험할 수 있는 기회를 제공하고, 또 그 과정에서 시행착오를 겪음과 동시에 의사소통과 합의를 통해 결과를 합리적이고 세련되게 만들어갈 수 있어야 한다. 이것은 과학자들이 과학자 사회에서 겪는 경험 과 동일한 것으로 이러한 과정에서 학생들은 과학의 본성도 체득할 수 있을 것이다.

한편, 머신러닝을 융합한 물질의 상태 분류 수업에서 구축된 머신러닝 모델은 자연현상을 설명하는 과학 모델로써 작동한다. 하지만 머신러닝 모델을 통해 어느 정도 자연현상을 설명할 수 있으나 그럼에도 설명할 수 없는 부분이 발생할 수 있다. 이와 같이 모델로 설명할 수 없는 부분을 이그노런스(Ignorance)라고 부르는데[Chang, 2012], 머신러닝 융합 과학 수업은 모델 구축을 수반하므로 모델이 가진 불확실성을 인식하는 기회가 될 수 있다. 예를 들어 연기를 상태 분류 하는 경우 연기를 구성하는 미립자에 초점을 두는지 혹은 전체적인 움직임 양상에 초점을 두는지에 따라 상태 분류 기준을 적용하는 세부 내용과 분류의 결과가 달라질 수 있다. 그리고 이에 따라 생성된 데이터를 학습한 머신러닝 모델의 경우 연기를 상태 분류함에 있어서 100%의 확신을 가지고 상태를 분류하지 못하고, 100%에 미치지 못하는 확률로 상태 분류를 하게 될 것이다. 하지만 모델의 불확실성, 데이터에 대한 의심, 모델의 수정을 체험하는 과정에서 학생들이 이그노런스를 인식한다면 질문하고, 스스로 답을 찾아가는 방법을 배우게 될 것이다[전은선, 백성혜, 2022]. 그리고 이것은 잘 모르는 것이 과학을 발전시키는 원동력이 될 수 있다는 과학의 본성을 깨닫는 기회이며, 과학지식을 직접 생성하는 소중한 경험이 될 것이다.


결 론


2022 개정 과학 교육과정에서는‘미래를 살아갈 시민으로서 과학적 소양을 갖추고 더불어 살아가는 창의적인 사람’을 육성하는 것을 목적으로,‘과학적 탐구와 문제해결 능력, 과학적 의사결정 능력’등을 기르는데 초점을 두고 있다. 그리고 미래 교육 환경에 적합한 다양한 교수·학습 활동을 통해 디지털·인공지능 기초 소양을 함양하도록 하고 있다[교육부, 2022]. 이러한 측면에서 머신러닝 융합 과학교육은 그 방법이 될 수 있다. 과학적 탐구, 모델의 생성 및 수정의 과정을 포함하고 있어 단순히 교과서의 내용을 수용하는 교육이 아닌 학생들이 직접 지식을 생산하는 경험을 할 수 있게 해주기 때문이다. 데이터를 생성하고, 이를 학습한 모델을 평가하며, 분류 기준이나 세부 입력 내용 등을 수정하는 등 모델의 정교화를 통해 분류 성능을 높이는 과정에 배움이 있다. 그리고 이러한 배움은 시대의 기술과 상생하여 선순환하는 지속가능한 과학교육의 밑거름이 될 것이다.



참고문헌


1. 권철민, 파이썬 머신러닝 완벽가이드. 위키북스. 2020.

2. Ge、ron, A.,“Hands-on machine learning with Scikit-Learn, Keras, and Tensor-Flow: Concepts, tools, and techniques to build intelligent systems. O'Reilly. 2019.

3. Hurwitz, J., Kirsch, D., Machine learning for dummies. IBM Limited Edition, 75. NY: John Wiley. 2018.

4. 교육부 과학과 교육과정. 2022. 교육부 고시 제2022-33호[별책 9]

5. 최정인, 백성혜,“물질의 상태 분류에 대한 과학교사와 머신러닝 모델의 분류 결과의 비교 분석.”학습자중심교과교육연구 23(4), 363-379.

6. 전은선, 백성혜,“모델 이그노런스 교수프로그램이 예비화학교사의 인식 및 교수 실행에 미치는 효과.”대한화학회지 2022, 66(3), 228-242.

7. Chang, H. S. Is Water H2O: Evidence, Realism and Pluralism. Springer Science & Business Media. 2012.





최정인 Choi Jungin


• 경인교육대학교 초등교육과, 학사(1999.3-2003.2)

• 한국교원대학교 과학교육과(초등과학교육전공), 박사(2012.3-2023.2, 지도교수 : 백성혜)

• 인천광역시 교육청 교사(2003.3-현재)

• 현재 인천당산초등학교 근무

bottom of page