오픈소스로 아카이브 만들기
Offered at 한국외국어대학교 Spring 2017
이 강의는 오픈소스 소프트웨어를 이용하여 디지털 아카이브를 만들기 위한 것입니다. 기록관리 전공자, 아키비스트, 사서, 일반인 모두를 대상으로 합니다. 코딩 능력은 필요 없지만 리눅스 서버에 어플리케이션을 설치하기 위해 꽤 많은 학습이 필요합니다.
학습 목표: 수강생들은 먼저 오픈소스 소프트웨어의 개념과 특성을 이해해야 합니다. 이후 오픈소스 소프트웨어를 이용하여 직접 자신의 디지털 아카이브를 만들어 볼 것입니다.
학습 결과: AtoM과 Omeka로 만들어진 두 개의 디지털 아카이브를 갖게 됩니다.
Week 1. OSS & AWS & GitHub
May 13, 2017
오픈소스 소프트웨어(OSS) 개요
AWS를 이용한 클라우드 서버 구축
- Ubuntu Server 설치
- SSH Client(Putty) 설치
- 리눅스 명령어 실습
GitHub
- GitHub 소개
- GitHub 리포지터리 만들기
- GitHub 실습
- 과제 안내
Week 2. AtoM 설치 및 실습
May 20, 2017 (휴강)
- AWS에 AtoM 설치하고 기록물 등록하기
Week 3. Omeka 설치 및 실습
May 27, 2017
- AWS에 Omeka 설치하고 전시 구성하기
Week 4. 과제 발표
June 3, 2017
- 자신의 GitHub에 만든 오픈소스 매뉴얼 소개하기
Further Reading
오픈소스 기록시스템 연구
- 안대진, 김익한. (2015). AtoM 시스템의 구축과 커스터마이징 방법에 관한 연구. 기록학연구, (45), 5-50.
- 안대진, 임진희. (2016). 디지털 아카이브 시스템 구축을 위한 공개 소프트웨어 활용방안 연구. 정보관리학회지, 33(3), 345-370.
- 안대진, 임진희. (2017). 기록시스템의 오픈소스화 전략 연구. 기록학연구, 52(3), 119-170.
2016년 제8회 전국기록인대회 발표자료집, 2016.10
- 원종관. (2016). 서울기록원 디지털 아카이브. 한국기록관리학회 학술발표논문집, , 95-98.
- 김남규. (2016). 기업입장에서 평가하는 기록관리시스템 오픈소스화. 한국기록관리학회 학술발표논문집, , 99-105.
- 안대진. (2016). 기록시스템 오픈소스화 모델. 한국기록관리학회 학술발표논문집, , 106-111.
Instructor information
Daejin Ahn is an artist and enterpreneur based in Seoul. Ahn founded the archivelab in 2016, where he continues to experiment and explore open source software based digital archives.
토론문 (안대진)
제10회 전국기록인대회
4-3 4차산업혁명 신기술에 따른 기록관리의 미래
발표1.블록체인과 기록관리의 미래(왕호성, 국가기록원)
JTBC 유시민, 정재승 토론 보고 블록체인에 대한 관심을 가지기 시작했다.
1) 테스트베드일 뿐
테스트베드가 아닌 실제 적용사례가 없다 AMI의 디지털 문서 검증에 대한 판례나 판례법도 없다 그럼에도 불구하고 이걸 선제적으로 연구해야 하는 이유는 무엇인가? 블록체인의 잠재력이나 가능성은 인정하지만 과연 정말 아카이브의 실무 자체를 향상시키는 핵심기술인가? 스마트계약 등에 적합한 기술 아닌가? 의료기록, 부동산기록 등은 우리나라 기록관이나 아카이브에서 주로 다루는 기록 유형은 아니다. 기록의 내용 자체가 파일로 블록에 저장되면 모를까 기록의 유통정보나 무결성 정보만 저장된다면 우리가 중시하는 기록의 내용이 아닌 증거나 신뢰 등의 품질관리 쪽에 치우친 기술이 아닐까 하는 우려가 든다. 종합하면, 무결성 보장만으로는 적어도 아카이브에서는 디지털 전환의 핵심기술이라거나 기록 실무를 향상시키는 기술로 보기 어렵다
2) TTP, 진본무결성 검증, 해시+UUID
우리나라 기록관리의 TTP는 공인인증서 기반의 장기검증서버 정도일 것 같다. 장기보존포맷에도 공인인증서와 해시함수가 들어간다. 그리고 무결성 장기검증을 위해 장기검증 서버를 두고 있다. 블록체인이 도입되면 공인인증과 장기검증 서버가 없어지고 각 기록관이 분산적으로 무결성 검증을 하게 될 것이다. 대통령비서실과 서울시 등은 블록체인까지 가니는 않고 해시함수와 UUID 기반으로 진본무결성 검증체계를 구상하고 있다. InterPARES에 의하면 진본성 개념은 무결성+정체성으로 확보된다. 많은 아카이브들이 무결성 검증기술로 SHA-256 수준의 해시함수, 전자서명 등을 적용하고 있다. 정체성은 URI, UUID 등을 적용하고 있다. 다만 해시알고리즘은 OAIS의 AIP에 적용되고 있다.
블록체인을 꼭 도입해야만 하는 이유는 여러 노드들로 인증주체를 분권화는 것 같은데, 중앙집중식의 장점도 있다. 블록체인 네트워크 인프라 구축의 비용과 보안 우려를 불식시킬 만한 편익은 무엇인가? 분권화라는 게 지나치게 감상적인 구호 아닌가?
3)ARCHANGEL 지속가능성의 의미는?
ARCHANGEL은 메타데이터로 문서에 색인‧ 주석을 다는 방식을 개선하는 방안을 모색하기 보다는 보존. 전시.문서배포 시 디지털문서의 무결성과 출처를 확인할 수 있는 플랫 폼을 제안함으로써 디지털 콘텐츠의 장기적 무결성과 지속가능성을 보장하는 것을 당면과제로 설정하여 연구한다. —> 무결성은 알겠는데 지속가능성은 어떻게 보장하겠다는 것인가? 블록에 기록 객체까지 저장한다는 것인가?
4)아카이브 역할의 축소
(제도적 신뢰에서 기술적 신뢰로? Trust의 의미) 전자기록 환경에서 아카이브의 역할이 무결성 보장으로 축소되는 느낌이다. 실제로 정보 거버넌스 모형에서도 기준값관리나 처분과 관련된 내용으로 역할이 축소되는 듯한 느낌을 받았다.
5)교차 AMI 모델은 IoT를 의미하나?
ARCHANGEL은 하나의 분산원장기술이 복수의 AMI들에 의해 배포되 는 교차 AMI 모형을 제안한다. 이는 잠재적으로 서로 다른 여러 분야와 국가들에서 복수로 운영되는 AMI들로 인해 아카이브에 의한 왜곡 위험을 감소시킬 것이다. 이러한 방식은 잠재적으로 국경을 넘나드는 여러 아카이브들이 문서의 내용에 직접 관여하지 않아도 문서의 무결성을 상호 보강할 수 있다.
6) 보안 위험, 익명성
투표시스템 등을 블록체인으로 하자는 논쟁이 몇 번 있었다. 기존에는 누가 누구에게 투표했는지 알 수 없도록 중앙선관위가 책임을 졌다. 블록체인에서는 네트워크에 참여하는 각 투표권자가 책임을 지게 된다. 듣기로는 실명 인증을 위해 1회 정도 메인 서버를 열어야 하고, 이 때 보안의 위험이 발생한다고 한다. 3세대 블록체인에서는 이러한 보안 우려가 해결 가능한가?
7)보상,채굴,작업증명
PoW방식일 때 네트워크 참여 노드들의 작업증명에 대한 보상(동기부여 요인)은 무엇인가? PoS일 경우도 마찬가지다 채굴 = 작업증명 + 보상 이다. 작업증명 = nonce 값을 구하는 것(블록 해쉬값이 특정 숫자보다 작아지게 하는 nonce값)이다. 퍼블릭 블록체인은 한 군데에서 인프라를 만들어야 하기 때문에 효율성이 떨어진다. 기록 분야의 프라이빗 블록체인을 만들면 된다 하더라도 어떤 보상이 가능한지 궁금하다. 기록관과 아카이브가 진본무결성 보장이라는 가치를 드높이겠다는 사명감만으로 네트워크의 공동 유지비용을 댈 것인가 의문이다.
8)머신러닝 연계
ARCHANGEL 번역문에 있는 문구 중 ‘문서속성을 추출하는 맞춤형 기계학습모형을 이용한 포맷 특정 해시’란 무엇인가? TNA의 DROID/PRONOM 등 DFR 등의 스마트 버전으로 이해하면 되나? 아니면 문서 속성을 자동으로 추출해서 파일포맷 식별 이상의 작업이 가능해진다는 건가?
9)블록에 대한 디스크립션은 누가 어떻게 하나?
블록체인 기록화는 아직 고민하고 있지 않는 것 같다. 블록체인 자체, 또는 각 블록에 대한 기술을 우리가 해야 하는 거 아닌가? 적어도 행정정보시스템의 데이터세트 기록화와 같은 맥락으로 고민은 해 봐야 할 것 같다. 블록에 기록과 정보가 쌓인다면 이를 IT 도메인에 맡겨둘 수만은 없는 것 아닌가?
10)필요성 설득방법, 증거능력 인정
대중이 수용 가능한 방식으로 블록체인을 설명할 수 있는 강력한 체계가 필요하다. 이를 테면 법정에서 DNA 증거를 인정하는 것처럼 말이다.
11)협업 가능성
TNA는 국가 간 협업을 통한 신뢰인증체계를 제시하고 있다. 경험상 국내기관 간 협업은 쉽지 않다. 경계가 없는 인터넷의 특성 상 블록체인은 협업이 더 유리한 측면이 있다고 생각하나?
발표 2. 딥러닝 기반 기록관리 의사결정 지원도구 개발과 실무 적용 방안(방재현/한국외국어대학교)
1)실무적용 분야를 잘 정해야 한다
평가심의, 단위과제 추천,이미지검색,디스크립션 외에 업무효율 형상효과가 큰 부분이 많다. 기록 디스크립션, 자동화된 포맷식별/무결성검증/오류다텍션 처리 등이 있겠다. 기록관과 아카이브 구분해서 ROI 검토 후 개발해도 좋겠다.
2)인공지능 기술 적용방식은?
온나라나 RMS에 인공지능 기능을 탑재하고 그 때 쓰면 되나? 아니면 클라우드 서비스로 만들어지나? 업체가 제공하는 API를 가져다가 쓰면 되나?
3)형태소분석 vs Ngram/Word2Vec
발표자는 한글 텍스트를 다룰 때 어떤 툴과 언어모델 쓰나? 영어권 말뭉치나 툴에 비해 한글 처리에 대한 인프라는 아주 취약한 것 같다. 특히 기록의 텍스트를 형태소 분석해 봤을 때 결과를 제대로 쓰기가 어려웠다. 명사의 어근, 조사 단위까지 잘라버리다 보니 이걸 어디에 써야 할지 애매했다. 최근에 강남역 포스트잇의 추모 메시지 3만7천여 건을 분석해 봤다. 911 디지털 아카이브의 추모글을 Ngram으로 분석한 사례를 보고 시도해 보았다. 분석해 보니 내게는 Ngram이 더 간편하고 효과가 좋았다. Ngram 외에도 Word2Vec, Doc2Vec 등이 Omeka 소프트웨어에서도 Ngram 텍스트 분석 플러그인이 있어서 추모 메시지를 유형별로 구분하는 데 도움이 되었다.
4) 자동화 이후의 아카이브/아키비스트의 역할은 어떻게 바뀌나?
기록연구사나 아키비스트가 블록체인이나 인공지능 기초개념을 알아야 하나? 적어도 인공지능 업체 담당자와 대화가 될 수준까지는 이해를 하는 게 필요해 보인다. 각 기관의 기록을 학습시키고 학습모델 만드는 걸 아키비스트가 주도해야 하나? 보다 넓은 관점으로 고민해 본다면, 신기술 환경에서도 전통적 기록관리의 기본원칙과 실무원칙은 유효한가? 아니면 기술을 주로 다루는 아키비스트가 배출되어 실무에 투입되면 되는가?