OpenGrok 최신버전 설치하기

한 때 갑자기 배포하던 서버가 없어져서 혹시나 하는 걱정에 배포파일을 다운로드 받아 두기까지 했던 OpenGrok project가 다행히 Oracle의 GitHub 내에 자리를 잡고 잘 꾸준히 업데이트 되고 있다.

예전에 작성했던 OpenGrok 설치를 위한 글들은 너무 오래되어서 잘 맞지 않는 것도 있고 해서 최근 버전과 환경을 기준으로 다시 설치 과정을 정리했다. 이 포스팅은 잘 작성된 프로젝트의 문서인 ‘How to setup OpenGrok’을 기준으로 한 나름의 정리이다.

환경과 필요한 것들

– Ubuntu 18.4 LTS
– OpenJDK 11
– Tomcat 9
– Universal-ctags (참고: universal-ctags)
– 최신 버전의 (source code가 아닌) release file: https://github.com/oracle/opengrok/releases

설치

이 후로는 OpenGrok이 설치 되는 위치를 OPENGROK_DIR로 정의 하고 다음과 같이 환경 변수로 설정 했다고 가정한다.

설치할 디렉토리와 하위 디렉토리를 만들어 주고 소유자 권한을 $USER, 그룹 권한을 tomcat으로 설정한 다음, 배포 파일의 압축을 풀어준다.

Deployment

Tomcat9을 실행한 상태에서 http://localhost:8080/manager/html로 접근해서 deploy -> WAR file to deploy -> Choose File 버튼을 선택하고 $OPENGROK_DIR/dist/lib/source.war 경로를 찾은 다음 Deploy 버튼을 누른다.

Indexing

분석 할 source code를 $OPENGROK_DIR/src에 받아 둔 후 다음의 커맨드로 indexing을 완료하면 모든 준비가 완료된다.

Source code가 업데이트 될 때 마다 indexing을 해 주어야 하는데 커맨드가 너무 길어서 복잡하니까 bin directory를 만들고 여기에 index.sh라는 이름으로 shell script를 만들어서 넣어 주었다.

Access

indexing 까지 다 되었으면 http://localhost:8080/source에 접근하여 source code를 browsing 할 수 있다. Localhost가 아닌 외부에서 접근을 허용 하려면 tomcat의 환경을 변경해 주면 된다. (관련 내용은 인터넷에서 어렵지 않게 찾을 수 있다)

참고: universal-ctags

Ubuntu에서 apt로 설치 할 수 있는 ctags는 Exuberant ctags이지만 OpenGrok은 Universla-ctags를 요구한다. 다음의 방법으로 코드를 컴파일 하고 /usr/local/bin에 설치해서 기존의 /usr/bin/ctags 경로와 충돌하지 않도록 해준다.

TensorFlow에서 CUBLAS_STATUS_NOT_INITIALIZED 오류 문제

failed to create cublas handle: CUBLAS_STATUS_NOT_INITIALIZED

이 문제는 TensorFlow의 GPU memory growth 설정과 관련이 있다. 이 경우 GPU의 allow_grouth option을 True로 설정하면 문제를 해결할 수 있는데, Use a GPU 페이지에 따르면 tf.config.experimental.set_memory_growth()를 통해 True로 설정하거나 혹은 환경변수 TF_FORCE_GPU_ALLOW_GROWTH를 설정해서 해결 할 수 있다.

코드에 다음과 같이 환경 변수를 설정해 줄 수도 있지만,

실행 환경에 따라 문제가 발생하지 않을 수도 있어서, 나는 주로 command line에서 다음과 같이 script를 실행할 때 이 값을 함께 설정한다.

Transpose convolution의 출력 크기

Keras의 transpose convolution 2D (Conv2DTranspose) 레이어로 DCGAN을 실습해보고 있었는데 gemrator가 생성해야 하는 image가 나누다 보면 소수(prime number)가 나오는 직사각형 크기의 178×218 였다.

많은 예제 코드들에서 transpose convolution 2D의 padding을 “same”으로 지정하기 때문에 Conv2DTranspose의 출력 크기는 stride의 배수여야 한다고 오해 했었는데, 실은 padding을 “same”으로 설정하느냐 혹은 “valid”로 설정하느냐에 따라 출력의 크기가 다음과 같이 달라진다.

# padding을 ‘same’으로 설정 했을 때
Output = Input \times stride

# padding을 ‘valid’로 설정 했을 때
Output = (Input - 1) \times stride+ filter

예를 들어 다음 layer를 선언하고 (44, 54, 3) tensor를 주면 소수 값의 (89, 109, 64) tensor가 출력된다.

한글 텍스트 추출을 위한 Python PDF module

이 내용은 2020년 3월에 작성된 것으로 참조하는 시점에 따라 변경된 사항들이 있을 수도 있습니다.

PyPDF2

PyPDF2는 PDF file의 metadata 정보를 가져오거나 페이지 단위로 나누거나 합치는 등의 여러가지 편리한 기능들을 제공한다. 하지만 한글을 제대로 추출하지 못하는 문제가 있어서(한글 뿐 아니라 CJK 모두 라고 함) 목적에는 적합하지 않았다.

PDFMiner

한글 처리는 문제 없다. 그런데 페이지 단위로 나누어서 처리하는 것을 따로 지원하지 않아서 원하는 페이지에 접근하려면 순차적으로 처음부터 해당 페이지를 찾아가는 trick을 사용해야 하는데, 이 코드로 순차적 접근을 하면 시간 복잡도가 O(N^2)가 되어 파일의 크기가 조금만 커도 성능이 매우 떨어진다.

Tika

많은 곳에서 쓰이는 꽤나 유명한 프로젝트인데 Python module로도 proting 되어 있다(tika-python). 한글 추출에는 문제가 없고, 이 모듈 자체에서는 페이지 단위의 텍스트 추출을 지원하지 않으나, 그대신 PDF를 XML로 추출한 다음에 BeautifulSoupe로 <div page=””> 태그를 찾아 페이지 단위로 접근하는 신박한 트릭이 있다(StackOverflow). 나는 BeautifulSoup의 paser로 lxml을 사용했다.

주의. 명시적으로 표시 되지는 않지만 JRE(Java Runtime Environment)에 의존하므로 동작시 오류가 발생하면 JRE가 제대로 설치 되어 있고 접근 가능한지 확인해 볼 것. Ubuntu 18.04 default-jre package (OpenJDK 11)로 동작 확인.

결론

PDF 문서 자체에 대한 합치기/나누기/정보 가져오기 등은 PyPDF2가 무척 편하다. 한글 텍스트 추출을 위해서는 Tika, 페이지 단위 접근이 필요하다면 Tika + BS를 고려해 볼 만하다. PDFMiner는 뭐랄까.. 쫌 별로..

[Tip] Emac에서 pdb 사용할 때 UnicodeEncodeError

*** UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 168-169: ordinal not in range(128)

Emacs에서 shell을 열고 pdb를 실행 할 때 표시하고자 하는 문자열이 ASCII가 아니라면 발생 할 수 있는 문제인데 emacs의 초기화 파일에 unicode locale 설정을 해주는 것으로 해결할 수 있다. 인터넷 문서들 중에는 LANG, LC_LANG, LC_CTYPE 모두를 설정해 주어야 한다는 내용도 있었으나, 내 terminal에서 LC_CTYPE만 설정해서도 잘 동작되고 있으므로 이를 따라 LC_CTYPE만 UTF-8으로 다음과 같이 설정해 주었다.

Init file을 reload하거나 emac를 재 실행해서 ASCII외의 문자들이 잘 표시 되는지 확인해 본다.

그리고 GitHub repository에 업뎃. 🙂