판결문 텍스트 복잡계 데이터분석 사례

법원 판결문 텍스트 내용의 연관성 분석 및 네트워크 시각화


The Situation

  석사 과정을 진행 중인 U고객은 '판결문에 사용되는 단어 구조에 따라 판결의 결과가 다를 것이다'라는 주제로 논문을 작성하고 있었습니다. 그러나 가설을 입증하기 위한 분석 방법론을 공부하기엔 시간이 부족했습니다. 복잡계 네트워크 분석을 통해서 자신이 진행하고자 하는 논문의 신뢰성 분석 결과물을 도출하고 근거를 도출하고 싶다는 것이 고객의 목적이었습니다. 그리고, 논문의 내용은 법원 판결문의 하자판결 내용에 대한 신뢰성을 분석하고 연구하는 것이었습니다. 


Our Approach

  고객의 문의를 받고 프로젝트를 착수하기 전, 사전 인터뷰를 진행하여 네트워크 분석의 결과물에 대한 샘플 이미지를 간단하게 보여드려 원하는 결과물의 형태가 맡는지 여쭤봐야겠다고 판단하였습니다. 결과물의 방향성에 대한 의견 조율과 함께 어떤 데이터로 어느 부분의 텍스트 데이터를 네트워크 분석을 하는데 사용할지에 대한 의견을 조율하는 과정을 거쳤습니다.

최종적으로 각 판결문 별 사용되는 단어들의 연관성을 분석하고자 하는 목적에 맞춰 프로젝트에 착수했습니다.


Our Recommendations

  우선 고객으로 부터 분석을 하고자 하는 판결문의 데이터를 전달받았습니다. 첫 번째 단계로 PDF 형식의 판결문 이미지 파일을 OCR 프로그램을 통해서 텍스트 형태의 문서로 변경하는 단계를 거쳤습니다. 두 번째 단계에서는 엑셀파일로 각 판결문의 사건번호별로 컬럼을 지정했고 사건번호 별 세부 판단 항목 및 인정여부를 하위 컬럼으로 구분했습니다.

세 번째 단계에서 사건번호별 판단 항목에 대한 판단 내용 텍스트 데이터를 가져오기 위해 두 번째 단계에서 구분한 컬럼정보를 참고하여 새로운 엑셀파일로 법원정보, 사건번호, 항목, 인정여부, 항목원본, 판단 등 6개의 컬럼을 지정하고 각 컬럼에 해당하는 내용을 정리했습니다. 이후 세부적인 데이터에 대한 의견을 주고받으며 엑셀 내 정보를 조정하는 작업을 거쳤습니다.

네 번째 단계로 분석 언어를 선택하였고 Jupyter Notebook 서버환경을 선택했습니다. Pandas 라이브러리를 이용해서 세 번째 단계에서 정리한 Excel 파일을 가져오고 각 사건번호별로 데이터를 구분했습니다. 판결문의 텍스트를 분석하기 위해 네 번째 단계에서 각 사건번호별로 구분한 데이터에 들어있는 항목별 판단문을 하나의 문장화로 변형하고 형태소 분석기를 이용해 단어별로 분류했습니다. 이후 형태소 분석기를 통해 분류된 단어들이 각 사건번호 내 판결문에서 얼마나 언급되었는지 빈도수를 파악했습니다.

각 단어의 연관성 분석을 위해 형태소 분석기를 통해 분류된 단어들과 사건번호 별 단어들의 언급 빈도수를 TF-IDF 라이브러리를 이용해 분석을 진행하였습니다. 마지막으로, Pyvis 라이브러리를 이용하여 각 사건번호와 판결문에 사용된 단어들의 연관도 결과물을 네트워크 형태로 시각화하였습니다.

아래는 판결문 텍스트 복잡계 구현 프로세스를 요약한 내용입니다.

  • 이미지 파일을 텍스트 형태의 문서로 변환
  • 판결문내 사건별 컬럼 지정 및 세부 판단 내용을 구분
  • 고객과의 의견 조율 및 세부 컬럼 내용 정리
  • 분석 언어 및 환경 정의
  • 사건별 데이터 분류
  • 판결문 문장화
  • 형태소 분석기를 사용한 단어별 분류
  • 단어별 언급 빈도수를 통한 연관성 분석
  • Pyvis 라이브러리를 통해 단어들의 연관도를 반영하여 네트워크 형태로 시각화


Results

  각 판결문과 사용된 단어별 연관도를 분석한 네트워크 시각화 자료 결과물 및 분석과정의 녹화본 전달





여러분의 고민을 전문가와 공유하고

문제를 해결하세요


상담하기




433 0