본문 바로가기

프로젝트5

[Python] TF-IDF 유사도 측정을 통한 문서 요약 프로그램 문서 요약 필요한가? 하루에 몇 백장의 사건 서류를 읽어야하는 판사님들, 밤새가며 공부하는 학생들 뿐 아니라 항상 글을 읽으며 살아가는 사람들이 있습니다. 하지만 만약 서류나 글을 조금이라도 줄일 수 있다면 어떨까요.만약 1000 줄 중 가장 중요한 1,2 줄만 바로 볼 수 있다면? 업무시간을 줄이는 데 보다 도움을 줄 수 있지 않을까요? 문서 요약 프로그램 자연어 처리 기술과 유사도 측정, 구글의 Page-Rank 검색 알고리즘을 사용하여 만든 문서 요약 프로그램 입니다. 수능 2018 년도 과학 지문을 예로 들어 한 단계씩 볼까요? 가장 먼저 문서에서 필요한 부분만 추출해내는 전처리 과정을 진행합니다. 일단 문서를 문장 단위로 끊어 볼까요. 일반적으로 문장의 핵심은 어미나 조사가 아닌 명사와 동사 입.. 2019. 1. 31.
공공데이터 open api 사용법 작성중 library(tidyverse)library(magrittr)library(XML) api_url 2019. 1. 27.
[변호사 시험] 1 ~ 7 회 합격률 순위 변화 그래프 합격률 순위 변화 그래프 [로스쿨 입시 분석 보고서, Gomguard Data Strategy Consulting] 자료 중 일부분을 발췌 합니다.본 자료는 변호사 시험 합격률을 순위로 그려낸 그래프 입니다. 7회 시험 기준으로 순위를 정렬하였습니다.이 자료는 로스쿨 졸업자 뿐 아니라 입학을 원하는 학생들에게도 중요하게 작용할 수 있습니다. 변시의 합격률은 지원자의 법학관련 경험이나 학점과 상관이 있는 것으로 분석되기 때문입니다.본 글에서는 [로스쿨 입시 분석 보고서, Gomguard Data Strategy Consulting] 에서 다루는 로스쿨 입학자들과의 상관관계 분석 부분은 제외하고 단순한 사실만 기술하였습니다. 1 ~ 5 순위 7회 변호사 시험 기준 1 ~ 5 순위는 서울대, 연세대, 고려대,.. 2018. 5. 1.
[Python] 법률 용어 학습 어플리케이션 Part. 2 2018/01/29 - [프로젝트] - [Python] 법률 용어 학습 어플리케이션 Part. 1 제작 과정 법전 구한 뒤, 법률 용어 사전을 만들고 DB 구축해서 어플리케이션을 만드는 아주 간단한 구조 입니다. Step. 01 법전 구하기 법전을 먼저 구해야 합니다. 변호사 시험이 헌법, 형법, 민법, 상법, 형소, 민소 로 6개로 이루어져 있기 때문에 이 6가지 법전을 한자버전으로 구합니다.국가 법령 정보센터 사이트에 접속하면 어렵지 않게 hwp 파일들을 구할 수 있습니다. Step. 02-1 한자사전 만들기 일단 한자사전을 만드는 과정이 있어야합니다. 한자사전은 naver 한자사전에서 크롤링 하여 각 단어들의 뜻을 찾는 방법으로 만들어볼 예정입니다.과정은 다음과 같습니다. 가장 먼저 한자로 구성된 .. 2018. 1. 30.