본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

오픈소스 기반 데이터 스크래핑 탐지 시스템 설계 및 구현

이용수 0

영문명
Design and Implementation of Data Scraping Detection System based on Open Source
발행기관
한국전자통신학회
저자명
이지율(Ji-Yul Lee) 이용주(Yong-Ju Lee)
간행물 정보
『한국전자통신학회 논문지』제19권 제6호, 1309~1318쪽, 전체 10쪽
주제분류
공학 > 전자/정보통신공학
파일형태
PDF
발행일자
2024.12.31
4,000

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

데이터는 4차산업 혁명과 디지털 전환의 핵심 요소이다. 그러나 불법적으로 웹스크래핑을 통해 수집한 데이터는 소유자와 수집자간의 분쟁을 일으키고 있다. 데이터 소유자의 권리를 보호하기 위해 오픈소스를 기반으로 웹스크래핑을 탐지하는 시스템을 디자인하고 구현하였다. 선형회귀를 스크래핑 탐지 모델에 사용하였으며, 입력값으로 스크래핑을 시도하는 전후 시간 간격을 사용하였다. 반복적인 패턴은 선형회귀에서 일직선의 형태를 띄며 입력값이 많을수록 기울기는 0에 수렴하게 된다. 또한 선형회귀는 랜덤한 조회시간 간격의 범위를 쉽게 파악할 수 있다. 분석시스템은 DBMS간 실시간 데이터 동기화 기술을 사용한다. 이는 웹서버와 분석서버를 분리하여 부하를 분산시킨다. 데이터 분석 및 시각화 구현을 위해 R과 Shiny 패키지를 사용하는데, 이는 복잡한 분석 기능을 쉽게 제공하고 반응형 웹 대시보드를 제공한다.

영문 초록

Data is very important factor of the 4th industrial revolution and digital transformation. However, data illegally collected through Web-scraping creates disputes between data owners and scrapers. In order to protect the rights of data owners, I study methods to detect malicious Web-scraping, and design and implement open source based data scraping detection system. Linear regression is used as a scraping detection model. As an input value, time interval records of scraping attempt between before and after are used. A repetitive pattern takes the form of a straight line which is linear regression, and as the number of inputs increases, the slope converges to zero. Additionally linear regression makes it easy to infer the range of randomly query time intervals. The analysis system uses the current data capture technology which synchronizes data by transmitting data to heterogeneous DBMS in real time. This has the effect of distributing the load by separating the Web server and analysis server. R and Shiny package is used for data analysis and visualization, It supports analysis packages that implement complex functions simply and develop responsive web dashboards quickly without much knowledge of the Web development.

목차

Ⅰ. 서 론
Ⅱ. 관련 연구
Ⅲ. 스크래핑 탐지 시스템 설계
Ⅳ. 스크래핑 탐지 시스템 구현
Ⅴ. 결론
References

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

이지율(Ji-Yul Lee),이용주(Yong-Ju Lee). (2024).오픈소스 기반 데이터 스크래핑 탐지 시스템 설계 및 구현. 한국전자통신학회 논문지, 19 (6), 1309-1318

MLA

이지율(Ji-Yul Lee),이용주(Yong-Ju Lee). "오픈소스 기반 데이터 스크래핑 탐지 시스템 설계 및 구현." 한국전자통신학회 논문지, 19.6(2024): 1309-1318

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제