학술논문
오픈소스 기반 데이터 스크래핑 탐지 시스템 설계 및 구현
이용수 0
- 영문명
- Design and Implementation of Data Scraping Detection System based on Open Source
- 발행기관
- 한국전자통신학회
- 저자명
- 이지율(Ji-Yul Lee) 이용주(Yong-Ju Lee)
- 간행물 정보
- 『한국전자통신학회 논문지』제19권 제6호, 1309~1318쪽, 전체 10쪽
- 주제분류
- 공학 > 전자/정보통신공학
- 파일형태
- 발행일자
- 2024.12.31
4,000원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.
국문 초록
데이터는 4차산업 혁명과 디지털 전환의 핵심 요소이다. 그러나 불법적으로 웹스크래핑을 통해 수집한 데이터는 소유자와 수집자간의 분쟁을 일으키고 있다. 데이터 소유자의 권리를 보호하기 위해 오픈소스를 기반으로 웹스크래핑을 탐지하는 시스템을 디자인하고 구현하였다. 선형회귀를 스크래핑 탐지 모델에 사용하였으며, 입력값으로 스크래핑을 시도하는 전후 시간 간격을 사용하였다. 반복적인 패턴은 선형회귀에서 일직선의 형태를 띄며 입력값이 많을수록 기울기는 0에 수렴하게 된다. 또한 선형회귀는 랜덤한 조회시간 간격의 범위를 쉽게 파악할 수 있다. 분석시스템은 DBMS간 실시간 데이터 동기화 기술을 사용한다. 이는 웹서버와 분석서버를 분리하여 부하를 분산시킨다. 데이터 분석 및 시각화 구현을 위해 R과 Shiny 패키지를 사용하는데, 이는 복잡한 분석 기능을 쉽게 제공하고 반응형 웹 대시보드를 제공한다.
영문 초록
Data is very important factor of the 4th industrial revolution and digital transformation. However, data illegally collected through Web-scraping creates disputes between data owners and scrapers. In order to protect the rights of data owners, I study methods to detect malicious Web-scraping, and design and implement open source based data scraping detection system. Linear regression is used as a scraping detection model. As an input value, time interval records of scraping attempt between before and after are used. A repetitive pattern takes the form of a straight line which is linear regression, and as the number of inputs increases, the slope converges to zero. Additionally linear regression makes it easy to infer the range of randomly query time intervals. The analysis system uses the current data capture technology which synchronizes data by transmitting data to heterogeneous DBMS in real time. This has the effect of distributing the load by separating the Web server and analysis server. R and Shiny package is used for data analysis and visualization, It supports analysis packages that implement complex functions simply and develop responsive web dashboards quickly without much knowledge of the Web development.
목차
Ⅰ. 서 론
Ⅱ. 관련 연구
Ⅲ. 스크래핑 탐지 시스템 설계
Ⅳ. 스크래핑 탐지 시스템 구현
Ⅴ. 결론
References
해당간행물 수록 논문
- 한국전자통신학회논문지 제19권 제6호 목차
- 산업용 이더넷 기반 VLBI 수신기 M&C 구현에 관한 연구
- KoBERT 기반 비속어 검출 모델 및 FAST API 서버 구현
- 영구자석 형상에 따른 10kW급 축방향 자속 인 휠 모터의 토크 특성 개선에 관한 연구
- 딥 러닝을 통해 스마트 그리드 이상 탐지 기능 강화
- 웹소설 TTS를 위한 KoBERT 기반 문장 유형 판별 시스템
- 환경데이터 학습을 통한 AI 기반 노지 스마트팜 설계
- Mask R-CNN 알고리즘의 의미론적 분할에 대한 마스크 기반의 성능 평가
- 사물인터넷의 기술발전: 지능형 사물인터넷(AIoT)
- 국가유산 보존을 위한 Computer Vision기반 CNN 알고리즘을 이용한 소유권 공유 시스템
- 사용자 의도 인식을 위한 KoGPT2기반 SSVEP를 활용한 Mind Sentencer 시스템
- UWB 기반 자동 Anchor 좌표 결정 기법을 이용한 측위 시스템
- 농촌 환경에서의 자율 주행이 가능한 방제 로봇 플랫폼
- 건축 미장 작업 효율화를 위한 이동형 로봇의 후륜 서스펜션 설계 및 적용
- 보행탐지시스템에서 통계적 추정 방식을 활용한 경보정확도 향상에 관한 연구
- 생체 신호 분석을 통한 감성 추론 기술 개발에 대한 연구
- 칼로리 소모량 분석을 통한 체형 변화 예측 시스템
- 아두이노를 이용한 지하철 혼잡도 및 잔여 좌석 확인 시스템 설계 및 구현
- 개념의 어휘 특성을 이용한 SNOMED CT 용어체계 계층 구조의 일관성 향상 기법
- GPS기반 애완동물 인식형 센서관리시스템 구현
- 웨어러블 디바이스를 위한 PIFA 설계
- PE-11을 이용한 Ethernet 포트가 없는 HMI의 RS-485 통신에 관한 연구
- 풍력발전기의 진동분석을 통한 고장진단 사례연구
- 동축 마그네틱 기어의 폴 피스 형상에 따른 최적 설계
- 시간 영역 비교기를 사용한 PAM-4 ZQ 보정 회로 설계
- 매입형 영구자석 동기전동기의 최적 속도 제어
- 재생에너지 발전량 예측을 위한 LSTM-Autoencoder
- BLDC 모터 드라이빙 전용 IC를 적용한 정구공 발사기 모터 드라이버 설계 및 구현에 관한 연구
- 효율적인 촬영을 위한 OpenCV 및 Dlib을 활용한 실시간 정면 얼굴 판별 시스템
- 사용자의 문해력 향상을 위한 LLM기반 문제 생성 시스템
- 다중 헤드 어텐션과 결합한 convLSTM을 활용한 군중 밀도 예측
- 특화망에 적용가능한 인셋 급전 구조를 갖는 1×8 DLP 배열 안테나의 설계 및 제작
- 모노펄스 추적을 위한 파라볼라 반사경 안테나의 급전부 구성에 따른 추적 성능에 관한 연구
- GTZO 박막의 두께 변화에 따른 구조적, 전기적 및 광학적 특성 연구
- 파장 분할 다중방식을 활용한 광섬유 센서 기반의 실시간 원격 수위 감시 시스템
- TMR voting 제어방식의 터빈속도 측정장치 개발 연구
- 학생 지원 데이터를 활용한 생성형 AI 모델 설계
- 학습 기반 영상 압축 국제 표준(JPEG AI)의 주요 특징 및 성능 평가
- 다이내믹 스피커의 크기에 따른 음향특성의 고찰
- 인공지능 기반 중증 악화 예측 가능한 고성능 환자 감시 시스템 개발
- 검색증강생성(RAG) 기반 기업 맞춤형 챗봇(Chatbot) 시스템 구축 및 활용
- 비접촉 전류측정센서를 활용한 화재 감지 및 과전류 차단 멀티탭
- 오픈소스 기반 데이터 스크래핑 탐지 시스템 설계 및 구현
- 광합성 광양자속밀도 기반의 광시뮬레이션 제안 및 실증에 관한 연구
- 정보보안 처벌과 정책 정당성 인식의 역할: 규범적 영향 민감성의 역할
- 광학기법을 이용한 흰 연기 혼탁도 측정법의 개선연구
- 유수식 육상 양식장 수질 환경 정보와 생육 정보 빅데이터 분석 프로세스 개발
- 토마토 당도 예측을 위한 회귀분석과 시계열 분석 비교 연구
- 생물학적 표시기를 이용한 멸균 자동 판독장치 개발에 관한 연구
- 프레스 데이터를 활용한 GAN 기반 품질예측모델 연구
- 해양침적쓰레기 데이터 분석을 바탕으로 한반도 연안의 해양침적쓰레기 탐지 및 관리를 위한 방법론
참고문헌
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!