반응형

빅데이터/데이터분석 with C# 7

시멘틱 웹 검색 서비스 프로젝트 5. 윈도우 서비스 설치 및 제거 – 웹 크롤링 한 후 HTML BODY 내용 파일에 기록하기[데이터분석 with C#]

using HtmlAgilityPack; using System.IO; using System.Net; using System.ServiceProcess; using System.Text; namespace DemoSVC { public partial class Service1 : ServiceBase { public Service1() { InitializeComponent(); } protected override void OnStart(string[] args) { WebClient wc = new WebClient(); wc.Encoding = Encoding.UTF8; string html = wc.DownloadString("http://ehpub.co.kr"); HtmlDocument doc..

HTML Parser 패키지 HtmlAgilityPack 설치 및 HTML BODY 내용 얻어오기

네이버 뉴스를 크롤링 해 온 것은 Open API를 이용한 것이라 XML Document로 파싱할 수 있었습니다. 웹 페이지를 크롤링 해 오려면 HTML 파서를 요구합니다. WebBrowser 컨트롤의 HtmlDocument를 사용할 수 있지만 웹 로봇에는 적합하지 않습니다. Back Ground에서 동작하는 서비스에서 WebBrowser 컨트롤의 HtmlDocument는 동작하지 않습니다. 이러한 이유로 서비스에서 동작 가능한 HTML Parser인 HtmlAgilityPack을 설치할 것입니다. 그리고 이를 이용하여 HTML Body 내용을 얻어오는 실습을 진행합니다. /* http://ehpub.co.kr * 데이터분석 with C# * 웹 사이트 body 내용 얻어오기 * 개발 전 해야 할 일: ..

뉴스 크롤링을 넘어 형태소 분석 구현

이전 강의에서 작성한 뉴스 크롤링 라이브러리를 참조 추가합니다. 그리고 이번 강의에서는 형태소를 분석하여 구현합니다. 참고로 2020년 5월 4일 저녁 7시 30분에 "스포츠"로 검색하였습니다. 1100개의 뉴스의 앞부분을 분석한 BEST50입니다. (한 글자이며 의미없는 것은 필터링하였습니다.) 50. 스포티비뉴스:33 49. KBO:33 48. 손진아:33 47. 첫:34 46. 예정:34 45. 최고:35 44. 활동:35 43. 트랙스:35 42. 교육기부:36 41. 모델:38 40. 72개월:38 39. 스포츠마케팅:39 38. 한도:40 37. 대표적인:40 36. 후원:42 35. 관계자:43 34. 개막전:45 33. 5일:46 32. 사진:47 31. SUV:47 30. 개막:49 29..

뉴스 크롤링 라이브러리 만들기3

이전 강의에서 만든 뉴스 크롤링 부분을 라이브러리로 변환하는 작업입니다. 소스 코드는 바뀐 부분이 없으며 XML 주석은 추가로 달았습니다. 소스 코드 News.cs using System; using System.Xml; namespace 네이버_뉴스_크롤링_라이브러리_제작 { /// /// News 클래스 /// public class News { /// /// 기사 제목 /// public string Title { get; private set; } /// /// 기사 url /// public string OriginalLink { get; private set; } /// /// 네이버 사이트 기사 url /// public string Link { get; private set; } /// /..

뉴스 크롤링 라이브러리 만들기2

뉴스 기사를 검색 요청하면 실제 기사를 얻어와서 출력하는 부분까지 구현합니다. 소스 코드 News.cs using System; using System.Xml; namespace 네이버_뉴스_크롤링_라이브러리_제작 { public class News { public string Title { get; private set; } public string OriginalLink { get; private set; } public string Link { get; private set; } public string Description { get; private set; } public DateTime Pubdate { get; private set; } public News(string title, stri..

뉴스 크롤링 라이브러리 만들기1

검색한 뉴스가 몇 개 있는지 조사하는 부분까지 구현합니다. 뉴스 검색 API를 사용하기 위한 초반 작업입니다. 소스 코드 NaverNews.cs using System.Collections.Generic; using System.IO; using System.Net; using System.Xml; namespace 네이버_뉴스_크롤링_라이브러리_제작 { public class NaverNews { public string SRC { get; set; } public string ID { get; set; } public string Secret { get; set; } public NaverNews(string id,string secret) { ID = id; Secret = secret; } pub..

반응형