2008년 10월 14일 화요일

"Crop" 컨텐트 필터

본 포스트를 읽기 전에 펌즈 룰 파일의 구조에 대한 글을 먼저 읽으시기 바랍니다.

컨텐트 중에서 시작 태그부터 종료 태그안의 내용만을 남기고 싶을 때 사용합니다.

만약, 긁어온 웹 컨텐트가 아래와 같고,
<body>
<div>
뉴스는 어쩌구 저쩌구...
</div>
</body>

아래와 같이 "Crop" 컨텐트 필터를 정의한다면,
                <Crop StartTag="&lt;div&gt;" EndTag="&lt;/div&gt;" IncludeTags="False" />

다음과 같은 결과를 갖게 된다.
뉴스는 어쩌구 저쩌구...

"Crop" 컨텐트 필터의 속성들
  • 시작 태그(StartTag): 시작이 될 문자열. 문자열은 반드시 XML용으로 인코딩되어야 합니다. String conversion을 사용하시면 간단히 됩니다.
  • 종료 태그(EndTag): 종료가 될 문자열. 문자열은 반드시 XML용으로 인코딩되어야 합니다.
  • 시작 종료 태그 포함 여부(IncludeTags): "True"이면 포함하고, "False"이면 포함하지 않는다.
  • 에러 발생시 지나칠 지 여부(SkipOnError): "True"이면, 시작/종료 태그가 없어서 에러나는 경우에도 클리핑을 중단하지 않고, 진행합니다. 만약 "False"이면서 시작/종료 태그가 없어서 에러가 나면 해당 사이트의 클리핑은 중단되고, 다음 사이트로 넘어갑니다.

속성의 값을 입력시 주의할 점은 <, >등의 문자열은 XML에서 쓸 수 있또록 &lt;, &gt; 형태로 변경해야 한다. 변경하는 방법은 Coder’s Toolbox를 이용하면 편리하게 할 수 있다.

댓글 없음:

댓글 쓰기