PUMz 룰 관련 문의드립니다.

3 views
Skip to first unread message

Patrick Kim

unread,
Mar 28, 2011, 2:44:09 AM3/28/11
to pumz-...@googlegroups.com
최종 목표는 각 신문사들의 오피니언 섹션을 함께 클리핑하는 것과 조선일보 비즈위클리의 과월호 부분들을 클리핑해서 저장하는 것입니다.
PUMz로 클리핑 후에 isilo로 변환하면 저장가능하다고 들었습니다. 

 PUMz로 실행하면 기사 리스트 자체를 긁어오지 못하는 것으로 봐선 리스트 부분 설정이나 본문 내용 설정에서 문제가 있는 것 같은데
이것저것 수정해봐도 계속 실패를 하네요.

 혹시 가능하시다면 클리핑할 웹페이지의 소스와 PUMz룰을 비교해서 주석을 달아주실 수 있으세요? 

그리고 비즈위클리 과월호 부분은 주소가 불규칙적인 특정 날짜들로 되어있어서 어떻게 클리핑 주소 지정을 해야할 지 모르겠습니다.
좋은 방법이 있을까요?

 ex)

 p.s
어떻게 이렇게 좋은 프로그램을 만드셨는지.. 정말 존경합니다. ^.^.. 프로그래밍을 하고 싶은데 무엇을 공부해야 할지 몰라서 매번 다른분들이 수고해주신 프로그램에 무임승차하는 것 같아서 항상 죄송할따름입니다.
 벌써 3월이 저물어가네요. 행복한 3월 잘 마무리 하시길 바라며...
조선일보테스트.txt

Jinwoo Min

unread,
Mar 28, 2011, 8:40:48 PM3/28/11
to pumz-...@googlegroups.com, Patrick Kim
안녕하세요? 민진우입니다.

요청하신 것 수정해봤습니다. 첨부한 파일 참고하십시오.

과거의 날짜별로 가져오는 부분은 UrlFormat에서 PageNumber대신 날짜로 하면 될텐데, 일련번호처럼 처리가 되서 범위는 최대 한달 단위로 하셔야 할 거 같습니다. 

예를 들면...
<StartNumber>20100401</StartNumber> 
<EndNumber>20100430</EndNumber> 
<NumberTo>PageNumber</NumberTo>
그리고, 아래의 UrlFormat에서 pn (페이지번호) 대신 indate로 써야 합니다.
<UrlFormat><![CDATA[http://news.chosun.com/weeklybiz/svc/list_in/list.html?catid=${CategoryId}&indate=${PageNumber}]]></UrlFormat>

 도움이 되셨을런지 모르겠습니다.


2011/3/28 Patrick Kim <slowe...@gmail.com>
--
Google 그룹스 'PUMz Users' 그룹에 가입했으므로 본 메일이 전송되었습니다.
이 그룹에 게시하려면 pumz-...@googlegroups.com(으)로 이메일을 보내세요.
그룹에서 탈퇴하려면 pumz-users+...@googlegroups.com로 이메일을 보내주세요.
더 많은 옵션을 보려면 http://groups.google.com/group/pumz-users?hl=ko에서 그룹을 방문하세요.

chosun-weeklybiz.pumz
Reply all
Reply to author
Forward
0 new messages