1,我在做 正则表达时, 我用了如下的语句: if ($KnowEn[$i] =~ /\$Instance/)
{
print $KnowEn[$i] ."\n";
}
系统总是对这个报错。我想知道,是什么原因呢 ? 我现在猜测是:$KnowEn[$i]与循环有关,出了问题,环不下去,还有原文件里有空白的行。
2, 另外,我想从一个网页里,把我需要的信息抓取下来,要从哪里入手呢?比如这个网站:
http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#
有如下信息,有些是重要的,有些不重要。
1 11-beta-Hydroxysteroid Dehydrogenase Type 1 11-β-羟甾脱氢酶1型 2 0 0 0
2 11-beta-Hydroxysteroid Dehydrogenase Type 2 11-β-羟甾脱氢酶2型 0 0 0 0
3 11-beta-Hydroxysteroid Dehydrogenases 11-β-羟甾脱氢酶类 73 23 12 1
4 4-(3-Butoxy-4-methoxybenzyl)-2-imidazolidinone 4-(3-丁氧基-4-甲氧基苄基)-2-咪唑
啉酮 0 0 0 0
5 4-1BB Ligand 4-1BB配体 80 24 24 0
6 4-Butyrolactone 4-丁内酯 74 16 2 5
7 8-Bromo Cyclic Adenosine Monophosphate 8-溴环腺苷一磷酸 9 1 0 0
8 B-Cell Activating Factor B-细胞激活因子 96 37 33
--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖,请发送电子邮件至 perl...@googlegroups.com。
要取消订阅此网上论坛,请发送电子邮件至 perlchina+...@googlegroups.com。
若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。
11-beta-Hydroxysteroid Dehydrogenase Type 1 ... |
��ʲô�?����Ҫ�Ĵ�����Ϣ�벻Ҫʡ�ԡ�
>
>
>
> 2�� ���⣬�����һ����ҳ�������Ҫ����Ϣץȡ������Ҫ�����������أ����������վ��
> http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#
> ��������Ϣ����Щ����Ҫ�ģ���Щ����Ҫ��
����Ҫ��ץ��ҳ(ͨ�� LWP �� WWW::Mechanize ����)��Ȼ�������ݵķֲ���ƥ
��(�����ͨ������ƥ����� CPAN �ϵ�һЩģ��)��
���� LWP ��һ���̳� http://wiki.perlchina.org/LWP��WEB�Ļ�ʹ��
������Ҫץȡ����������һ�� html table ������ʹ��
CPAN(search.cpan.org) ���ڶ�Ľ��� table ��ģ�飬���� HTML::TableExtract
�� HTML::TableParser��
Qiang (James)
xuanshi wrote:
> Hi all
>
>
> 1,我在做 正则表达时, 我用了如下的语句: if ($KnowEn[$i] =~ /\$Instance/)
> {
> print $KnowEn[$i] ."\n";
> }
> 系统总是对这个报错。我想知道,是什么原因呢 ? 我现在猜测是:$KnowEn[$i]与循环有关,出了问题,环不下去,还有原文件里有空白的行。
>
报什么错?最重要的错误信息请不要省略。
>
>
>
> 2, 另外,我想从一个网页里,把我需要的信息抓取下来,要从哪里入手呢?比如这个网站:
> http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#
> 有如下信息,有些是重要的,有些不重要。
你需要先抓网页(通过 LWP 或 WWW::Mechanize 即可),然后根据内容的分布来匹
配(你可以通过正则匹配或是 CPAN 上的一些模块)。
这是 LWP 的一个教程 http://wiki.perlchina.org/LWP与WEB的基本使用
鉴于你要抓取的内容是在一个 html table 里,你可以使用
CPAN(search.cpan.org) 上众多的解析 table 的模块,例如 HTML::TableExtract
和 HTML::TableParser。
Qiang (James)
两者的整合
snyh �:
> HTML::TreeBuilder::Select
>
> ���ߵ����
>
> �� 2010��8��2�� ����9:31��azure wang <azur...@gmail.com> ���
>
>> HTML::Selector::XPath��
>> ���HTML::TreeBuilder::XPath;��ǿ�� ��CSSѡ����������ȡ���� ��Jquery���Ƶ��� �dz�����
>> ����
>>
>> div#footer a id��footer��div �µ���������
>>
>> �� 2010��7��30�� ����6:03��cnhack TNT <cnha...@gmail.com>���
>>
>>> ��ҳ��Ϣ��ȡ���� Web::Scraper �᷽��ö�
>>> http://perlchina.org/advent/2009/WebScraper.html
>>>
>>> 2010/7/30 Qiang (James) <shij...@gmail.com>
>>>
>>>> xuanshi wrote:
>>>>
>>>>> Hi all
>>>>>
>>>>>
>>>>> 1�������� ������ʱ�� ���������µ���䣺 if ($KnowEn[$i] =~ /\$Instance/)
>>>>> {
>>>>> print $KnowEn[$i] ."\n";
>>>>> }
>>>>> ϵͳ���Ƕ�������?����֪������ʲôԭ���� �� �����ڲ²��ǣ�$KnowEn[$i]��ѭ���йأ��������⣬������ȥ������ԭ�ļ����пհ��С�
>>>>>
>>>>>
>>>> ��ʲô�?����Ҫ�Ĵ�����Ϣ�벻Ҫʡ�ԡ�
>>>>
>>>>
>>>>>
>>>>> 2�� ���⣬�����һ����ҳ�������Ҫ����Ϣץȡ������Ҫ�����������أ����������վ��
>>>>> http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#
>>>>> ��������Ϣ����Щ����Ҫ�ģ���Щ����Ҫ��
>>>>>
>>>> ����Ҫ��ץ��ҳ(ͨ�� LWP �� WWW::Mechanize ����)��Ȼ�������ݵķֲ���ƥ
>>>> ��(�����ͨ������ƥ����� CPAN �ϵ�һЩģ��)��
>>>>
>>>> ���� LWP ��һ���̳� http://wiki.perlchina.org/LWP��WEB�Ļ�ʹ��
>>>>
>>>> ������Ҫץȡ����������һ�� html table ������ʹ��
>>>> CPAN(search.cpan.org) ���ڶ�Ľ��� table ��ģ�飬���� HTML::TableExtract
>>>> �� HTML::TableParser��
>>>>
>>>> Qiang (James)
>>>>
>>>>
>>>>
>>>
>>
>> --
>> Azure.Wang
>>
>>
>
>
--
Perl���� -- http://www.perlersh.org
�ҵIJ��� -- http://www.perlersh.org/blog.html
���Ե������˵����
�˷���Ե�����Ǵ�ɳ��˵��
Beckheng Lam �: