一、校验内容
Chembox中有些参数拥有确定数据值,这类参数包括注册号、分子式等:
1.CAS号:美国化学会化学文摘社的用于化学品索引的注册号。
虽然CAS REGISTRY是个商业数据库,但是它被广泛应用,在化学品检索方面有着不可替代的重要作用。2008年的时候,Wikipedia曾经
因为使用CAS号差点和CAS产生纠纷,险些就要抵制CAS号,后来CAS做出让步,为Wikipedia提供了CA+中被引用超过1000次的化学品
的CAS号数据库,也就是下面所说的commonchemistry.org。
http://commonchemistry.org是CAS官方提供给英文维基百科Wikiproject_Chemicals的CAS号数据库,目前收录了超过7900个CAS号记录,包括CAS号、分子式、别名和结构式,以及英文维基百科条目的链接。这个数据库收录标准是化学品有超过1000个文献引用记录。因此,在此数据库中被收录也可以作为化学品具有重要性/关注度的证明。此数据库是公开免费数据库。
SciFinder是CAS REGISTRY商业数据库的查询界面,收录超过五千万的记录,可以通过名称或分子式查询。国内多数学校和研究所都有
SciFinder学术版的订阅,查询应该很方便。对于CAS号的使用,CAS提出:只要说明CAS号的版权,个人或组织可以在自己的目录中使用不超过
一万个CAS号而不需专门申请授权。鉴于目前化学品条目的
数量仅千余条,即使化学品不在commonchemistry中,使用CAS号应该也不会成为问题。
化学试剂厂商的目录也可以作为参考,但是如果发现冲突,应以SciFinder数据为准。
2. PubChem:公众化学信息数据库索引号。
PubChem是美国国家生物技术信息中心维护的化学信息数据库,拥有三千万以上的记录。与自负盈亏的CAS不同的是,PubChem由财大气粗的
NIH通过政府拨款支持。PubChem和CAS之间纠纷由来已久:PubChem说CAS以盈利为目的,无法满足公众利益,所以才需要建立供公众自由
访问的数据库,ACS自PubChem建立之初就说PubChem用政府拨款与商业公司竞争商业利益。PubChem的数据非常杂,可以查询到化学物质
的多数属性。PubChem的另一个特色是提供化学物质的层进式分类信息,方便化学品条目的分类。
http://pubchem.ncbi.nlm.nih.gov/是PubChem的主页以及Web查询界面面,可以随时使用。http://cheminfo.informatics.indiana.edu/PubChemSR/提供了桌面搜索工具PubChemSR,可以方便PubChem
cid的检索。
ChemAxon等软件也可以通过结构式检索PubChem记录。
3. 化学式:
在多数情况下,化合物的分子式应当是确定的,化学式以及结构式图片应当被核对。上述的CAS号和PubChem查询过程都会返回对应的化学式和结构
式。
4. 其他可校验的内容:
其他数据库的化学品登记号或数据索引号也通常不会改变,如ChemSpider,算是社会性开放科学的代表网站,对于维基百科来说,它的特色在于可以直
接通过生成Chembox,方便创建化学品相关条目。Chembox记录的数据库还包括Beilstein、Gmelin、RTECS、
DrugBank(~4800记录,免费)、3DMet(~6000记录,免费)、ChEBI(~21000三星以上记录,免费)、KEGG(~
9300药物记录,免费)。
官方目录编号也应该保证其准确性。EC number(包括EINECS、ELINCS、NLP),应当在http://
ecb.jrc.ec.europa.eu/esis/进行核对,预登记的物质应当去http://www.echa.europa.eu/查询。
UN number可以去http://www.unece.org/trans/danger/publi/unrec/
rev14/14files_c.html核对。
对于较小的数据库或官方目录,可以采用由数据库到条目的纵向式更新。
5. 未来可能的可校验内容:
典范SMILES(Canonical SMILES)和标准InChI(StdInChI)目前没有被应用于Chembox,因此当前Chembox
所包含的SMILES和InChI形式各异,未来如果有使用特定标准的必要,这两项也需要进行修正。未来若PIN(Preferred IUPAC
name)被IUPAC通过,IUPAC名也需要统一。
二、关注数据
由于测量方法和标准的变动和技术的改进,化学物质的物理性质和化学性质在不同文献来源中可能有很大差别。因此,这些数据没有确定值,只能列出测量值。若
常用数据文献中数值吻合,可以不单独加注(常用数据来源应列于[[Wikipedia:化学信息框]]中),若文献之间出入较大,应注明数据来源。
1.物理属性和热力学属性:
NIST webbook(http://webbook.nist.gov/,2008版,免费)的72000余条记录可以覆盖大多数常用化学物质。
需要注意的是,NIST数据条件可能是1atm或1bar,温度可能是20摄氏度或0摄氏度,需要仔细阅读其引用文献的说明。
CRC化学物理手册(http://www.hbcpnetbase.com/,2009-2010第90版)多数高校应该有网络版订阅,纸版和PDF
也很容易找到。
Merck Index(http://themerckindex.cambridgesoft.com/,2006第14版,网络版14.3),可
以看一下学校的ChemOffice授权里有没有包括免费的MerckIndex网络使用,纸板及PDF也很容易找到。
另,NIST Webbook的版权归美国商务部所有,CRC版权归Taylor & Francis Group, LLC,Merck Index
版权归Merck Sharp & Dohme Corp.所有,引用时要小心。
2.危险品信息:
联合国国际化学品安全卡(ICSC):(http://www.ilo.org/safework/info/databases/lang--en/
WCMS_113134/index.htm)是一个比较完备的危险品信息库,http://www.ilo.org/
safework_bookshelf/为英文版,http://www.brici.ac.cn/icsc/有相应的官方中文版。网络上可以找到英文
版CHM和中文版PDF文件。
至于现行欧盟危险品标准(67/548/EEC),由于其已被决议废除(由1907/2006及1272/2008替代),可以将其作为次要工作。
三、可能的工作
上述校验和关注工作并非全都要一次性进行,但是至少条目、CAS号和分子式的对应应该现行完成。有了CAS号,其他属性才能在未来存在自动或半自动补充
修正的可能。英文条目可以直接通过检索数据库去对应CAS号,中文条目基本上只能靠人工确认。
校验数据工作没有什么技巧,属于纯体力劳动,只是可能追求创建新条目的人不愿意来做。1400来个条目可以看有几个人愿意来校验,均分一下就可以了。完
成校验的条目可以在Chembox里加一条属性,这样以后也可以由机器人继续维护。
以上为Chembox相关条目维护工作的提案,欢迎讨论,共同修改完善。协同工作才是维基百科的最大优点。
印象中还有其他的号吧……
2010/7/16 吴智敏 <nishibu...@gmail.com>:
> 印象中还有其他的号吧……