为什么要建立自己的单词库
用过各种的背单词软件总是在使用其他人的词库或者软件自己提供的词库,基本是人家提供什么自己就用什么要想有更多的自主基本没有,最近看一个 COCA的按单词使用频率来提取的2万单词表但没有对应的单词库,知米里倒是可以直接导入英文单词系统帮你匹配上音标、读喑、例句及解释,然而匹配后的结果你却无法导出
特别是最近准备利用AnkiDroid来进行单词背诵,所以有种要建立自己的单词库的需求更进一步或许可以自己开发一个背单词的软件也是有可能的。“万里长征第一步先来建立单词库”,走一步看一步吧
根据需求,词库应该包括如下内容
获得单词的相关信息,目前可以通过百度翻译有道翻译,必应翻译谷歌翻译,金山词霸等方式在综合考虑后选择通过必应字典模式获得相关数据。
数据爬取上目前最为流行的并且相对成熟的是使用python(也就懂python),所以选择python
对于使用python爬取数据一般有两种模式,一种是python+urllib+lxml, python+selenium+chrome本身就是一个小项目,同时自身学习能力有限就没考虑scrapy的爬虫框架叻估计以后要是大量、各种、经常性爬取内容才会考虑这个。什么都要学习呀学习是要成本的。
当然两者都需要有一定的正则表达式能力由于必应字典基本都属于静态網页,所以选择方式2就是python+urllib+lxml模式
想学学python自己在网上听公开课还囿点不懂的地方,希望可以找个人平时问问
可以用会计或者英语交换,对方最好也是自学有不懂的地方再交流的。