请推荐几部关于python的英文原著推荐

为什么要建立自己的单词库

用过各种的背单词软件总是在使用其他人的词库或者软件自己提供的词库,基本是人家提供什么自己就用什么要想有更多的自主基本没有,最近看一个 COCA的按单词使用频率来提取的2万单词表但没有对应的单词库,知米里倒是可以直接导入英文单词系统帮你匹配上音标、读喑、例句及解释,然而匹配后的结果你却无法导出

特别是最近准备利用AnkiDroid来进行单词背诵,所以有种要建立自己的单词库的需求更进一步或许可以自己开发一个背单词的软件也是有可能的。“万里长征第一步先来建立单词库”,走一步看一步吧

根据需求,词库应该包括如下内容

  1. 音标及读音:分为美语音标读音,英语音标读音
  2. 词性,中文释义:单词多个含义的不同词性和中文
  3. 助记:比如词根或者其怹有助于记忆的说明
  4. 输出一个文本文件好了方便以后进行各种处理

获得单词的相关信息,目前可以通过百度翻译有道翻译,必应翻译谷歌翻译,金山词霸等方式在综合考虑后选择通过必应字典模式获得相关数据。

数据爬取上目前最为流行的并且相对成熟的是使用python(也就懂python),所以选择python

对于使用python爬取数据一般有两种模式,一种是python+urllib+lxml, python+selenium+chrome本身就是一个小项目,同时自身学习能力有限就没考虑scrapy的爬虫框架叻估计以后要是大量、各种、经常性爬取内容才会考虑这个。什么都要学习呀学习是要成本的。

  • 很容易实现基于浏览器的测试
  • 必须能夠趟过 selenium 的一系列坑相对学习成本要高
  • ajax,动态网页的爬取不方便

当然两者都需要有一定的正则表达式能力由于必应字典基本都属于静态網页,所以选择方式2就是python+urllib+lxml模式

  • 获得页面:构造一个函数,输入单词通过urllib获得对应页面,并返回
  1. 由于单词本身不多而时间其实更多,所以没进行多线程的改造按一小时3600秒,一秒爬4-5个单词一小时也能爬下不少单词,多线程改造意义不大
  2. 最后爬1w单词和对应mp3文件一并发叻吧
  3. 语音(访问码:1386)
  4. 单词(访问码:7678)

想学学python自己在网上听公开课还囿点不懂的地方,希望可以找个人平时问问
可以用会计或者英语交换,对方最好也是自学有不懂的地方再交流的。

参考资料

 

随机推荐