微信公众号数据采样试验
...
Python工程项目的规范开发指南
1. 系列文章网页爬虫第一课:从案例解构爬虫基本概念填坑18年:我总结的CSS选择器爬虫数据持久化方式的选择爬取静态博客网页以分析本网站拓扑结构python程序的性能测试及瓶颈分析Python工程项目的规范开发指南 2. 学习动机以史为鉴, 可以少走弯路, 这对于一个新手来说是难得的经验. 在文章 Python开发避免踩坑指南 中, 作者提到: 写这篇文章的主要目的是帮助刚刚入门Python的同学和从其他语言转过来的同学,快速熟悉Python一般的生态圈,比如IDE使用、虚拟环境、项目结构管理、Debug、版本管理等等. 本文主要包含以下几个方面: 配置开发环境 虚拟环境管理和pip 项目目录结构 代码风格 版本管理 这些经验对于python程序开发的规范性是非常经典的指南. 而随着新技术、新工具的发展, 这些python程序开发规范有了新的演绎. 为了简明起见, 我将上述开发规范精简为以下几个方面、并按照循序渐进的顺序排列: 配置开发环境 程序版本管理 项目目录结构 代码风格 3. 配置开发环境在文章 [1] 中, 作者使用virtualenv作为开发环境隔离的工具. 在我看来,...
计算技术的稻香村(新手涨见识)
...
python程序的性能测试及瓶颈分析
1. 系列文章网页爬虫第一课:从案例解构爬虫基本概念填坑18年:我总结的CSS选择器爬虫数据持久化方式的选择爬取静态博客网页以分析本网站拓扑结构python程序的性能测试及瓶颈分析Python工程项目的规范开发指南 2. 正文
爬取静态博客网页以分析本网站拓扑结构
1. 系列文章网页爬虫第一课:从案例解构爬虫基本概念填坑18年:我总结的CSS选择器爬虫数据持久化方式的选择爬取静态博客网页以分析本网站拓扑结构python程序的性能测试及瓶颈分析Python工程项目的规范开发指南 2. 需求分析 提取各个网页的超链接, 用于对网站拓扑结构进行分析; 提取各个网页的其它元数据, 用于对博客文章从多个角度进行统计; 不要提取全文数据, 因为我此次不做文本的语义分析. 3. 功能设计 获取博客所有文章的列表. 通过文章列表对每篇文章进行索引, 获取元数据. 对于单个博客站点的爬取数据,在磁盘上用JSON进行存储. 可视化: 网站的拓扑结构(本文目标), 获取每篇文章的元数据(用于将来的文本分析), 包括: title 本文URL(且中文没有转义编码) 发表时间 分类 tags 外部超链接(external URL) 正文文本(暂时不提取正文, 怕麻烦; 而且目前用不着文本分析) 4. 技术实现4.1. 配置基础工具1234567891011121314151617181920import requestsfrom bs4 import BeautifulSoupimport reimport pprintfrom urllib import...
爬虫数据持久化方式的选择
系列文章网页爬虫第一课:从案例解构爬虫基本概念填坑18年:我总结的CSS选择器爬虫数据持久化方式的选择爬取静态博客网页以分析本网站拓扑结构python程序的性能测试及瓶颈分析Python工程项目的规范开发指南 存储方案的选择爬虫数据的存储目前有以下几种方式: TXT文本文件存储 JSON文件存储 CSV文件存储 MySQL存储 MongoDB文档存储 Redis缓存存储 Elasticsearch搜索引擎存储 RabbitMQ的使用 作为个人使用, 从数据的”存储便捷性-多种工具间的兼容性-可拓展性”的角度出发, 我选择综合使用下述方案: 在本地, 当数据文件较少时, 用”JSON文件存储”; 在本地, 当数据文件较多时, 用”MongoDB文档存储”; 在云端, 用”Elasticsearch搜索引擎存储”, 同时本地的MongoDB数据的文件定期上传到云端的Elasticsearch. 上面的过程慢慢来. 在本文中今天先学会JSON文件存储. JSON文件存储python的json字符串形如: 123456json_str = [ { "name": "hellokitty", ...
大模型在自动驾驶领域的应用(下:可行性).tbd
1. 系列文章大模型在自动驾驶领域的应用(上:可能性)语言大模型的本地部署.lite自有数据辅助的大语言模型问答精度改进大模型在自动驾驶领域的应用(下:可行性).tbd 背景本文承接大模型在自动驾驶领域的应用(上:可能性)结尾的问题: 大模型在智慧交通/自动驾驶领域的落地的前景会是怎样的? 可行性如何?
我神不知鬼不觉地成了GitHub开源贡献者
1. 前因后果最近在写博客文章ChatGPT 广泛应用带来的风险和危机的时候, 需要较多的引用参考文献. 于是我想着找找, 看看hexo有没有插件用于作为参考文献的. 一番机缘之下, 我找到了hexo-reference-new, 遗憾的是, 这个插件只能支持引文的”硬编码”( 即[^1.]这样的格式), 不支持[^someReference.], 自然也无法支持文献的自动编号(auto numbering). 引文无法自动编号简直是反人类好吧~ 😞 巧合的是, 瞌睡来了送枕头. 我在这个repo中看到了这样一个PR: modified render logics to support non-number footnote marks. 这个PR实现功能正是用[^someReference.]编制引文, 并对引文自动编号. 遗憾的是, hexo-reference-new的管理员对这个2019年并没有兴趣合并. 更遗憾的是, modified render logics to support non-number footnote marks作者的repo也有部分代码是落后于hexo-reference-new的, 难道鱼与熊掌就不可兼得了嘛? 我擦~...
填坑18年:我总结的CSS选择器
1. 系列文章网页爬虫第一课:从案例解构爬虫基本概念填坑18年:我总结的CSS选择器爬虫数据持久化方式的选择爬取静态博客网页以分析本网站拓扑结构python程序的性能测试及瓶颈分析Python工程项目的规范开发指南 2. CSS选择器这个坑我18年前就该填了. 十八年前, 我还是一个沉不住气的小朋友, 遇到困难随时准备放弃的那种. “CSS选择器”就是其中一个. 这么多年来, 这个坑时不时地折磨我一下, 让我错失很多机会. 痛定思痛, 今天我就要在两篇材料的辅佐下[1][2], 把它彻底解决掉. 下面首先给出全文总结出的CSS选择器的概览. 真是简单啊~ mindmap root((CSS选择器)) 基本选择器 element .class #id * 多元素组合选择器 element,element element element element>element element+element element1~element2 .class1.class2 .class1 .class2 属性选择器 ...
网页爬虫第一课:从案例解构爬虫基本概念
1. 系列文章网页爬虫第一课:从案例解构爬虫基本概念填坑18年:我总结的CSS选择器爬虫数据持久化方式的选择爬取静态博客网页以分析本网站拓扑结构python程序的性能测试及瓶颈分析Python工程项目的规范开发指南 2. 缘起kindle中国在2024-06-30彻底关闭之后, 用户购买的电子书甚至都不能下载了. 太可恶了! 西方发达资本主义国家的老板们, 良心真是大大滴坏~ 资本家们算是指望不上了, 咱们还是积极自救吧… 瞅着将近一千本的电子书, 真是欲哭无泪啊 😒😭 还好有大神从天而降, 发明了神器: Kindle_download_helper. 将这个开源程序作为第一个研究对象. 对于这个工具的试用方法可以参见这篇教程: 一键批量下载 Kindle 全部电子书工具 + 移除 DRM 解密插件 + 格式转换教程 (开源免费). 对了, 万一要是没有大神怎么办? 一千本电子书如果手动下载, 一本书1分钟, 1000分钟就是17个小时, 我擦~ 一天花17个小时搞这破事儿, 太不划算了. 不行, 我也要学会爬虫. 虽然说 “爬虫玩的好, 牢饭吃到饱”, 但是咱可以偷偷摸摸地玩嘛~ 🤣 说干就干, 这篇就借着Kindle_download_helper的东风,...