027 数据采集器的进化:自动化的起点(2 / 3)

加入书签

nbsp;“哪九成?”她问。

    “印的。手写的不行。”

    她拉开椅子坐下,接过鼠标:“那我就补手写的。”

    他没拦她。她打开另一台终端,调出原始扫描图与识别结果对照界面,一边核对一边标注修正项。两人没再说话,只有键盘敲击声和偶尔的提示音。窗外天色彻底暗下来,远处高架桥上的车灯拉出细长的光带。

    到夜里十一点,三十二张报纸数据完成迁移。林悦揉了揉眼睛,指着其中一条记录:“这个‘涨幅’后面的手写数字,你看是‘5.3’还是‘6.3’?”

    他凑过去看,放大图像。纸面有折痕,墨迹晕开了一角。他拖动对比工具,调出同一位置的前日报纸字体样本,比对笔锋走向。

    “是5。”他说,“收笔没有上挑。”

    她点头,输入修正值,提交入库。

    静了几秒,她忽然说:“你说机器是为了省时间,不是替人。可你现在做的,是不是让机器慢慢学会替你做决定?”

    他摇头:“它只是读字。怎么用这些字,还是人在定。”

    她没再问,合上笔记本,起身收拾饭盒。走到门口时,她停下,从包里抽出一张便签纸,写下一行字,贴在显示器边框上:“别忘了睡觉。系统重要,人更重要。”

    门关上后,教室只剩他一个人。

    他盯着那张便签看了两秒,转头看向服务器状态面板。网络连接正常,硬盘读写频率稳定。他打开另一个项目目录,双击进入“WebCrawler_Test”文件夹。

    这是他昨天就开始写的网页抓取脚本。基于VBScript,调用WinInet API模拟HTTP请求,目标是“新浪财经”首页的早盘快讯栏。他知道1998年的网站大多不用动态加载,内容直接嵌在HTML里,只要找到规律,就能批量提取。

    他启动程序。

    命令行窗口闪出几行返回码,接着输出一段HTML源码。标题抓到了,发布时间也解析出来,但正文链接全部为空。他检查网页结构,发现部分条目用了JavaScript跳转,而他的脚本无法执行脚本代码。

    他改用最笨的办法:手动分析URL规则。发现某些栏目页面的路径遵循“year/month/day_news_编号.html”格式。他根据当天日期生成一组预测链接,逐个发起请求。

    第四个链接成功返回内容。是一条关于央行票据发行的消息,共三百二十七字。他让程序将文本清洗后存入数据库,并标记来源和时间戳。

    效率很低。每请求一次,拨号网络要等待十五到四十秒,断线两次后自动重拨。他设定循环间隔为六分钟,预计每小时最多抓取十

↑返回顶部↑

书页/目录