ILoveOPT2007-04-27 00:55:20
大家知道myvisajobs.com上关于在美国工作学习的各种数据虽然很多, 其核心是2000年
以来的56万个工作绿卡和187万个h1b申请. 将来所有的web 2.0智能功能都将建立在这
些核心数据上面, 所以确保这些h1b与绿卡数据的准确性是网站压倒一切的任务.

这250多万个数据光不同的名字就有60多万个, 实际上办过h1b和绿卡的应该少于20万个
. 这显然无法用人工清理. 考虑到这些数据将以每年50万的速度增加(移民法案如果通
过, 每年可能增加100万), 现在我们迫切需要开发出完善的算法清理与统计数据. 过去
几个月来, 我们花了不少精力研究改进算法, 在高性能服务器上运行一次也要几天几夜
, 但结果还差强人意. 我们的目标是让所有办过十个以上H1b和绿卡的公司100%准确, 5
个以上的99%准确, 1个以上的98准确. 其他地点, 工资, 律师和职位分类什么的, 也有
一些问题, 但处理方法相对简单. 下面是公司名称的几种主要情况:

1. 最普遍的, 是company type(谢谢beijing mm). 以Inc.为例子, 有的有INC, 有的没
有, 有的用incorporated, 有的加点, 有的没有, 有空格没空格, 这是最容易解决的.

2. typo, 比如有的把century打成centvry, 不知道除了把WORD的spell check拉进来,
有没有其他更好的办法. 用spell check check公司名字, 显然不是好主意.

4. 学校最麻烦, 大概因为自由主义严重. 比如the university of ABC后面会跟无数变
种, 比如location, department或者经手部门, 有的还用缩写. 有的有the, 有的没the
, 里面的medical college什么的, 势力庞大, 往往是h1b的最大户(看这些数据的时候,
不禁觉得学生物的真不容易), 总是独立申请.

4. 细微错位, 比如communications, 少了个s, 也不能就算相同的公司, 因为到最后可
能发现是不同的公司.

5. 输入错误: 比如I2 technologies, 成了12 technologies, 除了人工纠错, 好象
没什么其他办法. 对于10个申请一下的公司, 这种错误恐怕没发处理了, 所以目标98%
准确就够了.


我不是学统计或其他数理化专业的, 所以虽然做了很多研究, 这方面知识终究有限.解
决方法往往是自己想出来的土办法, 我相信对这样的数据处理, 专业上肯定有更好的
办法, 希望有高手能够指点一二.
80152007-04-27 01:10:17
回复:H1B和绿卡, 有更好的数据清理与统计方法吗?
ILoveOPT2007-04-27 03:39:04
回复:回复:H1B和绿卡, 有更好的数据清理与统计方法吗?
d_outside2007-04-27 14:20:25
you need an expert to build data warehouse. After my gc :-)
TX_Kitty2007-04-27 15:25:08
SAS programmer can do this easily