Повелитель спама

  • Due Dec 17, 2013 at 12:59pm
  • Points 20
  • Questions 1
  • Available until Dec 17, 2013 at 12:59pm
  • Time Limit None
  • Allowed Attempts Unlimited

Instructions

Повелитель спама!


В этом задании Вы должны попробовать написать такое регулярное выражение, которое поможет Вам находить электронные адреса в интернете, и дальше использовать их в своих коварных целях ) 

Ваше регулярное выражение должно выделять следующие типы электронных адресов: 

jurafsky@stanford.edu

mgou@outlook.com

linguistics.mgou@gmail.com

И более сложные варианты: 

jurafsky(at)cs.stanford.edu

jurafsky at csli dot stanford dot edu

И совсем сложные варианты:

<script type="text/javascript">obfuscate('stanford.edu','jurafsky')</script>

Вам не придется иметь дело с электронными адресами, типа того, который указал Jim Martin : 

To send me email, try the simplest address that makes sense. :)
Ваша цель - добиться, чтобы количество False positive и False negative было минимально.
 
Рекомендую для разработки регулярного выражения пользоваться сайтом http://regexpal.com/
И пожалуйста помогайте друг другу с установкой и решением технических проблем, в том числе и через форум сайта.

 

Технические аспекты задания:

Для выполнения этого задания Вам понадобиться скачать и установить несколько программ. 

1) Сначала скачайте и установите Python 2.7.5:  http://www.python.org/ftp/python/2.7.3/python-2.7.3.msi

2) Затем скачайте и установите PyScripter (IDE для Python): http://pyscripter.googlecode.com/files/PyScripter-v2.5.3-Setup.exe

Рекомендую устанавливать всё в директории по умолчанию.

Теперь Вам надо скачать файлы задания:     pa1-spamlord-v5.zip

Для простоты предлагаю папку pa1-spamlord-v5 из этого архива разместить в корневом каталоге на диске С.

Когда все скачано, запустите PyScripter (иконка Питона с карандашом), и в нем запустите SpamLord.py :

Clipboard01.jpg

Теперь Вам нужно указать пути, где находятся нужные нам для работы файлы. Для этого заходим Run, затем - Command Line Parameters:

Clipboard02.jpg

и пишем там пути к папке \dev и файлу devGOLD (в данном случае папка 1 с заданием находится в корневом каталоге на диске С) :

"c:\1\data\dev\" "c:\1\data\devGOLD"

Clipboard03.jpg

Обратите внимание - надо поставить галочку в боксе Use Command Line Parameters

Теперь Вы можете работать над Вашим регулярным выражением и попытаться найти все возможные электронные адреса:

Clipboard05.jpg

 

SpamLord.docx - тут находится англ. версия инструкций по заданию.

 

 © from Dan Jurafsky and Chris Manning Natural Language Processing  course at Stanford University

 

Only registered, enrolled users can take graded quizzes